一種搜集深網(wǎng)數(shù)據(jù)全集的爬蟲方法和系統(tǒng)

基本信息

申請?zhí)?/td> CN201510885882.9 申請日 -
公開(公告)號 CN105528414B 公開(公告)日 2019-07-05
申請公布號 CN105528414B 申請公布日 2019-07-05
分類號 G06F16/953(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 李歡; 孫陽; 周偉斌; 武江; 張元明 申請(專利權(quán))人 化學(xué)工業(yè)出版社有限公司
代理機構(gòu) 北京同立鈞成知識產(chǎn)權(quán)代理有限公司 代理人 北京航空航天大學(xué); 化學(xué)工業(yè)出版社
地址 100191 北京市海淀區(qū)北京航空航天大學(xué)7-28#信箱
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種搜集深網(wǎng)數(shù)據(jù)全集的爬蟲方法和系統(tǒng),其中,搜集深網(wǎng)數(shù)據(jù)全集的爬蟲方法包括:根據(jù)關(guān)鍵詞匯進(jìn)行深網(wǎng)數(shù)據(jù)搜索,獲得查詢結(jié)果;若所述查詢結(jié)果溢出,則對所述查詢結(jié)果進(jìn)行分詞處理獲得特征詞集合,將所述特征詞集合中的每個特征詞與上一次搜索中的所述關(guān)鍵詞匯進(jìn)行組合獲得多個新關(guān)鍵詞匯,根據(jù)每個新關(guān)鍵詞匯進(jìn)行深網(wǎng)數(shù)據(jù)搜索獲得所有新關(guān)鍵詞匯的全部查詢結(jié)果;若所述全部查詢結(jié)果中至少一個所述新關(guān)鍵詞匯的查詢結(jié)果溢出,則繼續(xù)對溢出的所述新關(guān)鍵詞匯的查詢結(jié)果進(jìn)行分詞處理以及深網(wǎng)數(shù)據(jù)搜索,直至全部查詢結(jié)果非溢出。本發(fā)明提供的搜集深網(wǎng)數(shù)據(jù)全集的爬蟲方法,可以獲得深網(wǎng)數(shù)據(jù)搜索全集。