一種搜集深網(wǎng)數(shù)據(jù)全集的爬蟲方法和系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN201510885882.9 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN105528414A | 公開(公告)日 | 2016-04-27 |
申請(qǐng)公布號(hào) | CN105528414A | 申請(qǐng)公布日 | 2016-04-27 |
分類號(hào) | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 李歡;孫陽(yáng);周偉斌;武江;張?jiān)?/td> | 申請(qǐng)(專利權(quán))人 | 化學(xué)工業(yè)出版社有限公司 |
代理機(jī)構(gòu) | 北京同立鈞成知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 北京航空航天大學(xué);化學(xué)工業(yè)出版社 |
地址 | 100191 北京市海淀區(qū)北京航空航天大學(xué)7-28#信箱 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供一種搜集深網(wǎng)數(shù)據(jù)全集的爬蟲方法和系統(tǒng),其中,搜集深網(wǎng)數(shù)據(jù)全集的爬蟲方法包括:根據(jù)關(guān)鍵詞匯進(jìn)行深網(wǎng)數(shù)據(jù)搜索,獲得查詢結(jié)果;若所述查詢結(jié)果溢出,則對(duì)所述查詢結(jié)果進(jìn)行分詞處理獲得特征詞集合,將所述特征詞集合中的每個(gè)特征詞與上一次搜索中的所述關(guān)鍵詞匯進(jìn)行組合獲得多個(gè)新關(guān)鍵詞匯,根據(jù)每個(gè)新關(guān)鍵詞匯進(jìn)行深網(wǎng)數(shù)據(jù)搜索獲得所有新關(guān)鍵詞匯的全部查詢結(jié)果;若所述全部查詢結(jié)果中至少一個(gè)所述新關(guān)鍵詞匯的查詢結(jié)果溢出,則繼續(xù)對(duì)溢出的所述新關(guān)鍵詞匯的查詢結(jié)果進(jìn)行分詞處理以及深網(wǎng)數(shù)據(jù)搜索,直至全部查詢結(jié)果非溢出。本發(fā)明提供的搜集深網(wǎng)數(shù)據(jù)全集的爬蟲方法,可以獲得深網(wǎng)數(shù)據(jù)搜索全集。 |
