一種基于網(wǎng)絡(luò)爬蟲的文本信息爬取方法
基本信息
申請?zhí)?/td> | CN201810705012.2 | 申請日 | - |
公開(公告)號 | CN109002508B | 公開(公告)日 | 2021-08-06 |
申請公布號 | CN109002508B | 申請公布日 | 2021-08-06 |
分類號 | G06F16/951;G06F16/955;G06F16/33;G06F40/211;G06F40/289 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 向湘杰 | 申請(專利權(quán))人 | 東莞市華睿電子科技有限公司 |
代理機構(gòu) | 北京成實知識產(chǎn)權(quán)代理有限公司 | 代理人 | 陳永虔 |
地址 | 200000 上海市嘉定區(qū)尚學路225、229號3幢2078室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種基于網(wǎng)絡(luò)爬蟲的文本信息爬取方法,通過服務(wù)器獲取網(wǎng)絡(luò)爬蟲任務(wù)的配置文件和第一文本;所述服務(wù)器根據(jù)所述配置文件開啟網(wǎng)絡(luò)URL信息爬取,并將爬取的信息整合為待處理信息;所述服務(wù)器對所述待處理信息進行查重及刪除重復內(nèi)容處理后,得到第二文本;所述服務(wù)器計算第一文本與第二文本之間的相似度,若相似度超出預設(shè)閾值,則輸出第二文本。本發(fā)明基于網(wǎng)絡(luò)爬蟲進行信息獲取,并針對第一文本和第二文本的相似度判定本次爬取的信息是否符合要求,所以提高了信息爬取的效率。 |
