一種基于網(wǎng)絡(luò)爬蟲的文本信息爬取方法

基本信息

申請(qǐng)?zhí)?/td> CN201810705012.2 申請(qǐng)日 -
公開(公告)號(hào) CN109002508B 公開(公告)日 2021-08-06
申請(qǐng)公布號(hào) CN109002508B 申請(qǐng)公布日 2021-08-06
分類號(hào) G06F16/951;G06F16/955;G06F16/33;G06F40/211;G06F40/289 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 向湘杰 申請(qǐng)(專利權(quán))人 東莞市華睿電子科技有限公司
代理機(jī)構(gòu) 北京成實(shí)知識(shí)產(chǎn)權(quán)代理有限公司 代理人 陳永虔
地址 200000 上海市嘉定區(qū)尚學(xué)路225、229號(hào)3幢2078室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種基于網(wǎng)絡(luò)爬蟲的文本信息爬取方法,通過服務(wù)器獲取網(wǎng)絡(luò)爬蟲任務(wù)的配置文件和第一文本;所述服務(wù)器根據(jù)所述配置文件開啟網(wǎng)絡(luò)URL信息爬取,并將爬取的信息整合為待處理信息;所述服務(wù)器對(duì)所述待處理信息進(jìn)行查重及刪除重復(fù)內(nèi)容處理后,得到第二文本;所述服務(wù)器計(jì)算第一文本與第二文本之間的相似度,若相似度超出預(yù)設(shè)閾值,則輸出第二文本。本發(fā)明基于網(wǎng)絡(luò)爬蟲進(jìn)行信息獲取,并針對(duì)第一文本和第二文本的相似度判定本次爬取的信息是否符合要求,所以提高了信息爬取的效率。