一種基于相似度比較的URL去重方法和系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN201611182696.X 申請(qǐng)日 -
公開(公告)號(hào) CN106407485B 公開(公告)日 2017-12-26
申請(qǐng)公布號(hào) CN106407485B 申請(qǐng)公布日 2017-12-26
分類號(hào) G06F17/30(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 林子忠;歐偉;茅曉萍;謝嘉錚 申請(qǐng)(專利權(quán))人 福建六壬網(wǎng)安股份有限公司
代理機(jī)構(gòu) 福州科揚(yáng)專利事務(wù)所 代理人 福建六壬網(wǎng)安股份有限公司
地址 350015 福建省福州市馬尾區(qū)馬尾圖書館第四層(自貿(mào)試驗(yàn)區(qū)內(nèi))
法律狀態(tài) -

摘要

摘要 本發(fā)明的一種基于相似度比較的URL去重方法和系統(tǒng),通過導(dǎo)入U(xiǎn)RL并提取URL的特征,將URL特征與布隆過濾器進(jìn)行比對(duì),如果查詢到布隆過濾器中存儲(chǔ)有該URL特征對(duì)應(yīng)的特征,則過濾該URL,所述URL特征包括一種以上的特征,代替了現(xiàn)有技術(shù)中的哈希函數(shù),可以匹配更準(zhǔn)確的URL網(wǎng)頁(yè)數(shù)據(jù)。通過相似度比較并過濾可以快速、準(zhǔn)確解決網(wǎng)頁(yè)頁(yè)面重復(fù)或相似的重復(fù)爬行或掃描工作,可以提高爬蟲以及掃描的有效性和效率。