一種基于相似度比較的URL去重方法和系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN201611182696.X | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN106407485B | 公開(公告)日 | 2017-12-26 |
申請(qǐng)公布號(hào) | CN106407485B | 申請(qǐng)公布日 | 2017-12-26 |
分類號(hào) | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 林子忠;歐偉;茅曉萍;謝嘉錚 | 申請(qǐng)(專利權(quán))人 | 福建六壬網(wǎng)安股份有限公司 |
代理機(jī)構(gòu) | 福州科揚(yáng)專利事務(wù)所 | 代理人 | 福建六壬網(wǎng)安股份有限公司 |
地址 | 350015 福建省福州市馬尾區(qū)馬尾圖書館第四層(自貿(mào)試驗(yàn)區(qū)內(nèi)) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明的一種基于相似度比較的URL去重方法和系統(tǒng),通過導(dǎo)入U(xiǎn)RL并提取URL的特征,將URL特征與布隆過濾器進(jìn)行比對(duì),如果查詢到布隆過濾器中存儲(chǔ)有該URL特征對(duì)應(yīng)的特征,則過濾該URL,所述URL特征包括一種以上的特征,代替了現(xiàn)有技術(shù)中的哈希函數(shù),可以匹配更準(zhǔn)確的URL網(wǎng)頁(yè)數(shù)據(jù)。通過相似度比較并過濾可以快速、準(zhǔn)確解決網(wǎng)頁(yè)頁(yè)面重復(fù)或相似的重復(fù)爬行或掃描工作,可以提高爬蟲以及掃描的有效性和效率。 |
