一種基于分布式網(wǎng)絡(luò)爬蟲的內(nèi)容聚合方法

基本信息

申請?zhí)?/td> CN201510724024.6 申請日 -
公開(公告)號 CN105279272A 公開(公告)日 2016-01-27
申請公布號 CN105279272A 申請公布日 2016-01-27
分類號 G06F17/30(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 黃韜;魏亮;魏靜波;鄧曉濤;周洪利 申請(專利權(quán))人 江蘇未來網(wǎng)絡(luò)集團有限公司
代理機構(gòu) 江蘇圣典律師事務(wù)所 代理人 南京未來網(wǎng)絡(luò)產(chǎn)業(yè)創(chuàng)新有限公司
地址 211100 江蘇省南京市江寧經(jīng)濟開發(fā)區(qū)秣周東路12號悠谷2號樓1503室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種基于分布式網(wǎng)絡(luò)爬蟲的內(nèi)容聚合方法,首先將不同的爬蟲平臺設(shè)置在不同的設(shè)備上,向爬取的網(wǎng)絡(luò)信息來源端發(fā)送請求,爬蟲平臺根據(jù)用戶所需求的目標(biāo)信息制定爬取規(guī)則,抓取目標(biāo)用戶所感興趣的信息;將所述爬取得到的網(wǎng)絡(luò)信息進行處理,基于實時數(shù)據(jù)庫中的數(shù)據(jù)傳遞及轉(zhuǎn)換方法結(jié)合局部敏感哈希(LSH)方法,結(jié)合局部敏感哈希(LSH)方法,進行相似度檢測從而降低信息的冗余度;系統(tǒng)對篩選過的信息按類別、熱度、關(guān)鍵字進行分類排序,并展示在用戶設(shè)備上。該方法根據(jù)實際網(wǎng)絡(luò)中獲取得到的數(shù)據(jù)信息進行LSH進行相似度對比得到對比結(jié)果,與現(xiàn)有技術(shù)中采用傳統(tǒng)的整條數(shù)據(jù)查重方式得到的對比結(jié)果,其計算速度更快、相似度對比更精確。