一種分布式爬蟲引擎的URL抓取方法及系統(tǒng)
基本信息
申請?zhí)?/td> | CN201611037722.X | 申請日 | - |
公開(公告)號 | CN106776768B | 公開(公告)日 | 2018-02-02 |
申請公布號 | CN106776768B | 申請公布日 | 2018-02-02 |
分類號 | G06F17/30;G06F9/50 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 王琦;林子忠;歐偉;茅曉萍 | 申請(專利權)人 | 福建六壬網(wǎng)安股份有限公司 |
代理機構 | 福州科揚專利事務所 | 代理人 | 福建六壬網(wǎng)安股份有限公司 |
地址 | 350015 福建省福州市馬尾區(qū)馬尾圖書館第四層(自貿試驗區(qū)內) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明所述的一種分布式爬蟲引擎的URL抓取方法,包括如下步驟:S100:采集URL任務并存儲;S200:基于網(wǎng)站哈希值的任務劃分策略,將具有相同域名的URL集合分配給同一爬取節(jié)點進行爬取,并匯總爬取結果;S300:將所爬取的URL任務所對應的原始網(wǎng)頁進行分布式并行聚類,去除噪聲URL任務;S400:消除去除噪聲后的URL任務內重復的URL任務;S500:判斷已經過消除重復的URL任務已抓取層數(shù)是否小于預設值,若是則返回步驟S300;若否則執(zhí)行步驟S600;S600:將每一層抓取的URL任務對應的原始網(wǎng)頁進行合并。將URL任務依據(jù)域名劃分給不同的爬取節(jié)點,不同的爬取節(jié)點處理不同域名的URL任務,減輕每一爬取節(jié)點的任務負載量。 |
