一種分布式爬蟲引擎的URL抓取方法及系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN201611037722.X | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN106776768B | 公開(公告)日 | 2018-02-02 |
申請(qǐng)公布號(hào) | CN106776768B | 申請(qǐng)公布日 | 2018-02-02 |
分類號(hào) | G06F17/30;G06F9/50 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 王琦;林子忠;歐偉;茅曉萍 | 申請(qǐng)(專利權(quán))人 | 福建六壬網(wǎng)安股份有限公司 |
代理機(jī)構(gòu) | 福州科揚(yáng)專利事務(wù)所 | 代理人 | 福建六壬網(wǎng)安股份有限公司 |
地址 | 350015 福建省福州市馬尾區(qū)馬尾圖書館第四層(自貿(mào)試驗(yàn)區(qū)內(nèi)) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明所述的一種分布式爬蟲引擎的URL抓取方法,包括如下步驟:S100:采集URL任務(wù)并存儲(chǔ);S200:基于網(wǎng)站哈希值的任務(wù)劃分策略,將具有相同域名的URL集合分配給同一爬取節(jié)點(diǎn)進(jìn)行爬取,并匯總爬取結(jié)果;S300:將所爬取的URL任務(wù)所對(duì)應(yīng)的原始網(wǎng)頁(yè)進(jìn)行分布式并行聚類,去除噪聲URL任務(wù);S400:消除去除噪聲后的URL任務(wù)內(nèi)重復(fù)的URL任務(wù);S500:判斷已經(jīng)過(guò)消除重復(fù)的URL任務(wù)已抓取層數(shù)是否小于預(yù)設(shè)值,若是則返回步驟S300;若否則執(zhí)行步驟S600;S600:將每一層抓取的URL任務(wù)對(duì)應(yīng)的原始網(wǎng)頁(yè)進(jìn)行合并。將URL任務(wù)依據(jù)域名劃分給不同的爬取節(jié)點(diǎn),不同的爬取節(jié)點(diǎn)處理不同域名的URL任務(wù),減輕每一爬取節(jié)點(diǎn)的任務(wù)負(fù)載量。 |
