一種分布式垂直爬蟲服務(wù)系統(tǒng)的優(yōu)化方法

基本信息

申請?zhí)?/td> CN201510579329.2 申請日 -
公開(公告)號 CN105260388A 公開(公告)日 2016-01-20
申請公布號 CN105260388A 申請公布日 2016-01-20
分類號 G06F17/30(2006.01)I;G06F9/44(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 閆峰;李桂兵;魏繼超 申請(專利權(quán))人 廣州極數(shù)寶數(shù)據(jù)服務(wù)有限公司
代理機構(gòu) 廣州知友專利商標代理有限公司 代理人 宣國華
地址 510635 廣東省廣州市天河區(qū)天河北路890號9樓自編902房
法律狀態(tài) -

摘要

摘要 本發(fā)明的目的在于提供一種分布式垂直爬蟲服務(wù)系統(tǒng)的優(yōu)化方法,該方法將原有的爬蟲服務(wù)系統(tǒng)拆分為下載服務(wù)和頁面分析邏輯兩部分,且將該下載服務(wù)和分析邏輯均部署在多個云主機上,任務(wù)隊列也拆分為下載任務(wù)隊列和分析任務(wù)隊列。本發(fā)明方法優(yōu)化的爬蟲服務(wù)系統(tǒng)能夠提升垂直爬蟲在處理大量數(shù)據(jù)信息時的效率,增強對對采用了延遲加載的動態(tài)HTML頁面的抓取能力,對于頁面下載邏輯和分析處理邏輯進行有效地管理和擴展,對網(wǎng)站主的爬蟲防御策略提供有效地規(guī)避。