一種分布式爬蟲系統(tǒng)任務(wù)抓取系統(tǒng)和方法

基本信息

申請?zhí)?/td> CN201510564985.5 申請日 -
公開(公告)號 CN106503017A 公開(公告)日 2017-03-15
申請公布號 CN106503017A 申請公布日 2017-03-15
分類號 G06F17/30(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 張國強(qiáng) 申請(專利權(quán))人 摩貝(上海)生物科技有限公司
代理機(jī)構(gòu) 上海翰信知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 摩貝(上海)生物科技有限公司;上海摩庫數(shù)據(jù)技術(shù)有限公司
地址 200131 上海市浦東新區(qū)自由貿(mào)易試驗區(qū)富特北路399號1幢樓6層6020室
法律狀態(tài) -

摘要

摘要 本發(fā)明包括爬蟲控制端、爬蟲抓取端、任務(wù)監(jiān)控模塊,爬蟲抓取端獲取相應(yīng)的任務(wù),將任務(wù)數(shù)據(jù)傳送給爬蟲控制端;爬蟲控制端定義任務(wù)編號和任務(wù)超時時間,并產(chǎn)生任務(wù)分發(fā)事件,存儲任務(wù)分發(fā)的時間戳數(shù)據(jù);將任務(wù)分發(fā)給任務(wù)監(jiān)控模塊和爬蟲抓取端,爬蟲抓取端對抓取任務(wù)執(zhí)行相應(yīng)的抓取邏輯,將任務(wù)完成信息傳送給爬蟲控制端,若發(fā)生異常情況,導(dǎo)致抓取任務(wù)無法正確的被執(zhí)行時,可以通過任務(wù)監(jiān)控模塊重新將任務(wù)推送給爬蟲控制端,避免了由于網(wǎng)絡(luò)原因、任務(wù)無法執(zhí)行的情況。