一種眾包網(wǎng)絡爬蟲抓取數(shù)據(jù)的檢測方法及系統(tǒng)

基本信息

申請?zhí)?/td> CN201610737578.4 申請日 -
公開(公告)號 CN106326447A 公開(公告)日 2017-01-11
申請公布號 CN106326447A 申請公布日 2017-01-11
分類號 G06F17/30(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 周灝;董超 申請(專利權)人 北京量科邦信息技術有限公司
代理機構 北京和信華成知識產(chǎn)權代理事務所(普通合伙) 代理人 胡劍輝
地址 100080 北京市海淀區(qū)丹棱街甲1號互聯(lián)網(wǎng)金融中心11層1102
法律狀態(tài) -

摘要

摘要 一種眾包網(wǎng)絡爬蟲抓取數(shù)據(jù)的檢測方法,其能夠確保眾包網(wǎng)絡爬蟲抓取的數(shù)據(jù)是真實可靠的。這種眾包網(wǎng)絡爬蟲抓取數(shù)據(jù)的檢測方法,將服務器作為爬蟲客戶端抓取結果的檢驗中心,爬蟲客戶端把抓取的頁面內(nèi)容上傳到檢驗中心,檢驗中心將多個爬蟲客戶端上傳的內(nèi)容進行對比,如果結果相同則給各個爬蟲客戶端加信用分;如果結果不相同,則再下發(fā)一次任務,重新檢驗這幾個爬蟲客戶端,以辨別優(yōu)劣,而后進行相應的信用分加減;信用分表示爬蟲客戶端的可靠程度,優(yōu)先選擇信用分高的爬蟲客戶端來完成抓取任務。還提供了一種眾包網(wǎng)絡爬蟲抓取數(shù)據(jù)的檢測系統(tǒng)。