一種突破IP限制的爬蟲(chóng)實(shí)現(xiàn)方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN201610729927.8 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN106331108A 公開(kāi)(公告)日 2017-01-11
申請(qǐng)公布號(hào) CN106331108A 申請(qǐng)公布日 2017-01-11
分類(lèi)號(hào) H04L29/08(2006.01)I;G06F17/30(2006.01)I 分類(lèi) 電通信技術(shù);
發(fā)明人 周灝;董超 申請(qǐng)(專(zhuān)利權(quán))人 北京量科邦信息技術(shù)有限公司
代理機(jī)構(gòu) 北京和信華成知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 胡劍輝
地址 100080 北京市海淀區(qū)丹棱街甲1號(hào)互聯(lián)網(wǎng)金融中心11層1102
法律狀態(tài) -

摘要

摘要 一種突破IP限制的爬蟲(chóng)實(shí)現(xiàn)方法,包括:(1)爬蟲(chóng)調(diào)度服務(wù)器下發(fā)一個(gè)抓取任務(wù),抓取任務(wù)包含任務(wù)ID、HTTP請(qǐng)求的URL以及全部參數(shù)、最長(zhǎng)等待時(shí)間;(2)客戶(hù)端接收到抓取任務(wù)后,立即發(fā)起HTTP請(qǐng)求來(lái)抓取相應(yīng)的頁(yè)面;(3)頁(yè)面抓取完成,檢查有沒(méi)有超過(guò)最長(zhǎng)等待時(shí)間,若沒(méi)有超過(guò)最長(zhǎng)等待時(shí)間,則執(zhí)行步驟(4),否則執(zhí)行步驟(1);(4)將抓取到的數(shù)據(jù)發(fā)送到爬蟲(chóng)調(diào)度服務(wù)器,同時(shí)標(biāo)注任務(wù)ID,抓取到的數(shù)據(jù)為HTTP響應(yīng)返回的字符串。還提供了一種突破IP限制的爬蟲(chóng)實(shí)現(xiàn)系統(tǒng)。