一種突破IP限制的爬蟲(chóng)實(shí)現(xiàn)方法及系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN201610729927.8 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN106331108A | 公開(kāi)(公告)日 | 2017-01-11 |
申請(qǐng)公布號(hào) | CN106331108A | 申請(qǐng)公布日 | 2017-01-11 |
分類(lèi)號(hào) | H04L29/08(2006.01)I;G06F17/30(2006.01)I | 分類(lèi) | 電通信技術(shù); |
發(fā)明人 | 周灝;董超 | 申請(qǐng)(專(zhuān)利權(quán))人 | 北京量科邦信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 北京和信華成知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 胡劍輝 |
地址 | 100080 北京市海淀區(qū)丹棱街甲1號(hào)互聯(lián)網(wǎng)金融中心11層1102 | ||
法律狀態(tài) | - |
摘要
摘要 | 一種突破IP限制的爬蟲(chóng)實(shí)現(xiàn)方法,包括:(1)爬蟲(chóng)調(diào)度服務(wù)器下發(fā)一個(gè)抓取任務(wù),抓取任務(wù)包含任務(wù)ID、HTTP請(qǐng)求的URL以及全部參數(shù)、最長(zhǎng)等待時(shí)間;(2)客戶(hù)端接收到抓取任務(wù)后,立即發(fā)起HTTP請(qǐng)求來(lái)抓取相應(yīng)的頁(yè)面;(3)頁(yè)面抓取完成,檢查有沒(méi)有超過(guò)最長(zhǎng)等待時(shí)間,若沒(méi)有超過(guò)最長(zhǎng)等待時(shí)間,則執(zhí)行步驟(4),否則執(zhí)行步驟(1);(4)將抓取到的數(shù)據(jù)發(fā)送到爬蟲(chóng)調(diào)度服務(wù)器,同時(shí)標(biāo)注任務(wù)ID,抓取到的數(shù)據(jù)為HTTP響應(yīng)返回的字符串。還提供了一種突破IP限制的爬蟲(chóng)實(shí)現(xiàn)系統(tǒng)。 |
