一種用于帶驗證分布式智能爬取網(wǎng)絡(luò)信息的方法
基本信息
申請?zhí)?/td> | CN201710005162.8 | 申請日 | - |
公開(公告)號 | CN106897357A | 公開(公告)日 | 2017-06-27 |
申請公布號 | CN106897357A | 申請公布日 | 2017-06-27 |
分類號 | G06F17/30;G06F9/50 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 王文峰;楊振;許千帆 | 申請(專利權(quán))人 | 北京京拍檔科技股份有限公司 |
代理機構(gòu) | 北京中企鴻陽知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 郭鴻雁 |
地址 | 100085 北京市海淀區(qū)上地十街1號院6號樓3層345 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提出了一種用于帶驗證分布式智能爬取網(wǎng)絡(luò)信息的方法,包括:當(dāng)判斷網(wǎng)站的目標頁面數(shù)據(jù)需要登錄驗證后才能獲取時,從數(shù)據(jù)庫獲取相應(yīng)的登錄信息,通過瀏覽器自動登錄并提交驗證信息;啟動定時任務(wù)使用cookie訪問其網(wǎng)頁并留活處理;啟動網(wǎng)絡(luò)抓包檢測器,根據(jù)數(shù)據(jù)業(yè)務(wù)需求訪問相應(yīng)目標頁面,進行HTTP報文分析,定制爬蟲腳本,確定任務(wù)爬取數(shù)據(jù)量;由主節(jié)點發(fā)出廣播,通知相應(yīng)的任務(wù)節(jié)點,分發(fā)爬蟲腳本,任務(wù)節(jié)點啟動并向主節(jié)點任務(wù)隊列申請任務(wù),根據(jù)申請到的任務(wù)進行數(shù)據(jù)爬取,將爬取的目標數(shù)據(jù)存入隊列,進而批量存入數(shù)據(jù)庫。本發(fā)明實現(xiàn)可自動登錄訪問受保護頁面,自動生成挖掘腳本的,快速的可擴展的分布式網(wǎng)頁爬蟲綜合框架。 |
