一種用于帶驗證分布式智能爬取網(wǎng)絡(luò)信息的方法

基本信息

申請?zhí)?/td> CN201710005162.8 申請日 -
公開(公告)號 CN106897357A 公開(公告)日 2017-06-27
申請公布號 CN106897357A 申請公布日 2017-06-27
分類號 G06F17/30;G06F9/50 分類 計算;推算;計數(shù);
發(fā)明人 王文峰;楊振;許千帆 申請(專利權(quán))人 北京京拍檔科技股份有限公司
代理機構(gòu) 北京中企鴻陽知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 郭鴻雁
地址 100085 北京市海淀區(qū)上地十街1號院6號樓3層345
法律狀態(tài) -

摘要

摘要 本發(fā)明提出了一種用于帶驗證分布式智能爬取網(wǎng)絡(luò)信息的方法,包括:當(dāng)判斷網(wǎng)站的目標頁面數(shù)據(jù)需要登錄驗證后才能獲取時,從數(shù)據(jù)庫獲取相應(yīng)的登錄信息,通過瀏覽器自動登錄并提交驗證信息;啟動定時任務(wù)使用cookie訪問其網(wǎng)頁并留活處理;啟動網(wǎng)絡(luò)抓包檢測器,根據(jù)數(shù)據(jù)業(yè)務(wù)需求訪問相應(yīng)目標頁面,進行HTTP報文分析,定制爬蟲腳本,確定任務(wù)爬取數(shù)據(jù)量;由主節(jié)點發(fā)出廣播,通知相應(yīng)的任務(wù)節(jié)點,分發(fā)爬蟲腳本,任務(wù)節(jié)點啟動并向主節(jié)點任務(wù)隊列申請任務(wù),根據(jù)申請到的任務(wù)進行數(shù)據(jù)爬取,將爬取的目標數(shù)據(jù)存入隊列,進而批量存入數(shù)據(jù)庫。本發(fā)明實現(xiàn)可自動登錄訪問受保護頁面,自動生成挖掘腳本的,快速的可擴展的分布式網(wǎng)頁爬蟲綜合框架。