一種數(shù)據(jù)爬取方法、系統(tǒng)及設備
基本信息
申請?zhí)?/td> | CN202010218979.5 | 申請日 | - |
公開(公告)號 | CN111538883A | 公開(公告)日 | 2020-08-14 |
申請公布號 | CN111538883A | 申請公布日 | 2020-08-14 |
分類號 | G06F16/951(2019.01)I;G06F16/955(2019.01)I | 分類 | - |
發(fā)明人 | 毛衛(wèi)南;苗潤蓮;毛維娜;張敏;向?qū)?張洪元 | 申請(專利權(quán))人 | 北京市科學技術(shù)情報研究所 |
代理機構(gòu) | 北京知呱呱知識產(chǎn)權(quán)代理有限公司 | 代理人 | 北京市科學技術(shù)情報研究所 |
地址 | 100044北京市西城區(qū)西外大街140號首建金融中心10層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明實施例公開了一種數(shù)據(jù)爬取方法、系統(tǒng)及設備,涉及網(wǎng)絡信息處理技術(shù)領域,通過流程控制數(shù)據(jù)爬取代理IP地址更換來進行數(shù)據(jù)爬取,相比于常規(guī)的代理IP爬取技術(shù),可以大規(guī)模頻繁更換數(shù)據(jù)爬取代理IP地址訪問目標網(wǎng)頁,更適合于目標網(wǎng)頁對登入后數(shù)據(jù)獲取連續(xù)性要求大的情況,解決了更換爬取代理IP地址導致數(shù)據(jù)獲取出現(xiàn)中斷的問題,最大限度的保留了數(shù)據(jù)的連續(xù)性,大大減少了后期數(shù)據(jù)處理上的復雜度,增加了數(shù)據(jù)爬取效率。?? |
