一種數(shù)據(jù)爬取方法、系統(tǒng)及設備

基本信息

申請?zhí)?/td> CN202010218979.5 申請日 -
公開(公告)號 CN111538883A 公開(公告)日 2020-08-14
申請公布號 CN111538883A 申請公布日 2020-08-14
分類號 G06F16/951(2019.01)I;G06F16/955(2019.01)I 分類 -
發(fā)明人 毛衛(wèi)南;苗潤蓮;毛維娜;張敏;向?qū)?張洪元 申請(專利權(quán))人 北京市科學技術(shù)情報研究所
代理機構(gòu) 北京知呱呱知識產(chǎn)權(quán)代理有限公司 代理人 北京市科學技術(shù)情報研究所
地址 100044北京市西城區(qū)西外大街140號首建金融中心10層
法律狀態(tài) -

摘要

摘要 本發(fā)明實施例公開了一種數(shù)據(jù)爬取方法、系統(tǒng)及設備,涉及網(wǎng)絡信息處理技術(shù)領域,通過流程控制數(shù)據(jù)爬取代理IP地址更換來進行數(shù)據(jù)爬取,相比于常規(guī)的代理IP爬取技術(shù),可以大規(guī)模頻繁更換數(shù)據(jù)爬取代理IP地址訪問目標網(wǎng)頁,更適合于目標網(wǎng)頁對登入后數(shù)據(jù)獲取連續(xù)性要求大的情況,解決了更換爬取代理IP地址導致數(shù)據(jù)獲取出現(xiàn)中斷的問題,最大限度的保留了數(shù)據(jù)的連續(xù)性,大大減少了后期數(shù)據(jù)處理上的復雜度,增加了數(shù)據(jù)爬取效率。??