一種docker分布式網(wǎng)頁爬蟲方法及系統(tǒng)

基本信息

申請?zhí)?/td> CN201911353722.4 申請日 -
公開(公告)號 CN113032652A 公開(公告)日 2021-06-25
申請公布號 CN113032652A 申請公布日 2021-06-25
分類號 G06F16/951(2019.01)I;G06F16/955(2019.01)I;G06F9/455(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 孫香娟;姜波;周彥其;李鑫 申請(專利權(quán))人 中文在線集團股份有限公司
代理機構(gòu) 北京市盛峰律師事務所 代理人 于國強
地址 100005北京市東城區(qū)東總布胡同58號天潤財富中心14層1401單元
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種docker分布式網(wǎng)頁爬蟲方法及系統(tǒng),所述方法包括如下步驟,S1、接收目標URL的爬取需求,根據(jù)爬取需求指明爬取內(nèi)容和起始URL;S2、按照預設爬蟲規(guī)則編寫數(shù)據(jù)采集指令;S3、根據(jù)所述數(shù)據(jù)采集指令調(diào)用相應的采集程序,采集指定的數(shù)據(jù)資源;S4、解析采集到的指定的數(shù)據(jù)資源,獲取并存儲符合設定爬蟲規(guī)則的URL;S5、重復步驟S2?S4,直到目標URL采集完畢,或者是,采集的符合設定爬蟲規(guī)則的URL達到預設最大采集數(shù)量,停止采集。優(yōu)點是:提高了網(wǎng)頁爬蟲程序采集和部署速度,并且提高了擴展性。