一種docker分布式網(wǎng)頁爬蟲方法及系統(tǒng)
基本信息
申請?zhí)?/td> | CN201911353722.4 | 申請日 | - |
公開(公告)號 | CN113032652A | 公開(公告)日 | 2021-06-25 |
申請公布號 | CN113032652A | 申請公布日 | 2021-06-25 |
分類號 | G06F16/951(2019.01)I;G06F16/955(2019.01)I;G06F9/455(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 孫香娟;姜波;周彥其;李鑫 | 申請(專利權(quán))人 | 中文在線集團股份有限公司 |
代理機構(gòu) | 北京市盛峰律師事務所 | 代理人 | 于國強 |
地址 | 100005北京市東城區(qū)東總布胡同58號天潤財富中心14層1401單元 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種docker分布式網(wǎng)頁爬蟲方法及系統(tǒng),所述方法包括如下步驟,S1、接收目標URL的爬取需求,根據(jù)爬取需求指明爬取內(nèi)容和起始URL;S2、按照預設爬蟲規(guī)則編寫數(shù)據(jù)采集指令;S3、根據(jù)所述數(shù)據(jù)采集指令調(diào)用相應的采集程序,采集指定的數(shù)據(jù)資源;S4、解析采集到的指定的數(shù)據(jù)資源,獲取并存儲符合設定爬蟲規(guī)則的URL;S5、重復步驟S2?S4,直到目標URL采集完畢,或者是,采集的符合設定爬蟲規(guī)則的URL達到預設最大采集數(shù)量,停止采集。優(yōu)點是:提高了網(wǎng)頁爬蟲程序采集和部署速度,并且提高了擴展性。 |
