一種基于瀏覽器端的爬蟲、分布式爬蟲系統(tǒng)及方法

基本信息

申請?zhí)?/td> CN201810240792.8 申請日 -
公開(公告)號 CN108595510A 公開(公告)日 2018-09-28
申請公布號 CN108595510A 申請公布日 2018-09-28
分類號 G06F17/30;G06F9/50 分類 計算;推算;計數(shù);
發(fā)明人 張琳艷;趙仁杰 申請(專利權(quán))人 成都數(shù)聚城堡科技有限公司
代理機(jī)構(gòu) 泰和泰律師事務(wù)所 代理人 成都數(shù)聚城堡科技有限公司
地址 610000 四川省成都市高新區(qū)天府大道中段688號3棟1401號
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種基于瀏覽器端的爬蟲、分布式爬蟲系統(tǒng)及方法。基于瀏覽器端的爬蟲的程序嵌套在網(wǎng)頁中,用戶在瀏覽器中打開相應(yīng)頁面,爬蟲程序被下載到本地并啟動,在用戶客戶端新生成一個爬蟲?;跒g覽器端的分布式爬蟲系統(tǒng),包括基于瀏覽器端的爬蟲和服務(wù)器子系統(tǒng),服務(wù)器子系統(tǒng)的頁面嵌套有所述基于瀏覽器端的爬蟲的程序,用戶在瀏覽器中打開所述頁面,基于瀏覽器端的爬蟲程序被啟動,在用戶客戶端新生成一個爬蟲?;跒g覽器端的爬蟲的工作方法,包括用戶通過瀏覽器訪問系統(tǒng)服務(wù)器,打開網(wǎng)頁加載網(wǎng)頁正文,在限定時間內(nèi)加載成功則下載爬蟲腳本,否則放棄本次爬蟲等步驟。本客戶端爬蟲明顯減輕服務(wù)器端的運算負(fù)荷,且IP池由用戶客戶端提供。