一種基于瀏覽器端的爬蟲、分布式爬蟲系統(tǒng)及方法
基本信息
申請?zhí)?/td> | CN201810240792.8 | 申請日 | - |
公開(公告)號 | CN108595510A | 公開(公告)日 | 2018-09-28 |
申請公布號 | CN108595510A | 申請公布日 | 2018-09-28 |
分類號 | G06F17/30;G06F9/50 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 張琳艷;趙仁杰 | 申請(專利權(quán))人 | 成都數(shù)聚城堡科技有限公司 |
代理機(jī)構(gòu) | 泰和泰律師事務(wù)所 | 代理人 | 成都數(shù)聚城堡科技有限公司 |
地址 | 610000 四川省成都市高新區(qū)天府大道中段688號3棟1401號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供一種基于瀏覽器端的爬蟲、分布式爬蟲系統(tǒng)及方法。基于瀏覽器端的爬蟲的程序嵌套在網(wǎng)頁中,用戶在瀏覽器中打開相應(yīng)頁面,爬蟲程序被下載到本地并啟動,在用戶客戶端新生成一個爬蟲?;跒g覽器端的分布式爬蟲系統(tǒng),包括基于瀏覽器端的爬蟲和服務(wù)器子系統(tǒng),服務(wù)器子系統(tǒng)的頁面嵌套有所述基于瀏覽器端的爬蟲的程序,用戶在瀏覽器中打開所述頁面,基于瀏覽器端的爬蟲程序被啟動,在用戶客戶端新生成一個爬蟲?;跒g覽器端的爬蟲的工作方法,包括用戶通過瀏覽器訪問系統(tǒng)服務(wù)器,打開網(wǎng)頁加載網(wǎng)頁正文,在限定時間內(nèi)加載成功則下載爬蟲腳本,否則放棄本次爬蟲等步驟。本客戶端爬蟲明顯減輕服務(wù)器端的運算負(fù)荷,且IP池由用戶客戶端提供。 |
