一種基于瀏覽器端的爬蟲(chóng)、分布式爬蟲(chóng)系統(tǒng)及方法

基本信息

申請(qǐng)?zhí)?/td> CN201810240792.8 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN108595510A 公開(kāi)(公告)日 2018-09-28
申請(qǐng)公布號(hào) CN108595510A 申請(qǐng)公布日 2018-09-28
分類(lèi)號(hào) G06F17/30;G06F9/50 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 張琳艷;趙仁杰 申請(qǐng)(專(zhuān)利權(quán))人 成都數(shù)聚城堡科技有限公司
代理機(jī)構(gòu) 泰和泰律師事務(wù)所 代理人 成都數(shù)聚城堡科技有限公司
地址 610000 四川省成都市高新區(qū)天府大道中段688號(hào)3棟1401號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種基于瀏覽器端的爬蟲(chóng)、分布式爬蟲(chóng)系統(tǒng)及方法?;跒g覽器端的爬蟲(chóng)的程序嵌套在網(wǎng)頁(yè)中,用戶(hù)在瀏覽器中打開(kāi)相應(yīng)頁(yè)面,爬蟲(chóng)程序被下載到本地并啟動(dòng),在用戶(hù)客戶(hù)端新生成一個(gè)爬蟲(chóng)?;跒g覽器端的分布式爬蟲(chóng)系統(tǒng),包括基于瀏覽器端的爬蟲(chóng)和服務(wù)器子系統(tǒng),服務(wù)器子系統(tǒng)的頁(yè)面嵌套有所述基于瀏覽器端的爬蟲(chóng)的程序,用戶(hù)在瀏覽器中打開(kāi)所述頁(yè)面,基于瀏覽器端的爬蟲(chóng)程序被啟動(dòng),在用戶(hù)客戶(hù)端新生成一個(gè)爬蟲(chóng)。基于瀏覽器端的爬蟲(chóng)的工作方法,包括用戶(hù)通過(guò)瀏覽器訪問(wèn)系統(tǒng)服務(wù)器,打開(kāi)網(wǎng)頁(yè)加載網(wǎng)頁(yè)正文,在限定時(shí)間內(nèi)加載成功則下載爬蟲(chóng)腳本,否則放棄本次爬蟲(chóng)等步驟。本客戶(hù)端爬蟲(chóng)明顯減輕服務(wù)器端的運(yùn)算負(fù)荷,且IP池由用戶(hù)客戶(hù)端提供。