基于虛瀏覽器下載的互聯(lián)網(wǎng)大數(shù)據(jù)采集系統(tǒng)

基本信息

申請?zhí)?/td> CN201510910412.3 申請日 -
公開(公告)號 CN105491131B 公開(公告)日 2019-02-19
申請公布號 CN105491131B 申請公布日 2019-02-19
分類號 H04L29/08(2006.01)I 分類 電通信技術(shù);
發(fā)明人 李天與; 楊偉鋒 申請(專利權(quán))人 天津海量信息技術(shù)股份有限公司
代理機(jī)構(gòu) 天津市尚文知識產(chǎn)權(quán)代理有限公司 代理人 天津海量信息技術(shù)股份有限公司
地址 300020 天津市和平區(qū)南馬路11號麥購國際大廈23層
法律狀態(tài) -

摘要

摘要 一種基于虛瀏覽器下載的互聯(lián)網(wǎng)大數(shù)據(jù)采集系統(tǒng),由頂至下,包括由虛瀏覽器層、負(fù)載均衡層和HTTP代理層;其中虛瀏覽器層為系統(tǒng)的頂層,由虛瀏覽器集群構(gòu)成,發(fā)出HTTP請求;負(fù)載均衡層為系統(tǒng)的中間層,虛瀏覽器層通過負(fù)載均衡層連接HTTP代理層;HTTP代理層為系統(tǒng)的底層,依HTTP請求返回HTTP響應(yīng)。過使用虛瀏覽器作為下載客戶端,利用虛瀏覽器的網(wǎng)頁渲染和腳本解析引擎,可以直接獲取到JavaScript腳本在Dom上執(zhí)行、渲染后的結(jié)果。負(fù)載均衡層提高了系統(tǒng)的效率,保證了系統(tǒng)的魯棒性。而由于系統(tǒng)中的HTTP代理服務(wù)和虛瀏覽器處于同一子網(wǎng),能夠極大避免外部帶寬開銷和下載耗時(shí)開銷。