基于虛瀏覽器下載的互聯(lián)網(wǎng)大數(shù)據(jù)采集系統(tǒng)
基本信息
申請?zhí)?/td> | CN201510910412.3 | 申請日 | - |
公開(公告)號 | CN105491131B | 公開(公告)日 | 2019-02-19 |
申請公布號 | CN105491131B | 申請公布日 | 2019-02-19 |
分類號 | H04L29/08(2006.01)I | 分類 | 電通信技術(shù); |
發(fā)明人 | 李天與; 楊偉鋒 | 申請(專利權(quán))人 | 天津海量信息技術(shù)股份有限公司 |
代理機(jī)構(gòu) | 天津市尚文知識產(chǎn)權(quán)代理有限公司 | 代理人 | 天津海量信息技術(shù)股份有限公司 |
地址 | 300020 天津市和平區(qū)南馬路11號麥購國際大廈23層 | ||
法律狀態(tài) | - |
摘要
摘要 | 一種基于虛瀏覽器下載的互聯(lián)網(wǎng)大數(shù)據(jù)采集系統(tǒng),由頂至下,包括由虛瀏覽器層、負(fù)載均衡層和HTTP代理層;其中虛瀏覽器層為系統(tǒng)的頂層,由虛瀏覽器集群構(gòu)成,發(fā)出HTTP請求;負(fù)載均衡層為系統(tǒng)的中間層,虛瀏覽器層通過負(fù)載均衡層連接HTTP代理層;HTTP代理層為系統(tǒng)的底層,依HTTP請求返回HTTP響應(yīng)。過使用虛瀏覽器作為下載客戶端,利用虛瀏覽器的網(wǎng)頁渲染和腳本解析引擎,可以直接獲取到JavaScript腳本在Dom上執(zhí)行、渲染后的結(jié)果。負(fù)載均衡層提高了系統(tǒng)的效率,保證了系統(tǒng)的魯棒性。而由于系統(tǒng)中的HTTP代理服務(wù)和虛瀏覽器處于同一子網(wǎng),能夠極大避免外部帶寬開銷和下載耗時(shí)開銷。 |
