一種分布式大數(shù)據(jù)采集實現(xiàn)方法

基本信息

申請?zhí)?/td> CN201910290171.5 申請日 -
公開(公告)號 CN110807137A 公開(公告)日 2020-02-18
申請公布號 CN110807137A 申請公布日 2020-02-18
分類號 G06F16/951;G06F16/955 分類 計算;推算;計數(shù);
發(fā)明人 江晶 申請(專利權)人 上海叢云信息科技有限公司
代理機構 上海宏京知識產權代理事務所(普通合伙) 代理人 上海叢云信息科技有限公司
地址 201203 上海市浦東新區(qū)中國(上海)自由貿易試驗區(qū)郭守敬路351號2號樓A653-25室
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及大數(shù)據(jù)技術領域,尤其為一種分布式大數(shù)據(jù)采集實現(xiàn)方法,包括有抓取模塊、IP代理池模塊、解析模塊、URL處理模塊和數(shù)據(jù)存儲模塊,所述IP代理池模塊設置有代理更新、代理分配,所述解析模塊設置有URL數(shù)據(jù)抽取、基本數(shù)據(jù)抽取,所述URL處理模塊設置有URL過濾,所述URL過濾連接有URL列隊,所述URL列隊連接有URL分配進程。本發(fā)明通過切換代理來保證系統(tǒng)能持續(xù)工作,消除限制時間的等待,這將大大提高系統(tǒng)的采集效率。