一種分布式大數(shù)據(jù)采集實現(xiàn)方法
基本信息
申請?zhí)?/td> | CN201910290171.5 | 申請日 | - |
公開(公告)號 | CN110807137A | 公開(公告)日 | 2020-02-18 |
申請公布號 | CN110807137A | 申請公布日 | 2020-02-18 |
分類號 | G06F16/951;G06F16/955 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 江晶 | 申請(專利權)人 | 上海叢云信息科技有限公司 |
代理機構 | 上海宏京知識產權代理事務所(普通合伙) | 代理人 | 上海叢云信息科技有限公司 |
地址 | 201203 上海市浦東新區(qū)中國(上海)自由貿易試驗區(qū)郭守敬路351號2號樓A653-25室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及大數(shù)據(jù)技術領域,尤其為一種分布式大數(shù)據(jù)采集實現(xiàn)方法,包括有抓取模塊、IP代理池模塊、解析模塊、URL處理模塊和數(shù)據(jù)存儲模塊,所述IP代理池模塊設置有代理更新、代理分配,所述解析模塊設置有URL數(shù)據(jù)抽取、基本數(shù)據(jù)抽取,所述URL處理模塊設置有URL過濾,所述URL過濾連接有URL列隊,所述URL列隊連接有URL分配進程。本發(fā)明通過切換代理來保證系統(tǒng)能持續(xù)工作,消除限制時間的等待,這將大大提高系統(tǒng)的采集效率。 |
