基于事件驅(qū)動模型的分布式互聯(lián)網(wǎng)數(shù)據(jù)采集系統(tǒng)與方法

基本信息

申請?zhí)?/td> CN201910599035.4 申請日 -
公開(公告)號 CN110347899B 公開(公告)日 2021-06-22
申請公布號 CN110347899B 申請公布日 2021-06-22
分類號 G06F16/951;G06F16/9535;G06F9/48 分類 計算;推算;計數(shù);
發(fā)明人 孔逸飛;段毅飛;王亮亮;薛彥文;劉博;李漁 申請(專利權(quán))人 北京熵簡科技有限公司
代理機(jī)構(gòu) 上海智晟知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 代理人 劉萬磊
地址 100080 北京市海淀區(qū)中關(guān)村大街甲38號1號樓B座3層121號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于事件驅(qū)動模型的分布式互聯(lián)網(wǎng)數(shù)據(jù)采集系統(tǒng)及方法,涉及網(wǎng)絡(luò)搜索技術(shù)領(lǐng)域,系統(tǒng)包括控制臺模塊、數(shù)據(jù)采集引擎模塊、數(shù)據(jù)存儲模塊、日志服務(wù)模塊,并運(yùn)行在容器編排引擎之上;控制臺模塊對數(shù)據(jù)采集和數(shù)據(jù)存儲進(jìn)行配置;數(shù)據(jù)采集引擎模塊根據(jù)控制臺模塊的配置完成數(shù)據(jù)采集;數(shù)據(jù)存儲模塊與數(shù)據(jù)采集引擎模塊連接,根據(jù)控制臺模塊的配置完成數(shù)據(jù)存儲;控制臺模塊、數(shù)據(jù)采集引擎模塊、數(shù)據(jù)存儲模塊和日志服務(wù)模塊都各包含一項或多項服務(wù);服務(wù)互相解耦,以獨立Docker鏡像的形式部署于容器編排引擎之上。本發(fā)明具備快速地動態(tài)擴(kuò)容和縮容的能力,支持日采集TB量級別海量數(shù)據(jù)的需求,并支持同時對上千種不同來源的網(wǎng)站進(jìn)行數(shù)據(jù)采集。