數(shù)據(jù)管理系統(tǒng)后臺自動計(jì)算引擎的設(shè)計(jì)

基本信息

申請?zhí)?/td> CN202110680049.6 申請日 -
公開(公告)號 CN113505106A 公開(公告)日 2021-10-15
申請公布號 CN113505106A 申請公布日 2021-10-15
分類號 G06F16/172(2019.01)I;G06F16/182(2019.01)I;G06F16/25(2019.01)I;G06F16/27(2019.01)I;G06F16/28(2019.01)I;G06F16/242(2019.01)I;G06F9/48(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 劉春華;向程;周華;陳華殷;王曉棟 申請(專利權(quán))人 深圳弘星智聯(lián)科技有限公司
代理機(jī)構(gòu) 北京中仟知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 周慶佳
地址 518000廣東省深圳市龍崗區(qū)寶龍街道寶龍社區(qū)寶龍二路4號思達(dá)工業(yè)園辦公樓208
法律狀態(tài) -

摘要

摘要 本發(fā)明提供數(shù)據(jù)管理系統(tǒng)后臺自動計(jì)算引擎的設(shè)計(jì),涉及MDM后臺計(jì)算引擎領(lǐng)域。該MDM后臺自動計(jì)算引擎的設(shè)計(jì),采用spark與hadoop分布式架構(gòu)相結(jié)合的技術(shù)來處理大規(guī)模的數(shù)據(jù)計(jì)算,包括如下具體實(shí)施步驟:生產(chǎn)數(shù)據(jù)的一方往kafka內(nèi)生產(chǎn)數(shù)據(jù);離線架構(gòu)采用flume去采集kafka中的數(shù)據(jù)到hdfs中;實(shí)時(shí)架構(gòu)采用sparkstreaming消費(fèi)kafka中的數(shù)據(jù),對原始數(shù)據(jù)進(jìn)行格式化處理,將數(shù)據(jù)寫入到hbase中;編寫sql腳本把hdfs中的原始數(shù)據(jù)進(jìn)行格式化處理,最后采用snappy壓縮寫入離線數(shù)倉hive中;對格式化的數(shù)據(jù)進(jìn)行分析處理,然后將最終的結(jié)果寫入到hbase內(nèi),供前臺的業(yè)務(wù)系統(tǒng)調(diào)用。本發(fā)明相比之前的MDM系統(tǒng),如今就算數(shù)據(jù)量再大,只需要增加服務(wù)器即可解決數(shù)據(jù)存儲不下的問題,同時(shí)可以實(shí)現(xiàn)多路徑寫入數(shù)據(jù),使得用戶體驗(yàn)更好。