一種基于SparkStreaming的實時數(shù)據(jù)更新及管理方法
基本信息
申請?zhí)?/td> | CN202110600651.4 | 申請日 | - |
公開(公告)號 | CN113590667A | 公開(公告)日 | 2021-11-02 |
申請公布號 | CN113590667A | 申請公布日 | 2021-11-02 |
分類號 | G06F16/2457(2019.01)I;G06F16/2458(2019.01)I;G06F16/25(2019.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 仝承建 | 申請(專利權(quán))人 | 深圳感臻智能股份有限公司 |
代理機構(gòu) | 深圳智趣知識產(chǎn)權(quán)代理事務所(普通合伙) | 代理人 | 崔艷崢 |
地址 | 518000 廣東省深圳市南山區(qū)粵海街道科技園社區(qū)高新中二道5號生產(chǎn)力大樓D401 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提出了一種基于Spark Streaming的實時數(shù)據(jù)更新及管理方法,包括:進行配置資源的參數(shù)配置;建立元數(shù)據(jù)信息庫表;解析Kafka數(shù)據(jù)的源參數(shù),獲取實時數(shù)據(jù)更新;讀取元數(shù)據(jù)信息庫中的元數(shù)據(jù)信息,包括讀取元數(shù)據(jù)信息庫中的Kafka數(shù)據(jù)的描述信息,和,更新元數(shù)據(jù)信息庫中對應元數(shù)據(jù)后讀??;修改hive數(shù)據(jù)信息;讀取Kafka數(shù)據(jù),對讀取到的批次的Kafka數(shù)據(jù)進行分區(qū),按照分區(qū)將Kafka數(shù)據(jù)解析映射為數(shù)據(jù)庫表。該實時數(shù)據(jù)存儲及管理方法在新增任務只需要修改元數(shù)據(jù)信息,新建hive表,SparkStreaming同步元數(shù)據(jù)信息獲取數(shù)據(jù)新增和變化,把Kafka數(shù)據(jù)一一解析對應hive的數(shù)據(jù)類型,數(shù)據(jù)寫入hive并同時更新對應數(shù)據(jù)的offset信息。 |
