一種基于SparkStreaming的實時數(shù)據(jù)更新及管理方法

基本信息

申請?zhí)?/td> CN202110600651.4 申請日 -
公開(公告)號 CN113590667A 公開(公告)日 2021-11-02
申請公布號 CN113590667A 申請公布日 2021-11-02
分類號 G06F16/2457(2019.01)I;G06F16/2458(2019.01)I;G06F16/25(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 仝承建 申請(專利權(quán))人 深圳感臻智能股份有限公司
代理機構(gòu) 深圳智趣知識產(chǎn)權(quán)代理事務所(普通合伙) 代理人 崔艷崢
地址 518000 廣東省深圳市南山區(qū)粵海街道科技園社區(qū)高新中二道5號生產(chǎn)力大樓D401
法律狀態(tài) -

摘要

摘要 本發(fā)明提出了一種基于Spark Streaming的實時數(shù)據(jù)更新及管理方法,包括:進行配置資源的參數(shù)配置;建立元數(shù)據(jù)信息庫表;解析Kafka數(shù)據(jù)的源參數(shù),獲取實時數(shù)據(jù)更新;讀取元數(shù)據(jù)信息庫中的元數(shù)據(jù)信息,包括讀取元數(shù)據(jù)信息庫中的Kafka數(shù)據(jù)的描述信息,和,更新元數(shù)據(jù)信息庫中對應元數(shù)據(jù)后讀??;修改hive數(shù)據(jù)信息;讀取Kafka數(shù)據(jù),對讀取到的批次的Kafka數(shù)據(jù)進行分區(qū),按照分區(qū)將Kafka數(shù)據(jù)解析映射為數(shù)據(jù)庫表。該實時數(shù)據(jù)存儲及管理方法在新增任務只需要修改元數(shù)據(jù)信息,新建hive表,SparkStreaming同步元數(shù)據(jù)信息獲取數(shù)據(jù)新增和變化,把Kafka數(shù)據(jù)一一解析對應hive的數(shù)據(jù)類型,數(shù)據(jù)寫入hive并同時更新對應數(shù)據(jù)的offset信息。