一種基于Binlog+HBase+Hive的大數(shù)據(jù)同步方法和裝置

基本信息

申請(qǐng)?zhí)?/td> CN202011545416.3 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN112286941B 公開(kāi)(公告)日 2021-03-23
申請(qǐng)公布號(hào) CN112286941B 申請(qǐng)公布日 2021-03-23
分類(lèi)號(hào) G06F16/22(2019.01)I;G06F16/27(2019.01)I;G06F16/2458(2019.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 吳凡 申請(qǐng)(專(zhuān)利權(quán))人 武漢物易云通網(wǎng)絡(luò)科技有限公司
代理機(jī)構(gòu) 深圳市六加知識(shí)產(chǎn)權(quán)代理有限公司 代理人 崔肖肖;向彬
地址 430000湖北省武漢市東湖新技術(shù)開(kāi)發(fā)區(qū)光谷大道77號(hào)金融后臺(tái)服務(wù)中心一期A3棟12層
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及數(shù)據(jù)庫(kù)技術(shù)領(lǐng)域,提供了一種基于Binlog+HBase+Hive的大數(shù)據(jù)同步方法和裝置。方法包括監(jiān)聽(tīng)關(guān)系型數(shù)據(jù)庫(kù)中Binlog日志文件,獲取實(shí)時(shí)變化的數(shù)據(jù);數(shù)據(jù)同步裝置獲取Binlog日志文件數(shù)據(jù)后,解析并獲取數(shù)據(jù)庫(kù)名,表名,操作類(lèi)型,主鍵,所有字段值;在HBase中存儲(chǔ)Binlog日志文件數(shù)據(jù)時(shí),對(duì)應(yīng)以數(shù)據(jù)庫(kù)名稱(chēng)作為HBase表的命名空間,建表;使用主鍵作為HBase數(shù)據(jù)記錄的rowkey,以便于數(shù)據(jù)庫(kù)記錄的所有變化,都通過(guò)rowkey找到HBase的對(duì)應(yīng)記錄進(jìn)行數(shù)據(jù)覆蓋更新。本發(fā)明實(shí)時(shí)表中不保留歷史全量數(shù)據(jù),數(shù)據(jù)量小,查詢(xún)實(shí)時(shí)數(shù)據(jù)速度快。??