基于HBASE的批量裝載快速生成數(shù)據(jù)統(tǒng)計(jì)信息的方法
基本信息
申請?zhí)?/td> | CN202010411311.2 | 申請日 | - |
公開(公告)號 | CN111625577A | 公開(公告)日 | 2020-09-04 |
申請公布號 | CN111625577A | 申請公布日 | 2020-09-04 |
分類號 | G06F16/2458(2019.01)I;G06F16/25(2019.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 陳贇人;楊永鋒 | 申請(專利權(quán))人 | 貴州易鯨捷信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 成都中炬新匯知識產(chǎn)權(quán)代理有限公司 | 代理人 | 羅韜 |
地址 | 550000貴州省貴陽市貴陽綜合保稅區(qū)都拉營綜保路349號海關(guān)大樓8樓801 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于HBASE的批量裝載快速生成數(shù)據(jù)統(tǒng)計(jì)信息的方法,屬一種數(shù)據(jù)信息快速統(tǒng)計(jì)方法,步驟A、在HDFS目錄下生成BulkLoad目錄,用于存放將外部數(shù)據(jù)轉(zhuǎn)換成HBASE格式的HFile文件;步驟B、在HDFS目錄下生成BulkLoadStats統(tǒng)計(jì)信息目錄,用于存放統(tǒng)計(jì)信息數(shù)據(jù)的HFile文件;該方法通過在第一次讀取所有外部數(shù)據(jù)并將其轉(zhuǎn)換為HBASE格式的HFile文件時(shí),同時(shí)進(jìn)行統(tǒng)計(jì)信息的數(shù)據(jù)收集,從而僅需一次全量外部數(shù)據(jù)的讀取掃描即可完成原表與統(tǒng)計(jì)信息采樣表數(shù)據(jù)的生成,比同類方法對于全量數(shù)據(jù)讀取的性能提升了一倍,尤其適于對較大數(shù)據(jù)量的外部數(shù)據(jù)進(jìn)行數(shù)據(jù)統(tǒng)計(jì)信息表生成。?? |
