大規(guī)模工業(yè)數(shù)據(jù)壓縮存儲(chǔ)方法、系統(tǒng)及介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN202010961819.X 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN112214453B 公開(kāi)(公告)日 2021-10-01
申請(qǐng)公布號(hào) CN112214453B 申請(qǐng)公布日 2021-10-01
分類號(hào) G06F16/11(2019.01)I;G06F16/16(2019.01)I;G06F16/174(2019.01)I;G06F16/182(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 高響 申請(qǐng)(專利權(quán))人 上海微億智造科技有限公司
代理機(jī)構(gòu) 上海段和段律師事務(wù)所 代理人 李佳俊;郭國(guó)中
地址 201100上海市閔行區(qū)元江路5500號(hào)第1幢
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種大規(guī)模工業(yè)數(shù)據(jù)壓縮存儲(chǔ)方法、系統(tǒng)及介質(zhì),包括:步驟1:根據(jù)數(shù)據(jù)源類型配置不同的數(shù)據(jù)采集系統(tǒng),通過(guò)界面化操作對(duì)數(shù)據(jù)采集系統(tǒng)采集的數(shù)據(jù)進(jìn)行提??;步驟2:定義轉(zhuǎn)化鏈,通過(guò)數(shù)據(jù)清洗插件將提取的不同類型的數(shù)據(jù)的格式臨時(shí)轉(zhuǎn)化成Avro格式;步驟3:以GPL協(xié)議壓縮Avro格式的數(shù)據(jù),壓縮格式為snappy,并在分布式文件系統(tǒng)中創(chuàng)建以parquet為存儲(chǔ)格式的數(shù)據(jù)集,對(duì)壓縮后的數(shù)據(jù)進(jìn)行存儲(chǔ)。本發(fā)明能夠?qū)θ魏晤愋蛿?shù)據(jù)定義轉(zhuǎn)化鏈和壓縮和存儲(chǔ)格式,大大提高計(jì)算平臺(tái)數(shù)據(jù)處理速度和數(shù)據(jù)壓縮比率。