一種基于列存數(shù)據(jù)庫的流式數(shù)據(jù)處理方法及系統(tǒng)

基本信息

申請?zhí)?/td> CN202111307991.4 申請日 -
公開(公告)號 CN114185885A 公開(公告)日 2022-03-15
申請公布號 CN114185885A 申請公布日 2022-03-15
分類號 G06F16/22(2019.01)I;G06F16/2453(2019.01)I;G06F16/2455(2019.01)I;G06F16/2458(2019.01)I;G06F16/901(2019.01)I;G06F16/31(2019.01)I;G06F16/33(2019.01)I;G06F16/51(2019.01)I;G06F16/53(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 程學(xué)旗;郭嘉豐;李冰;邱強;張志斌 申請(專利權(quán))人 中國科學(xué)院計算技術(shù)研究所
代理機構(gòu) 北京律誠同業(yè)知識產(chǎn)權(quán)代理有限公司 代理人 祁建國
地址 100080北京市海淀區(qū)中關(guān)村科學(xué)院南路6號
法律狀態(tài) -

摘要

摘要 本發(fā)明提出一種基于列存數(shù)據(jù)的流式數(shù)據(jù)處理方法和系統(tǒng),包括:獲取待處理的列存流式數(shù)據(jù)及其對應(yīng)的處理任務(wù),基于時間維度將該流式數(shù)據(jù)切分為批式數(shù)據(jù)塊,根據(jù)預(yù)設(shè)窗口模式為該批式數(shù)據(jù)塊中每條數(shù)據(jù)分配窗口序號;將該批式數(shù)據(jù)塊切分為多個中間數(shù)據(jù)塊,每個中間數(shù)據(jù)塊僅包含窗口序號相同的數(shù)據(jù),對每個中間數(shù)據(jù)塊的數(shù)據(jù)進(jìn)行預(yù)聚合計算,產(chǎn)生預(yù)聚合中間狀態(tài);根據(jù)預(yù)設(shè)的流式數(shù)據(jù)時間處理模式,從內(nèi)部存儲提取窗口對應(yīng)窗口序號的預(yù)聚合中間狀態(tài)并執(zhí)行與其對應(yīng)的處理任務(wù),輸出任務(wù)執(zhí)行結(jié)果,作為流式數(shù)據(jù)處理結(jié)果。本發(fā)明通過使用列存存儲及計算引擎,結(jié)合預(yù)聚合技術(shù),在保持較低延遲的前提下,提升數(shù)據(jù)分析場景的吞吐量。