一種基于列存數(shù)據(jù)庫(kù)的流式數(shù)據(jù)處理方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN202111307991.4 申請(qǐng)日 -
公開(公告)號(hào) CN114185885A 公開(公告)日 2022-03-15
申請(qǐng)公布號(hào) CN114185885A 申請(qǐng)公布日 2022-03-15
分類號(hào) G06F16/22(2019.01)I;G06F16/2453(2019.01)I;G06F16/2455(2019.01)I;G06F16/2458(2019.01)I;G06F16/901(2019.01)I;G06F16/31(2019.01)I;G06F16/33(2019.01)I;G06F16/51(2019.01)I;G06F16/53(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 程學(xué)旗;郭嘉豐;李冰;邱強(qiáng);張志斌 申請(qǐng)(專利權(quán))人 中國(guó)科學(xué)院計(jì)算技術(shù)研究所
代理機(jī)構(gòu) 北京律誠(chéng)同業(yè)知識(shí)產(chǎn)權(quán)代理有限公司 代理人 祁建國(guó)
地址 100080北京市海淀區(qū)中關(guān)村科學(xué)院南路6號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明提出一種基于列存數(shù)據(jù)的流式數(shù)據(jù)處理方法和系統(tǒng),包括:獲取待處理的列存流式數(shù)據(jù)及其對(duì)應(yīng)的處理任務(wù),基于時(shí)間維度將該流式數(shù)據(jù)切分為批式數(shù)據(jù)塊,根據(jù)預(yù)設(shè)窗口模式為該批式數(shù)據(jù)塊中每條數(shù)據(jù)分配窗口序號(hào);將該批式數(shù)據(jù)塊切分為多個(gè)中間數(shù)據(jù)塊,每個(gè)中間數(shù)據(jù)塊僅包含窗口序號(hào)相同的數(shù)據(jù),對(duì)每個(gè)中間數(shù)據(jù)塊的數(shù)據(jù)進(jìn)行預(yù)聚合計(jì)算,產(chǎn)生預(yù)聚合中間狀態(tài);根據(jù)預(yù)設(shè)的流式數(shù)據(jù)時(shí)間處理模式,從內(nèi)部存儲(chǔ)提取窗口對(duì)應(yīng)窗口序號(hào)的預(yù)聚合中間狀態(tài)并執(zhí)行與其對(duì)應(yīng)的處理任務(wù),輸出任務(wù)執(zhí)行結(jié)果,作為流式數(shù)據(jù)處理結(jié)果。本發(fā)明通過使用列存存儲(chǔ)及計(jì)算引擎,結(jié)合預(yù)聚合技術(shù),在保持較低延遲的前提下,提升數(shù)據(jù)分析場(chǎng)景的吞吐量。