基于Presto的動(dòng)態(tài)分桶方法、系統(tǒng)、設(shè)備及可讀存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN202011310738.X 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN112445776A 公開(kāi)(公告)日 2021-03-05
申請(qǐng)公布號(hào) CN112445776A 申請(qǐng)公布日 2021-03-05
分類(lèi)號(hào) G06F16/182(2019.01)I;G06F16/16(2019.01)I;G06F16/14(2019.01)I;G06F16/172(2019.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 于揚(yáng) 申請(qǐng)(專(zhuān)利權(quán))人 北京易觀(guān)數(shù)智科技股份有限公司
代理機(jī)構(gòu) 北京知呱呱知識(shí)產(chǎn)權(quán)代理有限公司 代理人 杜立軍
地址 100020北京市朝陽(yáng)區(qū)酒仙橋路10號(hào)25號(hào)樓三層305室
法律狀態(tài) -

摘要

摘要 本申請(qǐng)實(shí)施例公開(kāi)了基于Presto的動(dòng)態(tài)分桶方法、系統(tǒng)、設(shè)備及可讀存儲(chǔ)介質(zhì),所述方法包括:獲取數(shù)據(jù)集,將所述數(shù)據(jù)集根據(jù)邏輯主鍵進(jìn)行排序,并根據(jù)所述邏輯主鍵的取值范圍和計(jì)算節(jié)點(diǎn)數(shù)進(jìn)行預(yù)分桶,存儲(chǔ)分桶文件;所述分桶文件按照邏輯主鍵進(jìn)行排序;根據(jù)數(shù)據(jù)量和歷史查詢(xún)記錄確定預(yù)估查詢(xún)峰值內(nèi)存;根據(jù)所述預(yù)估查詢(xún)峰值內(nèi)存、當(dāng)前系統(tǒng)正在執(zhí)行的查詢(xún)個(gè)數(shù)和當(dāng)前分布式計(jì)算系統(tǒng)的計(jì)算節(jié)點(diǎn)數(shù),計(jì)算目標(biāo)桶數(shù)和單節(jié)點(diǎn)桶并發(fā)數(shù);根據(jù)所述目標(biāo)桶數(shù)和所述單節(jié)點(diǎn)桶并發(fā)數(shù)調(diào)整正在執(zhí)行的查詢(xún)中的分桶粒度,得到每個(gè)分桶的取值范圍;根據(jù)存儲(chǔ)的分桶文件信息、每個(gè)分桶的取值范圍,進(jìn)行文件切分。節(jié)省了磁盤(pán)及網(wǎng)絡(luò)IO,在有限的CPU和內(nèi)存下發(fā)揮最佳計(jì)算性能。??