基于Presto的動(dòng)態(tài)分桶方法、系統(tǒng)、設(shè)備及可讀存儲(chǔ)介質(zhì)
基本信息
申請(qǐng)?zhí)?/td> | CN202011310738.X | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN112445776A | 公開(kāi)(公告)日 | 2021-03-05 |
申請(qǐng)公布號(hào) | CN112445776A | 申請(qǐng)公布日 | 2021-03-05 |
分類(lèi)號(hào) | G06F16/182(2019.01)I;G06F16/16(2019.01)I;G06F16/14(2019.01)I;G06F16/172(2019.01)I | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 于揚(yáng) | 申請(qǐng)(專(zhuān)利權(quán))人 | 北京易觀(guān)數(shù)智科技股份有限公司 |
代理機(jī)構(gòu) | 北京知呱呱知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 杜立軍 |
地址 | 100020北京市朝陽(yáng)區(qū)酒仙橋路10號(hào)25號(hào)樓三層305室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請(qǐng)實(shí)施例公開(kāi)了基于Presto的動(dòng)態(tài)分桶方法、系統(tǒng)、設(shè)備及可讀存儲(chǔ)介質(zhì),所述方法包括:獲取數(shù)據(jù)集,將所述數(shù)據(jù)集根據(jù)邏輯主鍵進(jìn)行排序,并根據(jù)所述邏輯主鍵的取值范圍和計(jì)算節(jié)點(diǎn)數(shù)進(jìn)行預(yù)分桶,存儲(chǔ)分桶文件;所述分桶文件按照邏輯主鍵進(jìn)行排序;根據(jù)數(shù)據(jù)量和歷史查詢(xún)記錄確定預(yù)估查詢(xún)峰值內(nèi)存;根據(jù)所述預(yù)估查詢(xún)峰值內(nèi)存、當(dāng)前系統(tǒng)正在執(zhí)行的查詢(xún)個(gè)數(shù)和當(dāng)前分布式計(jì)算系統(tǒng)的計(jì)算節(jié)點(diǎn)數(shù),計(jì)算目標(biāo)桶數(shù)和單節(jié)點(diǎn)桶并發(fā)數(shù);根據(jù)所述目標(biāo)桶數(shù)和所述單節(jié)點(diǎn)桶并發(fā)數(shù)調(diào)整正在執(zhí)行的查詢(xún)中的分桶粒度,得到每個(gè)分桶的取值范圍;根據(jù)存儲(chǔ)的分桶文件信息、每個(gè)分桶的取值范圍,進(jìn)行文件切分。節(jié)省了磁盤(pán)及網(wǎng)絡(luò)IO,在有限的CPU和內(nèi)存下發(fā)揮最佳計(jì)算性能。?? |
