一種在基于HDFS的spark-sql大數(shù)據(jù)處理系統(tǒng)上建立索引的方法

基本信息

申請?zhí)?/td> CN201510918956.4 申請日 -
公開(公告)號 CN105574093B 公開(公告)日 2019-09-10
申請公布號 CN105574093B 申請公布日 2019-09-10
分類號 G06F16/13;G06F16/14;G06F16/22 分類 計算;推算;計數(shù);
發(fā)明人 張鋆;馮駿 申請(專利權(quán))人 深圳市華訊方舟軟件技術(shù)有限公司
代理機構(gòu) 北京律和信知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 劉國偉;武玉琴
地址 518102 廣東省深圳市寶安區(qū)西鄉(xiāng)街道寶田一路臣田工業(yè)區(qū)第37棟3樓
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種在基于HDFS的spark?sql大數(shù)據(jù)處理系統(tǒng)上建立索引的方法,通過SQL語句在基于HDFS的spark?sql大數(shù)據(jù)處理系統(tǒng)上增加索引,刪除索引,插入數(shù)據(jù),刪除數(shù)據(jù),在數(shù)據(jù)查詢的時候,自動判斷查詢列是否存在索引,如果存在,則查找索引包含的文件塊,過濾不需要查詢的文件塊。本發(fā)明對在給spark?sql增加索引功能后,能有效增加查詢速度,例如一個典型的spark?sql數(shù)據(jù)表,大小為1000GB,1GB一個文件存放,分為1000個文件,如果查詢單條記錄,原先做法需要掃描1000個文件,建立索引后,只需要掃描1個文件即可,效率提高1000倍。按照一般情況估算,結(jié)合傳統(tǒng)的關(guān)系型數(shù)據(jù)庫經(jīng)驗,建立索引的spark?sql數(shù)據(jù)庫比沒有索引的sql語句查詢速度執(zhí)行要快100?10000倍或更多。