一種在基于HDFS的spark-sql大數(shù)據(jù)處理系統(tǒng)上建立索引的方法
基本信息
申請?zhí)?/td> | CN201510918956.4 | 申請日 | - |
公開(公告)號 | CN105574093B | 公開(公告)日 | 2019-09-10 |
申請公布號 | CN105574093B | 申請公布日 | 2019-09-10 |
分類號 | G06F16/13;G06F16/14;G06F16/22 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 張鋆;馮駿 | 申請(專利權(quán))人 | 深圳市華訊方舟軟件技術(shù)有限公司 |
代理機構(gòu) | 北京律和信知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 劉國偉;武玉琴 |
地址 | 518102 廣東省深圳市寶安區(qū)西鄉(xiāng)街道寶田一路臣田工業(yè)區(qū)第37棟3樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種在基于HDFS的spark?sql大數(shù)據(jù)處理系統(tǒng)上建立索引的方法,通過SQL語句在基于HDFS的spark?sql大數(shù)據(jù)處理系統(tǒng)上增加索引,刪除索引,插入數(shù)據(jù),刪除數(shù)據(jù),在數(shù)據(jù)查詢的時候,自動判斷查詢列是否存在索引,如果存在,則查找索引包含的文件塊,過濾不需要查詢的文件塊。本發(fā)明對在給spark?sql增加索引功能后,能有效增加查詢速度,例如一個典型的spark?sql數(shù)據(jù)表,大小為1000GB,1GB一個文件存放,分為1000個文件,如果查詢單條記錄,原先做法需要掃描1000個文件,建立索引后,只需要掃描1個文件即可,效率提高1000倍。按照一般情況估算,結(jié)合傳統(tǒng)的關(guān)系型數(shù)據(jù)庫經(jīng)驗,建立索引的spark?sql數(shù)據(jù)庫比沒有索引的sql語句查詢速度執(zhí)行要快100?10000倍或更多。 |
