一種基于Spark的索引方法
基本信息
申請?zhí)?/td> | CN201911026342.X | 申請日 | - |
公開(公告)號 | CN110737667A | 公開(公告)日 | 2020-01-31 |
申請公布號 | CN110737667A | 申請公布日 | 2020-01-31 |
分類號 | G06F16/22;G06F16/2458;G06F16/27 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 王帥 | 申請(專利權)人 | 南京錄信軟件技術有限公司 |
代理機構 | - | 代理人 | - |
地址 | 210000 江蘇省南京市江寧區(qū)濱江經濟開發(fā)區(qū)盛安大道739號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于Spark的索引方法,包括如下步驟,S1:在Spark進程中通過自定義消費接口消費實時數(shù)據(jù),數(shù)據(jù)通過索引接口建立索引;S2:修改lucene的原生索引接口;S3:將整個索引程序、查詢接口與Spark的服務結合起來;S4:進行數(shù)據(jù)處理,之后進行數(shù)據(jù)的查詢;主要是在原始的Spark檢索上添加了一層索引功能,從而加快了檢索性能;該功能在索引層使用的是原生的lucene,通過自定義接口,Spark或者離線程序會將數(shù)據(jù)索引到HDFS上面,以后的統(tǒng)計分析都可以使用Spark的索引查詢快速返回,而在查詢語言的使用上選擇的是Spark SQL,本發(fā)明完美的與Spark SQL引擎結合在一起,這種基于結構化數(shù)據(jù)的查詢語言簡化了查詢難度,降低了學習成本。 |
