一種基于Spark的索引方法

基本信息

申請?zhí)?/td> CN201911026342.X 申請日 -
公開(公告)號 CN110737667A 公開(公告)日 2020-01-31
申請公布號 CN110737667A 申請公布日 2020-01-31
分類號 G06F16/22;G06F16/2458;G06F16/27 分類 計算;推算;計數(shù);
發(fā)明人 王帥 申請(專利權)人 南京錄信軟件技術有限公司
代理機構 - 代理人 -
地址 210000 江蘇省南京市江寧區(qū)濱江經濟開發(fā)區(qū)盛安大道739號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于Spark的索引方法,包括如下步驟,S1:在Spark進程中通過自定義消費接口消費實時數(shù)據(jù),數(shù)據(jù)通過索引接口建立索引;S2:修改lucene的原生索引接口;S3:將整個索引程序、查詢接口與Spark的服務結合起來;S4:進行數(shù)據(jù)處理,之后進行數(shù)據(jù)的查詢;主要是在原始的Spark檢索上添加了一層索引功能,從而加快了檢索性能;該功能在索引層使用的是原生的lucene,通過自定義接口,Spark或者離線程序會將數(shù)據(jù)索引到HDFS上面,以后的統(tǒng)計分析都可以使用Spark的索引查詢快速返回,而在查詢語言的使用上選擇的是Spark SQL,本發(fā)明完美的與Spark SQL引擎結合在一起,這種基于結構化數(shù)據(jù)的查詢語言簡化了查詢難度,降低了學習成本。