一種減少Lucene無字典n-gram切詞占用存儲(chǔ)空間的方法

基本信息

申請(qǐng)?zhí)?/td> CN201911307360.5 申請(qǐng)日 -
公開(公告)號(hào) CN111078824A 公開(公告)日 2020-04-28
申請(qǐng)公布號(hào) CN111078824A 申請(qǐng)公布日 2020-04-28
分類號(hào) G06F16/31 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 母延年 申請(qǐng)(專利權(quán))人 南京錄信軟件技術(shù)有限公司
代理機(jī)構(gòu) - 代理人 -
地址 210000 江蘇省南京市江寧區(qū)濱江經(jīng)濟(jì)開發(fā)區(qū)盛安大道739號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及計(jì)算機(jī)算法技術(shù)領(lǐng)域,具體公開了一種減少Lucene無字典n?gram切詞占用存儲(chǔ)空間的方法,包括如下步驟,S1:輸入數(shù)據(jù)樣例;S2:對(duì)數(shù)據(jù)樣例進(jìn)行SNGram切割,獲得跳躍倒排表;S3:對(duì)步驟S2所獲得的數(shù)據(jù)倒排表進(jìn)行ngram切詞,創(chuàng)建SNGram的映射;S4:完成數(shù)據(jù)樣例的存儲(chǔ);本發(fā)明所提供的方法,先進(jìn)行粗粒度級(jí)別的切詞,如每隔8個(gè)字切一個(gè)詞;將粗粒度的詞,排重后進(jìn)一步得出細(xì)粒度的詞,針對(duì)細(xì)粒度的詞創(chuàng)建索引;從而大幅度的減少倒排表的體積,并提升創(chuàng)建索引的性能,提升1*這種需要匹配很多倒排term的掃描性能。