一種基于大范圍掃描的詞典優(yōu)化方法

基本信息

申請?zhí)?/td> CN202011309180.3 申請日 -
公開(公告)號 CN112269855A 公開(公告)日 2021-01-26
申請公布號 CN112269855A 申請公布日 2021-01-26
分類號 G06F16/31;G06F16/36 分類 計算;推算;計數(shù);
發(fā)明人 母延年 申請(專利權(quán))人 南京好魚科技有限公司
代理機構(gòu) 南京中軟知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 代理人 鄭燕飛
地址 210000 江蘇省南京市江寧區(qū)董村路39號2幢天琪科技大廈706室(江寧開發(fā)區(qū))
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及大數(shù)據(jù)處理技術(shù)領(lǐng)域的基于大范圍掃描的詞典優(yōu)化方法,具體包括首先設(shè)定一個固定篩選閥值,將tim詞典中對應(yīng)的doc文件小于該閥值的詞全部篩選出來,而大于該閥值的doclist進(jìn)行保留;每間隔固定周期就將所有詞的doclist進(jìn)行小文件合并處理同時根據(jù)各個文件位置偏移量進(jìn)行記錄doclist所屬的分區(qū)信息;將每個文件對應(yīng)的分區(qū)偏移量信息記錄在大文件的尾部,在每次獲取所需文件時進(jìn)行讀取文件尾部位置信息來獲得所有doclist的偏移量;合并大文件放入一個kv系統(tǒng)里面,kv系統(tǒng)進(jìn)行快速讀取,將隨機目錄的小文件進(jìn)行合并后避免大量的隨機磁盤數(shù)據(jù)輸入或輸出處理;本發(fā)明能夠提供一種消耗計算資源少、處理速度快且對文件損耗低的基于大范圍掃描的詞典優(yōu)化方法。