一種基于大范圍掃描的詞典優(yōu)化方法
基本信息
申請?zhí)?/td> | CN202011309180.3 | 申請日 | - |
公開(公告)號 | CN112269855A | 公開(公告)日 | 2021-01-26 |
申請公布號 | CN112269855A | 申請公布日 | 2021-01-26 |
分類號 | G06F16/31;G06F16/36 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 母延年 | 申請(專利權(quán))人 | 南京好魚科技有限公司 |
代理機構(gòu) | 南京中軟知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) | 代理人 | 鄭燕飛 |
地址 | 210000 江蘇省南京市江寧區(qū)董村路39號2幢天琪科技大廈706室(江寧開發(fā)區(qū)) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及大數(shù)據(jù)處理技術(shù)領(lǐng)域的基于大范圍掃描的詞典優(yōu)化方法,具體包括首先設(shè)定一個固定篩選閥值,將tim詞典中對應(yīng)的doc文件小于該閥值的詞全部篩選出來,而大于該閥值的doclist進(jìn)行保留;每間隔固定周期就將所有詞的doclist進(jìn)行小文件合并處理同時根據(jù)各個文件位置偏移量進(jìn)行記錄doclist所屬的分區(qū)信息;將每個文件對應(yīng)的分區(qū)偏移量信息記錄在大文件的尾部,在每次獲取所需文件時進(jìn)行讀取文件尾部位置信息來獲得所有doclist的偏移量;合并大文件放入一個kv系統(tǒng)里面,kv系統(tǒng)進(jìn)行快速讀取,將隨機目錄的小文件進(jìn)行合并后避免大量的隨機磁盤數(shù)據(jù)輸入或輸出處理;本發(fā)明能夠提供一種消耗計算資源少、處理速度快且對文件損耗低的基于大范圍掃描的詞典優(yōu)化方法。 |
