基于全文檢索分布式海量文本的存儲(chǔ)方法及裝置

基本信息

申請(qǐng)?zhí)?/td> CN202210108903.6 申請(qǐng)日 -
公開(公告)號(hào) CN114443801A 公開(公告)日 2022-05-06
申請(qǐng)公布號(hào) CN114443801A 申請(qǐng)公布日 2022-05-06
分類號(hào) G06F16/31(2019.01)I;G06F40/284(2020.01)I;G06F40/289(2020.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 王飛;許歡慶;曾雪峰;季仁通;孫敏 申請(qǐng)(專利權(quán))人 北京迅奧科技有限公司
代理機(jī)構(gòu) 北京知呱呱知識(shí)產(chǎn)權(quán)代理有限公司 代理人 胡樂
地址 211299江蘇省南京市雨花臺(tái)區(qū)板橋街道朝陽西苑商務(wù)大廈34幢2樓201室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于全文檢索分布式海量文本的存儲(chǔ)方法及裝置,包括抽取內(nèi)外部文檔中的有用信息;將抽取的有用信息通過預(yù)先設(shè)置的匹配規(guī)則或模板進(jìn)行解析,轉(zhuǎn)換為統(tǒng)一的XML文件;將處理過的XML文件數(shù)據(jù)壓縮打包成ZIP壓縮格式,加載進(jìn)內(nèi)存,并建立索引;加載進(jìn)內(nèi)存進(jìn)行存儲(chǔ)時(shí)采用關(guān)鍵詞矩陣存儲(chǔ)和倒排索引;本發(fā)明提供的基于全文檢索分布式海量文本的存儲(chǔ)方法及裝置,能將海量的文信息進(jìn)行分布式存儲(chǔ),并能通過關(guān)鍵詞對(duì)文本內(nèi)容進(jìn)行讀取,解決了數(shù)據(jù)庫對(duì)海量數(shù)據(jù)處理的局限,使文本處理更加有效,利用全文庫實(shí)現(xiàn)了對(duì)海量數(shù)據(jù)的存取。