基于全文檢索分布式海量文本的存儲方法及裝置

基本信息

申請?zhí)?/td> CN202210108903.6 申請日 -
公開(公告)號 CN114443801A 公開(公告)日 2022-05-06
申請公布號 CN114443801A 申請公布日 2022-05-06
分類號 G06F16/31(2019.01)I;G06F40/284(2020.01)I;G06F40/289(2020.01)I 分類 計算;推算;計數;
發(fā)明人 王飛;許歡慶;曾雪峰;季仁通;孫敏 申請(專利權)人 中科基大數據科技(南京)有限公司
代理機構 北京知呱呱知識產權代理有限公司 代理人 胡樂
地址 211299江蘇省南京市雨花臺區(qū)板橋街道朝陽西苑商務大廈34幢2樓201室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于全文檢索分布式海量文本的存儲方法及裝置,包括抽取內外部文檔中的有用信息;將抽取的有用信息通過預先設置的匹配規(guī)則或模板進行解析,轉換為統(tǒng)一的XML文件;將處理過的XML文件數據壓縮打包成ZIP壓縮格式,加載進內存,并建立索引;加載進內存進行存儲時采用關鍵詞矩陣存儲和倒排索引;本發(fā)明提供的基于全文檢索分布式海量文本的存儲方法及裝置,能將海量的文信息進行分布式存儲,并能通過關鍵詞對文本內容進行讀取,解決了數據庫對海量數據處理的局限,使文本處理更加有效,利用全文庫實現了對海量數據的存取。