基于全文檢索分布式海量文本的存儲方法及裝置
基本信息
申請?zhí)?/td> | CN202210108903.6 | 申請日 | - |
公開(公告)號 | CN114443801A | 公開(公告)日 | 2022-05-06 |
申請公布號 | CN114443801A | 申請公布日 | 2022-05-06 |
分類號 | G06F16/31(2019.01)I;G06F40/284(2020.01)I;G06F40/289(2020.01)I | 分類 | 計算;推算;計數; |
發(fā)明人 | 王飛;許歡慶;曾雪峰;季仁通;孫敏 | 申請(專利權)人 | 中科基大數據科技(南京)有限公司 |
代理機構 | 北京知呱呱知識產權代理有限公司 | 代理人 | 胡樂 |
地址 | 211299江蘇省南京市雨花臺區(qū)板橋街道朝陽西苑商務大廈34幢2樓201室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于全文檢索分布式海量文本的存儲方法及裝置,包括抽取內外部文檔中的有用信息;將抽取的有用信息通過預先設置的匹配規(guī)則或模板進行解析,轉換為統(tǒng)一的XML文件;將處理過的XML文件數據壓縮打包成ZIP壓縮格式,加載進內存,并建立索引;加載進內存進行存儲時采用關鍵詞矩陣存儲和倒排索引;本發(fā)明提供的基于全文檢索分布式海量文本的存儲方法及裝置,能將海量的文信息進行分布式存儲,并能通過關鍵詞對文本內容進行讀取,解決了數據庫對海量數據處理的局限,使文本處理更加有效,利用全文庫實現了對海量數據的存取。 |
