基于全文檢索分布式海量文本的存儲(chǔ)方法及裝置
基本信息
申請(qǐng)?zhí)?/td> | CN202210108903.6 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN114443801A | 公開(公告)日 | 2022-05-06 |
申請(qǐng)公布號(hào) | CN114443801A | 申請(qǐng)公布日 | 2022-05-06 |
分類號(hào) | G06F16/31(2019.01)I;G06F40/284(2020.01)I;G06F40/289(2020.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 王飛;許歡慶;曾雪峰;季仁通;孫敏 | 申請(qǐng)(專利權(quán))人 | 北京迅奧科技有限公司 |
代理機(jī)構(gòu) | 北京知呱呱知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 胡樂 |
地址 | 211299江蘇省南京市雨花臺(tái)區(qū)板橋街道朝陽西苑商務(wù)大廈34幢2樓201室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于全文檢索分布式海量文本的存儲(chǔ)方法及裝置,包括抽取內(nèi)外部文檔中的有用信息;將抽取的有用信息通過預(yù)先設(shè)置的匹配規(guī)則或模板進(jìn)行解析,轉(zhuǎn)換為統(tǒng)一的XML文件;將處理過的XML文件數(shù)據(jù)壓縮打包成ZIP壓縮格式,加載進(jìn)內(nèi)存,并建立索引;加載進(jìn)內(nèi)存進(jìn)行存儲(chǔ)時(shí)采用關(guān)鍵詞矩陣存儲(chǔ)和倒排索引;本發(fā)明提供的基于全文檢索分布式海量文本的存儲(chǔ)方法及裝置,能將海量的文信息進(jìn)行分布式存儲(chǔ),并能通過關(guān)鍵詞對(duì)文本內(nèi)容進(jìn)行讀取,解決了數(shù)據(jù)庫對(duì)海量數(shù)據(jù)處理的局限,使文本處理更加有效,利用全文庫實(shí)現(xiàn)了對(duì)海量數(shù)據(jù)的存取。 |
