一種大容量文本內(nèi)容檢索方法和系統(tǒng)
基本信息
申請?zhí)?/td> | CN202111555700.3 | 申請日 | - |
公開(公告)號 | CN114218373A | 公開(公告)日 | 2022-03-22 |
申請公布號 | CN114218373A | 申請公布日 | 2022-03-22 |
分類號 | G06F16/332(2019.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 葉啟寧;王彥君;陶雅茹;方秋陽;周洪峰;王雨;張宇峰;李忠 | 申請(專利權(quán))人 | 中電信數(shù)智科技有限公司 |
代理機(jī)構(gòu) | 北京知匯林知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 楊華 |
地址 | 100036 北京市海淀區(qū)復(fù)興路33號13層?xùn)|塔13層1308室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及數(shù)據(jù)檢索技術(shù)領(lǐng)域,具體公開了一種大容量文本內(nèi)容檢索方法和系統(tǒng),所述方法包括根據(jù)預(yù)設(shè)的間隔字長截取已存儲的文本信息,得到待檢文本;提取所述待檢文本的關(guān)鍵詞,并向所述關(guān)鍵詞插入所述待檢文本的標(biāo)號;統(tǒng)計含有標(biāo)號的關(guān)鍵詞,得到基于標(biāo)號排序的查詢表;其中,所述查詢表中包括關(guān)鍵詞項以及對應(yīng)的次數(shù)項;其中,所述關(guān)鍵詞還包括相對于待檢文本頭部字節(jié)的偏移量。本發(fā)明通過提取文本信息的含有偏移量的關(guān)鍵詞,生成以關(guān)鍵詞為內(nèi)容的檢索表,當(dāng)含有檢索詞條的檢索請求時,根據(jù)檢索詞條中的關(guān)鍵字匹配,找到對應(yīng)的偏移量,確定目標(biāo)信息并顯示,無需對文本信息進(jìn)行遍歷,檢索速度極快。 |
