基于情報數(shù)據(jù)的文本檢索分類方法、系統(tǒng)及存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN202010048074.8 | 申請日 | - |
公開(公告)號 | CN111259145A | 公開(公告)日 | 2020-06-09 |
申請公布號 | CN111259145A | 申請公布日 | 2020-06-09 |
分類號 | G06F16/35(2019.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 廖宏;楊程;覃琳;梁暉;陳國南;黃云 | 申請(專利權(quán))人 | 廣西計算中心有限責任公司 |
代理機構(gòu) | 深圳市科吉華烽知識產(chǎn)權(quán)事務所(普通合伙) | 代理人 | 廣西計算中心有限責任公司 |
地址 | 530022廣西壯族自治區(qū)南寧市青秀區(qū)星湖路32號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開一種基于情報數(shù)據(jù)的文本檢索分類方法、系統(tǒng)及存儲介質(zhì),方法包括:對OCR識別出來的文檔進行采集,得到非結(jié)構(gòu)化文檔,并將文檔存入數(shù)據(jù)庫;通過人工或機器自動生成關(guān)鍵詞字典,并對關(guān)鍵詞字典進行歸類;使用已分類的關(guān)鍵詞字典對文檔進行處理,基于關(guān)鍵詞生成倒排索引,其中,在生成倒排索引時,增加每個所述關(guān)鍵詞所在的位置信息;根據(jù)關(guān)鍵詞所在的分類對文檔進行分類標注,并將得到的分類結(jié)果存入數(shù)據(jù)庫;對分類結(jié)果通過機器學習和/或人工標注方式生成新的詞匯,并對新的詞匯重新進行分類,將新的詞匯存入所述關(guān)鍵詞字典。本發(fā)明在生產(chǎn)索引的時候,增加每個關(guān)鍵字所在的位置信息,因加入了位置相關(guān)度信息,使得分類更準確。?? |
