一種實現(xiàn)跨領(lǐng)域的中文文本糾錯方法和系統(tǒng)
基本信息
申請?zhí)?/td> | CN202110383985.0 | 申請日 | - |
公開(公告)號 | CN113076739A | 公開(公告)日 | 2021-07-06 |
申請公布號 | CN113076739A | 申請公布日 | 2021-07-06 |
分類號 | G06F40/232(2020.01)I;G06F40/289(2020.01)I;G06N3/04(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 宋正博;肖龍源;李稀敏;李威 | 申請(專利權(quán))人 | 廈門快商通科技股份有限公司 |
代理機構(gòu) | 廈門市首創(chuàng)君合專利事務(wù)所有限公司 | 代理人 | 連耀忠;王婷婷 |
地址 | 361000福建省廈門市軟件園三期誠毅北大街63號1301單元 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供一種實現(xiàn)跨領(lǐng)域的中文文本糾錯方法,包括如下步驟:采用序列標(biāo)注的檢錯模型結(jié)合通用領(lǐng)域的監(jiān)督數(shù)據(jù)訓(xùn)練模型進行錯誤檢測;通過編輯距離或者Jaccard距離在詞表的拼音庫中進行錯誤找回,獲得錯誤替換集合;將錯誤替換集合中的詞語依次替換錯誤,采用rnnlm語言模型來對替換錯誤后的句子進行困惑度計算,根據(jù)計算的句子困惑度確定錯誤替換集合中正確的詞語,完成中文文本糾錯;本發(fā)明提出一種實現(xiàn)跨領(lǐng)域的中文文本糾錯方法,即一套錯誤檢測→候選召回→糾錯排序的模型,能夠更通用地處理跨領(lǐng)域文本的糾錯問題,通過深度學(xué)習(xí)訓(xùn)練的語言模型來召回文本,能夠提升召回文本的困惑度,并且模型相互解耦合,提升了效率。 |
