一種實現(xiàn)跨領(lǐng)域的中文文本糾錯方法和系統(tǒng)

基本信息

申請?zhí)?/td> CN202110383985.0 申請日 -
公開(公告)號 CN113076739A 公開(公告)日 2021-07-06
申請公布號 CN113076739A 申請公布日 2021-07-06
分類號 G06F40/232(2020.01)I;G06F40/289(2020.01)I;G06N3/04(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 宋正博;肖龍源;李稀敏;李威 申請(專利權(quán))人 廈門快商通科技股份有限公司
代理機構(gòu) 廈門市首創(chuàng)君合專利事務(wù)所有限公司 代理人 連耀忠;王婷婷
地址 361000福建省廈門市軟件園三期誠毅北大街63號1301單元
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種實現(xiàn)跨領(lǐng)域的中文文本糾錯方法,包括如下步驟:采用序列標(biāo)注的檢錯模型結(jié)合通用領(lǐng)域的監(jiān)督數(shù)據(jù)訓(xùn)練模型進行錯誤檢測;通過編輯距離或者Jaccard距離在詞表的拼音庫中進行錯誤找回,獲得錯誤替換集合;將錯誤替換集合中的詞語依次替換錯誤,采用rnnlm語言模型來對替換錯誤后的句子進行困惑度計算,根據(jù)計算的句子困惑度確定錯誤替換集合中正確的詞語,完成中文文本糾錯;本發(fā)明提出一種實現(xiàn)跨領(lǐng)域的中文文本糾錯方法,即一套錯誤檢測→候選召回→糾錯排序的模型,能夠更通用地處理跨領(lǐng)域文本的糾錯問題,通過深度學(xué)習(xí)訓(xùn)練的語言模型來召回文本,能夠提升召回文本的困惑度,并且模型相互解耦合,提升了效率。