一種基于拼音特征表征的中文糾錯方法及系統(tǒng)

基本信息

申請?zhí)?/td> CN202110544990.5 申請日 -
公開(公告)號 CN112966496B 公開(公告)日 2021-09-14
申請公布號 CN112966496B 申請公布日 2021-09-14
分類號 G06F40/232;G06N3/04;G06N3/08 分類 計算;推算;計數(shù);
發(fā)明人 許振興;曾慶斌;龐洵;朱留鋒 申請(專利權(quán))人 燈塔財經(jīng)信息有限公司
代理機構(gòu) 北京集智東方知識產(chǎn)權(quán)代理有限公司 代理人 吳倩;龔建蓉
地址 430040 湖北省武漢市東西湖區(qū)臺商投資區(qū)高橋產(chǎn)業(yè)園臺中大道特1號
法律狀態(tài) -

摘要

摘要 本發(fā)明提出了一種基于拼音特征表征的中文糾錯方法及系統(tǒng),其包括如下步驟:S1、構(gòu)建漢字的拼音模糊集以及構(gòu)造含有漢字錯別字的中文語句訓(xùn)練樣本;S2、利用上述訓(xùn)練樣本進行模型訓(xùn)練;以及S3、提取目標中文語句中漢字的漢字字符嵌入序列和拼音字符嵌入序列,并輸入到訓(xùn)練模型中,以得到目標中文語句中每個位置的漢字預(yù)測結(jié)果,最終獲得糾錯后的中文語句。本發(fā)明通過正確漢字和錯別字之間以拼音作為媒介的映射關(guān)系來獲得拼音模糊集,并基于混合注意力模塊建立訓(xùn)練模型,以此提高錯別字的學(xué)習(xí)效率和預(yù)測的準確度。