一種基于拼音相同或相似的中文文本糾錯(cuò)方法

基本信息

申請(qǐng)?zhí)?/td> CN202010496115.X 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN111753529B 公開(kāi)(公告)日 2021-07-27
申請(qǐng)公布號(hào) CN111753529B 申請(qǐng)公布日 2021-07-27
分類(lèi)號(hào) G06F40/232(2020.01);G06F40/289(2020.01) 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 何卓威 申請(qǐng)(專(zhuān)利權(quán))人 杭州云嘉云計(jì)算有限公司
代理機(jī)構(gòu) 杭州杭誠(chéng)專(zhuān)利事務(wù)所有限公司 代理人 尉偉敏
地址 311100浙江省杭州市余杭區(qū)五常街道聯(lián)創(chuàng)街188號(hào)5號(hào)樓401室
法律狀態(tài) -

摘要

摘要 本發(fā)明提出一種基于拼音相同或相似的中文文本糾錯(cuò)方法,包括以下步驟:S1,在傳統(tǒng)ngrams語(yǔ)言模型基礎(chǔ)上做調(diào)整,建立粒度為單個(gè)中文字符的中文字結(jié)構(gòu)語(yǔ)言模型;S2,對(duì)待糾錯(cuò)語(yǔ)句進(jìn)行候選處理,生成候選序列;S3,基于混淆集和MAD算法對(duì)候選序列進(jìn)行檢錯(cuò),獲得待糾錯(cuò)語(yǔ)句候選序列;S4,基于中文字結(jié)構(gòu)語(yǔ)言模型的最大后驗(yàn)概率,使用雙選Viterbi算法解碼輸出糾錯(cuò)結(jié)果。本發(fā)明相對(duì)于傳統(tǒng)方法詞粒度準(zhǔn)確率較高,糾錯(cuò)速度較傳統(tǒng)方法快。