漢字混淆集生成方法及裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN202111281258.X 申請(qǐng)日 -
公開(公告)號(hào) CN114091439A 公開(公告)日 2022-02-25
申請(qǐng)公布號(hào) CN114091439A 申請(qǐng)公布日 2022-02-25
分類號(hào) G06F40/263(2020.01)I;G06F40/284(2020.01)I;G06F40/289(2020.01)I;G06N20/00(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 蘇萌;劉譯璟;易顯維;肖偉崎;高體偉;左云鵬 申請(qǐng)(專利權(quán))人 北京百分點(diǎn)科技集團(tuán)股份有限公司
代理機(jī)構(gòu) 北京國(guó)昊天誠(chéng)知識(shí)產(chǎn)權(quán)代理有限公司 代理人 王思超
地址 100080北京市海淀區(qū)建材中路27號(hào)14幢一層101層
法律狀態(tài) -

摘要

摘要 本申請(qǐng)公開的漢字混淆集生成方法例如包括:對(duì)漢字集合中的任意兩個(gè)漢字進(jìn)行分別組對(duì)得到多個(gè)漢字對(duì);構(gòu)造所述多個(gè)漢字對(duì)各自對(duì)應(yīng)的混淆特征,其中所述混淆特征包括字形混淆特征和拼音混淆特征;采用預(yù)設(shè)機(jī)器學(xué)習(xí)模型并根據(jù)所述多個(gè)漢字對(duì)各自對(duì)應(yīng)的所述字形混淆特征和所述拼音混淆特征對(duì)所述漢字對(duì)進(jìn)行預(yù)測(cè),得到所述多個(gè)漢字對(duì)的正例漢字混淆對(duì);以及根據(jù)所述正例漢字混淆對(duì)生成漢字混淆集。將漢字對(duì)的字形混淆特征和拼音混淆特征統(tǒng)一在同一個(gè)生成方法里,通過(guò)機(jī)器學(xué)習(xí)有監(jiān)督地學(xué)習(xí)上述混淆特征以預(yù)測(cè)輸入漢字對(duì)的混淆情況,從而生成了一個(gè)準(zhǔn)確率更高且更合理的混淆集。