漢字混淆集生成方法及裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
基本信息
申請(qǐng)?zhí)?/td> | CN202111281258.X | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN114091439A | 公開(公告)日 | 2022-02-25 |
申請(qǐng)公布號(hào) | CN114091439A | 申請(qǐng)公布日 | 2022-02-25 |
分類號(hào) | G06F40/263(2020.01)I;G06F40/284(2020.01)I;G06F40/289(2020.01)I;G06N20/00(2019.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 蘇萌;劉譯璟;易顯維;肖偉崎;高體偉;左云鵬 | 申請(qǐng)(專利權(quán))人 | 北京百分點(diǎn)科技集團(tuán)股份有限公司 |
代理機(jī)構(gòu) | 北京國(guó)昊天誠(chéng)知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 王思超 |
地址 | 100080北京市海淀區(qū)建材中路27號(hào)14幢一層101層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請(qǐng)公開的漢字混淆集生成方法例如包括:對(duì)漢字集合中的任意兩個(gè)漢字進(jìn)行分別組對(duì)得到多個(gè)漢字對(duì);構(gòu)造所述多個(gè)漢字對(duì)各自對(duì)應(yīng)的混淆特征,其中所述混淆特征包括字形混淆特征和拼音混淆特征;采用預(yù)設(shè)機(jī)器學(xué)習(xí)模型并根據(jù)所述多個(gè)漢字對(duì)各自對(duì)應(yīng)的所述字形混淆特征和所述拼音混淆特征對(duì)所述漢字對(duì)進(jìn)行預(yù)測(cè),得到所述多個(gè)漢字對(duì)的正例漢字混淆對(duì);以及根據(jù)所述正例漢字混淆對(duì)生成漢字混淆集。將漢字對(duì)的字形混淆特征和拼音混淆特征統(tǒng)一在同一個(gè)生成方法里,通過(guò)機(jī)器學(xué)習(xí)有監(jiān)督地學(xué)習(xí)上述混淆特征以預(yù)測(cè)輸入漢字對(duì)的混淆情況,從而生成了一個(gè)準(zhǔn)確率更高且更合理的混淆集。 |
