一種語言模型訓(xùn)練方法、漢語拼音輸入方法及裝置
基本信息
申請(qǐng)?zhí)?/td> | CN201910024064.8 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN109739370B | 公開(公告)日 | 2019-09-03 |
申請(qǐng)公布號(hào) | CN109739370B | 申請(qǐng)公布日 | 2019-09-03 |
分類號(hào) | G06F3/023;G06F17/22;G06N3/04;G06N3/08 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 汪磊 | 申請(qǐng)(專利權(quán))人 | 北京帝派智能科技有限公司 |
代理機(jī)構(gòu) | 北京弘權(quán)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 北京帝派智能科技有限公司 |
地址 | 100107 北京市朝陽區(qū)北苑路甲13號(hào)院1號(hào)樓16層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請(qǐng)實(shí)施例提供了一種語言模型訓(xùn)練方法及裝置,該語言模型包括編碼器和解碼器。該方法包括:獲取訓(xùn)練數(shù)據(jù),訓(xùn)練數(shù)據(jù)包括成對(duì)的拼音編碼序列和漢字編碼序列,拼音序列包含多個(gè)拼音編碼,每個(gè)拼音編碼對(duì)應(yīng)一個(gè)音節(jié),漢字編碼序列包含多個(gè)漢字編碼,每個(gè)漢字編碼對(duì)應(yīng)一個(gè)漢字;以拼音編碼序列作為編碼器的輸入,輸出拼音編碼序列的全局上下文特征和音節(jié)發(fā)音特征;以編碼器輸出的全局上下文特征和音節(jié)發(fā)音特征以及前序漢字編碼序列作為解碼器的輸入,以漢字編碼序列為解碼器的目標(biāo)輸出,訓(xùn)練語言模型。從而,將該語言模型應(yīng)用到輸入法中,能夠使輸入法具備準(zhǔn)確的整句輸入能力,從而解決了現(xiàn)有技術(shù)的漢語拼音輸入方法整句輸入準(zhǔn)確性差的問題。 |
