端到端語音識別模型的訓(xùn)練方法及系統(tǒng)

基本信息

申請?zhí)?/td> CN201910853470.5 申請日 -
公開(公告)號 CN110556100B 公開(公告)日 2021-09-17
申請公布號 CN110556100B 申請公布日 2021-09-17
分類號 G10L15/06 分類 樂器;聲學(xué);
發(fā)明人 俞凱;錢彥旻;黃明坤;盧怡宙;王嵐 申請(專利權(quán))人 上海交大知識產(chǎn)權(quán)管理有限公司
代理機(jī)構(gòu) 北京商專永信知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 黃謙;車江華
地址 215123 江蘇省蘇州市蘇州工業(yè)園區(qū)新平街388號騰飛創(chuàng)新園14棟
法律狀態(tài) -

摘要

摘要 本發(fā)明公開一種端到端語音識別模型的訓(xùn)練方法,所述端到端語音識別模型包括編碼器和解碼器,所述方法包括:預(yù)先訓(xùn)練得到聲學(xué)模型和交叉熵語言模型;基于所述聲學(xué)模型初始化所述端到端語音識別模型的編碼器;根據(jù)所述交叉熵語言模型初始化所述端到端語音識別模型的解碼器;對初始化之后的所述端到端語音識別模型進(jìn)行訓(xùn)練。采用多階段預(yù)訓(xùn)練的方式,避免了模型訓(xùn)練早期的長時間緩慢學(xué)習(xí)階段,從而極大削減模型訓(xùn)練時間。同時這種策略沒有超參數(shù)需要調(diào)優(yōu),相對于現(xiàn)有技術(shù),避免了大量繁瑣的超參數(shù)調(diào)優(yōu)。