基于端到端模型的混合語(yǔ)音識(shí)別系統(tǒng)及方法

基本信息

申請(qǐng)?zhí)?/td> CN202111041405.6 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN113763939A 公開(kāi)(公告)日 2021-12-07
申請(qǐng)公布號(hào) CN113763939A 申請(qǐng)公布日 2021-12-07
分類號(hào) G10L15/183(2013.01)I;G10L15/06(2013.01)I;G10L15/02(2006.01)I 分類 樂(lè)器;聲學(xué);
發(fā)明人 司玉景;李全忠;何國(guó)濤;蒲瑤 申請(qǐng)(專利權(quán))人 普強(qiáng)時(shí)代(珠海橫琴)信息技術(shù)有限公司
代理機(jī)構(gòu) 北京科億知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 湯東鳳
地址 519000廣東省珠海市橫琴新區(qū)寶華路6號(hào)105室-58115(集中辦公區(qū))
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種基于端到端模型的混合語(yǔ)音識(shí)別系統(tǒng)及方法,包括特征提取模塊、語(yǔ)言模型、基于端到端模型的聲學(xué)模型、解碼器、詞圖重估模塊以及輸出模塊。本發(fā)明采用聲學(xué)語(yǔ)言端到端建模技術(shù),對(duì)海量語(yǔ)音數(shù)據(jù)進(jìn)行建模,并將端到端模型的編碼網(wǎng)絡(luò)作為聲學(xué)模型,嵌入到混合語(yǔ)音識(shí)別系統(tǒng)中,不僅進(jìn)一步提高了語(yǔ)音識(shí)別準(zhǔn)確率,而且解決了純端到端語(yǔ)音識(shí)別系統(tǒng)在項(xiàng)目中難以做定制化的問(wèn)題。另外,本發(fā)明在端到端模型的編碼網(wǎng)絡(luò)的基礎(chǔ)上,繼續(xù)做鑒別性聲學(xué)模型訓(xùn)練(SMBR、MPE等),可以進(jìn)一步提高識(shí)別準(zhǔn)確率。