一種基于深度神經(jīng)網(wǎng)絡(luò)的自動語音識別方法

基本信息

申請?zhí)?/td> CN202110599305.9 申請日 -
公開(公告)號 CN113327585A 公開(公告)日 2021-08-31
申請公布號 CN113327585A 申請公布日 2021-08-31
分類號 G10L15/02(2006.01)I;G10L15/16(2006.01)I;G10L15/26(2006.01)I;G10L15/00(2013.01)I 分類 樂器;聲學;
發(fā)明人 王蒙;付志勇;胡奎;姜黎;潘艾婷 申請(專利權(quán))人 杭州芯聲智能科技有限公司
代理機構(gòu) 成都知都云專利代理事務(wù)所(普通合伙) 代理人 趙正寅
地址 310000浙江省杭州市杭州經(jīng)濟技術(shù)開發(fā)區(qū)白楊街道科技園路20號14幢3層02室-15
法律狀態(tài) -

摘要

摘要 本發(fā)明提供的一種基于深度神經(jīng)網(wǎng)絡(luò)的自動語音識別方法,涉及自動語音識別領(lǐng)域。本發(fā)明通過采用Log Fbank作為聲學特征,只需要40維特征就足夠表達聲學信號的特征,極大的簡化的信號的處理過程和神經(jīng)網(wǎng)絡(luò)模型的大?。徊捎肰GG加雙向GRU結(jié)合的神經(jīng)網(wǎng)絡(luò)模型,加上GRU可以充分的利用語音前后幀的信息,從而得到最佳的識別效果。明通過CTC解碼是將連續(xù)的相同結(jié)果合并,去除多余結(jié)果,并通過預先定義好的拼音列表映射得到識別出的拼音序列,無需對齊,免除人工對齊操作;通過采用隱馬爾科夫語言模型,將拼音序列作為模型輸入,并得到對應(yīng)的文字識別結(jié)果;能給出同一個拼音對應(yīng)不同文字的最佳識別結(jié)果,使自動語音識別的準確性大大提升。