一種基于時(shí)延神經(jīng)網(wǎng)絡(luò)的快速語種識(shí)別方法
基本信息
申請(qǐng)?zhí)?/td> | CN202010245658.4 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN111653267A | 公開(公告)日 | 2020-09-11 |
申請(qǐng)公布號(hào) | CN111653267A | 申請(qǐng)公布日 | 2020-09-11 |
分類號(hào) | G10L15/00;G10L15/04;G10L15/06;G10L15/10;G10L15/16 | 分類 | 樂器;聲學(xué); |
發(fā)明人 | 劉俊南;江海;王化;劉文龍 | 申請(qǐng)(專利權(quán))人 | 因諾微科技(天津)有限公司 |
代理機(jī)構(gòu) | 天津市北洋有限責(zé)任專利代理事務(wù)所 | 代理人 | 李素蘭 |
地址 | 300392 天津市濱海新區(qū)華苑產(chǎn)業(yè)區(qū)(環(huán)外)海泰發(fā)展五道16號(hào)B-6號(hào)樓-1-502 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于時(shí)延神經(jīng)網(wǎng)絡(luò)的快速語種識(shí)別方法,步驟1,輸入語音信號(hào),對(duì)輸入的語音信號(hào)進(jìn)行處理,得到固定長(zhǎng)度的語音信號(hào)幀序列;步驟2、按幀提取語音信號(hào)幀序列的底層聲學(xué)特征;步驟3,將底層聲學(xué)特征輸入Residual TDNN殘差塊結(jié)構(gòu)中進(jìn)行計(jì)算處理,得到M×64抽象特征;步驟4,進(jìn)行Attention計(jì)算,步驟5,對(duì)Attention特征在時(shí)間幀維度上應(yīng)用全局平均池化處理,得到Embedding向量;步驟6,對(duì)Embedding向量進(jìn)行兩層DNN提取,得到語種向量;步驟7,將語種向量輸入ArcFaceStatic損失函數(shù),將底層聲學(xué)特征輸入到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò),得到所有可識(shí)別語種的概率。本發(fā)明本發(fā)明在短語音上具有較強(qiáng)魯棒性,因此能夠快速準(zhǔn)確地識(shí)別語種。 |
