一種基于空洞卷積神經(jīng)網(wǎng)絡(luò)的端到端語種識(shí)別分類方法
基本信息
申請(qǐng)?zhí)?/td> | CN202010247070.2 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN113539238A | 公開(公告)日 | 2021-10-22 |
申請(qǐng)公布號(hào) | CN113539238A | 申請(qǐng)公布日 | 2021-10-22 |
分類號(hào) | G10L15/00;G10L15/06;G10L15/16;G10L25/03;G10L25/24;G10L25/30 | 分類 | 樂器;聲學(xué); |
發(fā)明人 | 張鵬遠(yuǎn);苗曉曉;王文超;顏永紅 | 申請(qǐng)(專利權(quán))人 | 北京中科信利技術(shù)有限公司 |
代理機(jī)構(gòu) | 北京億騰知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 陳霽 |
地址 | 100190 北京市海淀區(qū)北四環(huán)西路21號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于空洞卷積神經(jīng)網(wǎng)絡(luò)的端到端語種識(shí)別分類方法,包括:待訓(xùn)練語種識(shí)別網(wǎng)絡(luò)接收,并對(duì)訓(xùn)練語音中提取的幀級(jí)別聲學(xué)底層特征進(jìn)行至少一層空洞卷積后,輸出訓(xùn)練語音后驗(yàn)概率;將訓(xùn)練語音后驗(yàn)概率與真實(shí)類別標(biāo)簽的最小均方誤差作為待訓(xùn)練語種識(shí)別網(wǎng)絡(luò)的損失函數(shù),通過減小優(yōu)化函數(shù)的值進(jìn)行梯度回傳并更新待訓(xùn)練語種識(shí)別網(wǎng)絡(luò)的參數(shù),得到訓(xùn)練后語種識(shí)別網(wǎng)絡(luò);提取測(cè)試語音的幀級(jí)別聲學(xué)底層特征;訓(xùn)練后語種識(shí)別網(wǎng)絡(luò)接收測(cè)試語音的幀級(jí)別聲學(xué)底層特征,輸出測(cè)試語音后驗(yàn)概率;根據(jù)測(cè)試語音后驗(yàn)概率判定測(cè)試語音中的至少一個(gè)語種類別。在輸出特征圖的分辨率不變的情況下,不降低單個(gè)神經(jīng)元的感受野,弱化語音中的時(shí)間信息丟失問題。 |
