一種基于空洞卷積神經(jīng)網(wǎng)絡(luò)的端到端語種識(shí)別分類方法

基本信息

申請(qǐng)?zhí)?/td> CN202010247070.2 申請(qǐng)日 -
公開(公告)號(hào) CN113539238A 公開(公告)日 2021-10-22
申請(qǐng)公布號(hào) CN113539238A 申請(qǐng)公布日 2021-10-22
分類號(hào) G10L15/00;G10L15/06;G10L15/16;G10L25/03;G10L25/24;G10L25/30 分類 樂器;聲學(xué);
發(fā)明人 張鵬遠(yuǎn);苗曉曉;王文超;顏永紅 申請(qǐng)(專利權(quán))人 北京中科信利技術(shù)有限公司
代理機(jī)構(gòu) 北京億騰知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 陳霽
地址 100190 北京市海淀區(qū)北四環(huán)西路21號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于空洞卷積神經(jīng)網(wǎng)絡(luò)的端到端語種識(shí)別分類方法,包括:待訓(xùn)練語種識(shí)別網(wǎng)絡(luò)接收,并對(duì)訓(xùn)練語音中提取的幀級(jí)別聲學(xué)底層特征進(jìn)行至少一層空洞卷積后,輸出訓(xùn)練語音后驗(yàn)概率;將訓(xùn)練語音后驗(yàn)概率與真實(shí)類別標(biāo)簽的最小均方誤差作為待訓(xùn)練語種識(shí)別網(wǎng)絡(luò)的損失函數(shù),通過減小優(yōu)化函數(shù)的值進(jìn)行梯度回傳并更新待訓(xùn)練語種識(shí)別網(wǎng)絡(luò)的參數(shù),得到訓(xùn)練后語種識(shí)別網(wǎng)絡(luò);提取測(cè)試語音的幀級(jí)別聲學(xué)底層特征;訓(xùn)練后語種識(shí)別網(wǎng)絡(luò)接收測(cè)試語音的幀級(jí)別聲學(xué)底層特征,輸出測(cè)試語音后驗(yàn)概率;根據(jù)測(cè)試語音后驗(yàn)概率判定測(cè)試語音中的至少一個(gè)語種類別。在輸出特征圖的分辨率不變的情況下,不降低單個(gè)神經(jīng)元的感受野,弱化語音中的時(shí)間信息丟失問題。