一種基于空洞卷積神經(jīng)網(wǎng)絡(luò)的端到端語種識別分類方法

基本信息

申請?zhí)?/td> CN202010247070.2 申請日 -
公開(公告)號 CN113539238A 公開(公告)日 2021-10-22
申請公布號 CN113539238A 申請公布日 2021-10-22
分類號 G10L15/00;G10L15/06;G10L15/16;G10L25/03;G10L25/24;G10L25/30 分類 樂器;聲學(xué);
發(fā)明人 張鵬遠(yuǎn);苗曉曉;王文超;顏永紅 申請(專利權(quán))人 北京中科信利技術(shù)有限公司
代理機構(gòu) 北京億騰知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 陳霽
地址 100190 北京市海淀區(qū)北四環(huán)西路21號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于空洞卷積神經(jīng)網(wǎng)絡(luò)的端到端語種識別分類方法,包括:待訓(xùn)練語種識別網(wǎng)絡(luò)接收,并對訓(xùn)練語音中提取的幀級別聲學(xué)底層特征進(jìn)行至少一層空洞卷積后,輸出訓(xùn)練語音后驗概率;將訓(xùn)練語音后驗概率與真實類別標(biāo)簽的最小均方誤差作為待訓(xùn)練語種識別網(wǎng)絡(luò)的損失函數(shù),通過減小優(yōu)化函數(shù)的值進(jìn)行梯度回傳并更新待訓(xùn)練語種識別網(wǎng)絡(luò)的參數(shù),得到訓(xùn)練后語種識別網(wǎng)絡(luò);提取測試語音的幀級別聲學(xué)底層特征;訓(xùn)練后語種識別網(wǎng)絡(luò)接收測試語音的幀級別聲學(xué)底層特征,輸出測試語音后驗概率;根據(jù)測試語音后驗概率判定測試語音中的至少一個語種類別。在輸出特征圖的分辨率不變的情況下,不降低單個神經(jīng)元的感受野,弱化語音中的時間信息丟失問題。