一種基于空洞卷積神經(jīng)網(wǎng)絡(luò)的端到端語種識別分類方法
基本信息
申請?zhí)?/td> | CN202010247070.2 | 申請日 | - |
公開(公告)號 | CN113539238A | 公開(公告)日 | 2021-10-22 |
申請公布號 | CN113539238A | 申請公布日 | 2021-10-22 |
分類號 | G10L15/00;G10L15/06;G10L15/16;G10L25/03;G10L25/24;G10L25/30 | 分類 | 樂器;聲學(xué); |
發(fā)明人 | 張鵬遠(yuǎn);苗曉曉;王文超;顏永紅 | 申請(專利權(quán))人 | 北京中科信利技術(shù)有限公司 |
代理機構(gòu) | 北京億騰知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 陳霽 |
地址 | 100190 北京市海淀區(qū)北四環(huán)西路21號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于空洞卷積神經(jīng)網(wǎng)絡(luò)的端到端語種識別分類方法,包括:待訓(xùn)練語種識別網(wǎng)絡(luò)接收,并對訓(xùn)練語音中提取的幀級別聲學(xué)底層特征進(jìn)行至少一層空洞卷積后,輸出訓(xùn)練語音后驗概率;將訓(xùn)練語音后驗概率與真實類別標(biāo)簽的最小均方誤差作為待訓(xùn)練語種識別網(wǎng)絡(luò)的損失函數(shù),通過減小優(yōu)化函數(shù)的值進(jìn)行梯度回傳并更新待訓(xùn)練語種識別網(wǎng)絡(luò)的參數(shù),得到訓(xùn)練后語種識別網(wǎng)絡(luò);提取測試語音的幀級別聲學(xué)底層特征;訓(xùn)練后語種識別網(wǎng)絡(luò)接收測試語音的幀級別聲學(xué)底層特征,輸出測試語音后驗概率;根據(jù)測試語音后驗概率判定測試語音中的至少一個語種類別。在輸出特征圖的分辨率不變的情況下,不降低單個神經(jīng)元的感受野,弱化語音中的時間信息丟失問題。 |
