一種利用神經(jīng)網(wǎng)絡(luò)的語音活性檢測方法

基本信息

申請?zhí)?/td> CN202110979720.7 申請日 -
公開(公告)號 CN113421595A 公開(公告)日 2021-09-21
申請公布號 CN113421595A 申請公布日 2021-09-21
分類號 G10L25/81(2013.01)I;G10L25/84(2013.01)I;G10L25/30(2013.01)I;G06K9/62(2006.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分類 樂器;聲學;
發(fā)明人 萬東琴;胡岸;劉文通;曾帆 申請(專利權(quán))人 成都啟英泰倫科技有限公司
代理機構(gòu) - 代理人 -
地址 610041四川省成都市高新區(qū)天府五街200號菁蓉匯4號樓A座12層
法律狀態(tài) -

摘要

摘要 一種利用神經(jīng)網(wǎng)絡(luò)的語音活性檢測方法,包括模型訓練過程和語音活性檢測過程;所述模型訓練過程包括以下步驟:S1.對用于訓練的純凈語音確定端點檢測標簽;S2.對純凈語音進行隨機加噪,構(gòu)造訓練集;S3.逐幀處理,提取訓練集中的多階多分辨率耳蝸圖特征向量;S4.構(gòu)建多層門控制循環(huán)單元網(wǎng)絡(luò),利用訓練集對其進行訓練,得到多層門控制循環(huán)單元成熟模型,利用成熟模型進行語音活性檢測。本發(fā)明利用神經(jīng)網(wǎng)絡(luò)良好的分類性能,提取帶噪語音的特定特征,并通過預先訓練好的神經(jīng)網(wǎng)絡(luò)模型,對語音以及噪聲進行初步分類并求得一個語音存在概率;通過狀態(tài)機對獲得的語音存在概率進行后處理,從而得到一個平滑且相對準確的語音活性檢測標識。