一種利用神經(jīng)網(wǎng)絡(luò)的語音活性檢測方法
基本信息
申請?zhí)?/td> | CN202110979720.7 | 申請日 | - |
公開(公告)號 | CN113421595A | 公開(公告)日 | 2021-09-21 |
申請公布號 | CN113421595A | 申請公布日 | 2021-09-21 |
分類號 | G10L25/81(2013.01)I;G10L25/84(2013.01)I;G10L25/30(2013.01)I;G06K9/62(2006.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分類 | 樂器;聲學; |
發(fā)明人 | 萬東琴;胡岸;劉文通;曾帆 | 申請(專利權(quán))人 | 成都啟英泰倫科技有限公司 |
代理機構(gòu) | - | 代理人 | - |
地址 | 610041四川省成都市高新區(qū)天府五街200號菁蓉匯4號樓A座12層 | ||
法律狀態(tài) | - |
摘要
摘要 | 一種利用神經(jīng)網(wǎng)絡(luò)的語音活性檢測方法,包括模型訓練過程和語音活性檢測過程;所述模型訓練過程包括以下步驟:S1.對用于訓練的純凈語音確定端點檢測標簽;S2.對純凈語音進行隨機加噪,構(gòu)造訓練集;S3.逐幀處理,提取訓練集中的多階多分辨率耳蝸圖特征向量;S4.構(gòu)建多層門控制循環(huán)單元網(wǎng)絡(luò),利用訓練集對其進行訓練,得到多層門控制循環(huán)單元成熟模型,利用成熟模型進行語音活性檢測。本發(fā)明利用神經(jīng)網(wǎng)絡(luò)良好的分類性能,提取帶噪語音的特定特征,并通過預先訓練好的神經(jīng)網(wǎng)絡(luò)模型,對語音以及噪聲進行初步分類并求得一個語音存在概率;通過狀態(tài)機對獲得的語音存在概率進行后處理,從而得到一個平滑且相對準確的語音活性檢測標識。 |
