一種基于神經(jīng)網(wǎng)絡(luò)VAD算法的人機(jī)交互方法
基本信息
申請?zhí)?/td> | CN202110410397.1 | 申請日 | - |
公開(公告)號 | CN113160816A | 公開(公告)日 | 2021-07-23 |
申請公布號 | CN113160816A | 申請公布日 | 2021-07-23 |
分類號 | G10L15/22;G10L15/16;G10L21/0232;G06N3/08;G06N3/04 | 分類 | 樂器;聲學(xué); |
發(fā)明人 | 徐閩兆龍 | 申請(專利權(quán))人 | 萬蚓網(wǎng)絡(luò)科技(上海)有限公司 |
代理機(jī)構(gòu) | 上海翰信知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 張維東 |
地址 | 200082 上海市楊浦區(qū)長陽路2588號2幢2層(集中登記地) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種基于神經(jīng)網(wǎng)絡(luò)VAD算法的人機(jī)交互方法,包括以下步驟:對輸入的音頻信號進(jìn)行預(yù)加載,保留有效的音頻段;對所述音頻段進(jìn)行數(shù)字化處理,并對所述數(shù)字化處理后的音頻數(shù)字進(jìn)行分幀和加窗操作;把加窗操作后的音頻數(shù)字作為新的樣本放入樣本集進(jìn)行訓(xùn)練,采用神經(jīng)網(wǎng)絡(luò)和人機(jī)交互結(jié)果自動調(diào)整VAD參數(shù);將調(diào)整好的VAD參數(shù)運用于神經(jīng)網(wǎng)絡(luò)VAD算法,并讀取加窗后的音頻數(shù)字,以讀取語音數(shù)據(jù);對讀取到的語音數(shù)據(jù)進(jìn)行降噪處理和頻域濾波處理;得到人機(jī)交互的輸出結(jié)果。本發(fā)明通過神經(jīng)網(wǎng)絡(luò)把新的音頻數(shù)字作為新的樣本放入樣本集進(jìn)行訓(xùn)練,在大量通話和相同背景下,結(jié)合利用人機(jī)交互的輸出結(jié)果糾正VAD參數(shù),從而不斷優(yōu)化VAD參數(shù),以不斷優(yōu)化人機(jī)交互質(zhì)量。 |
