一種基于神經(jīng)網(wǎng)絡(luò)VAD算法的人機(jī)交互方法

基本信息

申請?zhí)?/td> CN202110410397.1 申請日 -
公開(公告)號 CN113160816A 公開(公告)日 2021-07-23
申請公布號 CN113160816A 申請公布日 2021-07-23
分類號 G10L15/22;G10L15/16;G10L21/0232;G06N3/08;G06N3/04 分類 樂器;聲學(xué);
發(fā)明人 徐閩兆龍 申請(專利權(quán))人 萬蚓網(wǎng)絡(luò)科技(上海)有限公司
代理機(jī)構(gòu) 上海翰信知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 張維東
地址 200082 上海市楊浦區(qū)長陽路2588號2幢2層(集中登記地)
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種基于神經(jīng)網(wǎng)絡(luò)VAD算法的人機(jī)交互方法,包括以下步驟:對輸入的音頻信號進(jìn)行預(yù)加載,保留有效的音頻段;對所述音頻段進(jìn)行數(shù)字化處理,并對所述數(shù)字化處理后的音頻數(shù)字進(jìn)行分幀和加窗操作;把加窗操作后的音頻數(shù)字作為新的樣本放入樣本集進(jìn)行訓(xùn)練,采用神經(jīng)網(wǎng)絡(luò)和人機(jī)交互結(jié)果自動調(diào)整VAD參數(shù);將調(diào)整好的VAD參數(shù)運用于神經(jīng)網(wǎng)絡(luò)VAD算法,并讀取加窗后的音頻數(shù)字,以讀取語音數(shù)據(jù);對讀取到的語音數(shù)據(jù)進(jìn)行降噪處理和頻域濾波處理;得到人機(jī)交互的輸出結(jié)果。本發(fā)明通過神經(jīng)網(wǎng)絡(luò)把新的音頻數(shù)字作為新的樣本放入樣本集進(jìn)行訓(xùn)練,在大量通話和相同背景下,結(jié)合利用人機(jī)交互的輸出結(jié)果糾正VAD參數(shù),從而不斷優(yōu)化VAD參數(shù),以不斷優(yōu)化人機(jī)交互質(zhì)量。