一種基于神經(jīng)網(wǎng)絡(luò)VAD算法的人機(jī)交互方法
基本信息
申請(qǐng)?zhí)?/td> | CN202110410397.1 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN113160816A | 公開(公告)日 | 2021-07-23 |
申請(qǐng)公布號(hào) | CN113160816A | 申請(qǐng)公布日 | 2021-07-23 |
分類號(hào) | G10L15/22;G10L15/16;G10L21/0232;G06N3/08;G06N3/04 | 分類 | 樂器;聲學(xué); |
發(fā)明人 | 徐閩兆龍 | 申請(qǐng)(專利權(quán))人 | 萬蚓網(wǎng)絡(luò)科技(上海)有限公司 |
代理機(jī)構(gòu) | 上海翰信知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 張維東 |
地址 | 200082 上海市楊浦區(qū)長(zhǎng)陽路2588號(hào)2幢2層(集中登記地) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種基于神經(jīng)網(wǎng)絡(luò)VAD算法的人機(jī)交互方法,包括以下步驟:對(duì)輸入的音頻信號(hào)進(jìn)行預(yù)加載,保留有效的音頻段;對(duì)所述音頻段進(jìn)行數(shù)字化處理,并對(duì)所述數(shù)字化處理后的音頻數(shù)字進(jìn)行分幀和加窗操作;把加窗操作后的音頻數(shù)字作為新的樣本放入樣本集進(jìn)行訓(xùn)練,采用神經(jīng)網(wǎng)絡(luò)和人機(jī)交互結(jié)果自動(dòng)調(diào)整VAD參數(shù);將調(diào)整好的VAD參數(shù)運(yùn)用于神經(jīng)網(wǎng)絡(luò)VAD算法,并讀取加窗后的音頻數(shù)字,以讀取語音數(shù)據(jù);對(duì)讀取到的語音數(shù)據(jù)進(jìn)行降噪處理和頻域?yàn)V波處理;得到人機(jī)交互的輸出結(jié)果。本發(fā)明通過神經(jīng)網(wǎng)絡(luò)把新的音頻數(shù)字作為新的樣本放入樣本集進(jìn)行訓(xùn)練,在大量通話和相同背景下,結(jié)合利用人機(jī)交互的輸出結(jié)果糾正VAD參數(shù),從而不斷優(yōu)化VAD參數(shù),以不斷優(yōu)化人機(jī)交互質(zhì)量。 |
