一種基于神經(jīng)網(wǎng)絡(luò)VAD算法的人機(jī)交互方法

基本信息

申請(qǐng)?zhí)?/td> CN202110410397.1 申請(qǐng)日 -
公開(公告)號(hào) CN113160816A 公開(公告)日 2021-07-23
申請(qǐng)公布號(hào) CN113160816A 申請(qǐng)公布日 2021-07-23
分類號(hào) G10L15/22;G10L15/16;G10L21/0232;G06N3/08;G06N3/04 分類 樂器;聲學(xué);
發(fā)明人 徐閩兆龍 申請(qǐng)(專利權(quán))人 萬蚓網(wǎng)絡(luò)科技(上海)有限公司
代理機(jī)構(gòu) 上海翰信知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 張維東
地址 200082 上海市楊浦區(qū)長(zhǎng)陽路2588號(hào)2幢2層(集中登記地)
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種基于神經(jīng)網(wǎng)絡(luò)VAD算法的人機(jī)交互方法,包括以下步驟:對(duì)輸入的音頻信號(hào)進(jìn)行預(yù)加載,保留有效的音頻段;對(duì)所述音頻段進(jìn)行數(shù)字化處理,并對(duì)所述數(shù)字化處理后的音頻數(shù)字進(jìn)行分幀和加窗操作;把加窗操作后的音頻數(shù)字作為新的樣本放入樣本集進(jìn)行訓(xùn)練,采用神經(jīng)網(wǎng)絡(luò)和人機(jī)交互結(jié)果自動(dòng)調(diào)整VAD參數(shù);將調(diào)整好的VAD參數(shù)運(yùn)用于神經(jīng)網(wǎng)絡(luò)VAD算法,并讀取加窗后的音頻數(shù)字,以讀取語音數(shù)據(jù);對(duì)讀取到的語音數(shù)據(jù)進(jìn)行降噪處理和頻域?yàn)V波處理;得到人機(jī)交互的輸出結(jié)果。本發(fā)明通過神經(jīng)網(wǎng)絡(luò)把新的音頻數(shù)字作為新的樣本放入樣本集進(jìn)行訓(xùn)練,在大量通話和相同背景下,結(jié)合利用人機(jī)交互的輸出結(jié)果糾正VAD參數(shù),從而不斷優(yōu)化VAD參數(shù),以不斷優(yōu)化人機(jī)交互質(zhì)量。