一種基于中文語音OpenSmile和雙向LSTM的端到端情緒識別方法

基本信息

申請?zhí)?/td> CN202011528598.3 申請日 -
公開(公告)號 CN112634873A 公開(公告)日 2021-04-09
申請公布號 CN112634873A 申請公布日 2021-04-09
分類號 G10L15/02;G10L15/06;G10L15/183;G10L15/26;G10L25/24;G10L25/63 分類 樂器;聲學(xué);
發(fā)明人 吳強;季曉楓;施恩銘;馬俊;郭翔 申請(專利權(quán))人 上?;镁S數(shù)碼創(chuàng)意科技股份有限公司
代理機構(gòu) 上??剖⒅R產(chǎn)權(quán)代理有限公司 代理人 趙志遠(yuǎn)
地址 200072 上海市靜安區(qū)廣中西路777弄13號
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種基于中文語音OpenSmile和雙向LSTM的端到端情緒識別方法,包括:步驟1:獲取待識別的中文語音音頻,并對音頻數(shù)據(jù)進行預(yù)處理;步驟2:使用OpenSmile分別提取訓(xùn)練集和測試集語音音頻的MFCC音頻特征;步驟3:使用訓(xùn)練集對雙向LSTM網(wǎng)絡(luò)進行訓(xùn)練;步驟4:使用測試集對完成訓(xùn)練的雙向LSTM網(wǎng)絡(luò)進行測試,計算測試準(zhǔn)確率,判斷測試準(zhǔn)確率是否大于預(yù)設(shè)閾值,若是,則執(zhí)行步驟5,否則,返回步驟3;步驟5:使用達到預(yù)設(shè)準(zhǔn)確率閾值的雙向LSTM網(wǎng)絡(luò)對中文語音音頻進行情緒識別。與現(xiàn)有技術(shù)相比,本發(fā)明具有識別精度高、支持多人以及長短句識別等優(yōu)點。