一種基于語音的情緒識別方法

基本信息

申請?zhí)?/td> CN201910478640.6 申請日 -
公開(公告)號 CN110223714B 公開(公告)日 2021-08-03
申請公布號 CN110223714B 申請公布日 2021-08-03
分類號 G10L25/63(2013.01)I;G10L25/30(2013.01)I;G10L25/03(2013.01)I 分類 樂器;聲學;
發(fā)明人 伍林;尹朝陽 申請(專利權)人 杭州哲信信息技術有限公司
代理機構 北京君泊知識產權代理有限公司 代理人 王程遠
地址 310020浙江省杭州市江干區(qū)新塘路58號廣新商務大廈626室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于語音的情緒識別方法,包括對語音進行分幀處理,提取每一幀的特征向量;將每一幀的特征向量輸入到深度學習時序模型中,輸出幀級特征;將幀級特征與深度學習時序模型的前一時刻的隱含狀態(tài)輸入到注意力模型,經過學習輸出段級特征;將段級特征輸入到注意力模型形成最終發(fā)音級別的表征;最后輸入到softmax層,得到預測情緒的概率值,從而識別情緒。本發(fā)明的有益效果為:通過使用分層式深度學習時序模型結構來提取語音中不同層次的特征,同時引入多個注意力機制來有效得選擇關鍵特征,更有利于情緒的識別,且使用該方法不僅能提取幀級語音特征,還能提取段級語音特征,從而可有效提高情緒識別的準確性。