基于多模態(tài)特征提取與融合的語音情感識別方法

基本信息

申請?zhí)?/td> CN202110100299.8 申請日 -
公開(公告)號 CN112765323A 公開(公告)日 2021-08-17
申請公布號 CN112765323A 申請公布日 2021-08-17
分類號 G06F16/33;G06F16/683;G06F40/151;G06F40/279;G06N3/04;G06N3/08 分類 計算;推算;計數(shù);
發(fā)明人 任傳倫;郭世澤;巢文涵;張先國;夏建民;姜鑫;孫璽晨;俞賽賽;劉曉影;烏吉斯古愣 申請(專利權(quán))人 北京間微科技有限責任公司
代理機構(gòu) 北京豐浩知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 李學(xué)康
地址 100083 北京市海淀區(qū)北四環(huán)中路211號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于多模態(tài)特征提取與融合的語音情感識別方法,首先對輸入的音頻提取eGeMAPS聲學(xué)特征集,該特征集定義了88個基本的語音情感分析特征,并規(guī)范化了對低層次聲學(xué)特征的操作方法,解決了可解釋性差的問題;其次,本發(fā)明提供了一種對用戶特征以及音頻內(nèi)容文本特征進行提取的方法,并用層次自注意力將用戶特征以及文本特征與聲學(xué)特征進行融合,充分利用語料數(shù)據(jù)庫中的多模態(tài)信息,對語音情感進行更加全面的建模,由此更加有效地實現(xiàn)語音情感識別;最后,本發(fā)明利用一種層次化的自注意力機制將多模態(tài)特征進行深度融合,以及將不同模態(tài)的特征在同一高維語義空間里對齊,增強了情感表述能力,從而提高了語音情感識別的準確率。