基于多模態(tài)特征提取與融合的語音情感識別方法
基本信息
申請?zhí)?/td> | CN202110100299.8 | 申請日 | - |
公開(公告)號 | CN112765323A | 公開(公告)日 | 2021-08-17 |
申請公布號 | CN112765323A | 申請公布日 | 2021-08-17 |
分類號 | G06F16/33;G06F16/683;G06F40/151;G06F40/279;G06N3/04;G06N3/08 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 任傳倫;郭世澤;巢文涵;張先國;夏建民;姜鑫;孫璽晨;俞賽賽;劉曉影;烏吉斯古愣 | 申請(專利權(quán))人 | 北京間微科技有限責任公司 |
代理機構(gòu) | 北京豐浩知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 李學(xué)康 |
地址 | 100083 北京市海淀區(qū)北四環(huán)中路211號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于多模態(tài)特征提取與融合的語音情感識別方法,首先對輸入的音頻提取eGeMAPS聲學(xué)特征集,該特征集定義了88個基本的語音情感分析特征,并規(guī)范化了對低層次聲學(xué)特征的操作方法,解決了可解釋性差的問題;其次,本發(fā)明提供了一種對用戶特征以及音頻內(nèi)容文本特征進行提取的方法,并用層次自注意力將用戶特征以及文本特征與聲學(xué)特征進行融合,充分利用語料數(shù)據(jù)庫中的多模態(tài)信息,對語音情感進行更加全面的建模,由此更加有效地實現(xiàn)語音情感識別;最后,本發(fā)明利用一種層次化的自注意力機制將多模態(tài)特征進行深度融合,以及將不同模態(tài)的特征在同一高維語義空間里對齊,增強了情感表述能力,從而提高了語音情感識別的準確率。 |
