基于多模態(tài)特征提取與融合的語音情感識(shí)別方法

基本信息

申請(qǐng)?zhí)?/td> CN202110100299.8 申請(qǐng)日 -
公開(公告)號(hào) CN112765323B 公開(公告)日 2021-08-17
申請(qǐng)公布號(hào) CN112765323B 申請(qǐng)公布日 2021-08-17
分類號(hào) G06F16/33;G06F16/683;G06F40/151;G06F40/279;G06N3/04;G06N3/08 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 任傳倫;郭世澤;巢文涵;張先國(guó);夏建民;姜鑫;孫璽晨;俞賽賽;劉曉影;烏吉斯古愣 申請(qǐng)(專利權(quán))人 北京間微科技有限責(zé)任公司
代理機(jī)構(gòu) 北京豐浩知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 李學(xué)康
地址 100083 北京市海淀區(qū)北四環(huán)中路211號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于多模態(tài)特征提取與融合的語音情感識(shí)別方法,首先對(duì)輸入的音頻提取eGeMAPS聲學(xué)特征集,該特征集定義了88個(gè)基本的語音情感分析特征,并規(guī)范化了對(duì)低層次聲學(xué)特征的操作方法,解決了可解釋性差的問題;其次,本發(fā)明提供了一種對(duì)用戶特征以及音頻內(nèi)容文本特征進(jìn)行提取的方法,并用層次自注意力將用戶特征以及文本特征與聲學(xué)特征進(jìn)行融合,充分利用語料數(shù)據(jù)庫(kù)中的多模態(tài)信息,對(duì)語音情感進(jìn)行更加全面的建模,由此更加有效地實(shí)現(xiàn)語音情感識(shí)別;最后,本發(fā)明利用一種層次化的自注意力機(jī)制將多模態(tài)特征進(jìn)行深度融合,以及將不同模態(tài)的特征在同一高維語義空間里對(duì)齊,增強(qiáng)了情感表述能力,從而提高了語音情感識(shí)別的準(zhǔn)確率。