一種基于人臉和聲音的情緒預(yù)測方法和系統(tǒng)
基本信息
申請?zhí)?/td> | CN202110127170.6 | 申請日 | - |
公開(公告)號 | CN112861949A | 公開(公告)日 | 2021-05-28 |
申請公布號 | CN112861949A | 申請公布日 | 2021-05-28 |
分類號 | G06K9/00(2006.01)I;G10L25/18(2013.01)I;G06K9/62(2006.01)I;G10L25/63(2013.01)I;G10L25/30(2013.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 張旻晉;許達文 | 申請(專利權(quán))人 | 成都視海芯圖微電子有限公司 |
代理機構(gòu) | 成都行之專利代理事務(wù)所(普通合伙) | 代理人 | 李朝虎 |
地址 | 610000四川省成都市中國(四川)自由貿(mào)易試驗區(qū)成都高新區(qū)世紀(jì)城南路599號6棟5層505號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于人臉和聲音的情緒預(yù)測方法和系統(tǒng),其方法的步驟包括:首先采集人臉圖像和語音錄音樣本,接著將人臉圖像輸入到卷積神經(jīng)網(wǎng)絡(luò)中以特定形式提取圖像中的空間特征信息,同時將人臉圖像輸入到局部二進制卷積網(wǎng)絡(luò)中提取圖像的紋理特征信息,將人臉圖像的空間特征信息和紋理特征信息進行融合輸出增強的人臉特征,然后將語音錄音輸入到預(yù)處理模型計算每個窗口的梅爾頻譜圖將梅爾頻譜圖輸入到聲音編碼模型對各個范圍的短期梅爾頻譜圖的相關(guān)性進行建模,再通過語音片段嵌入融合器模型輸出語音特征,最后將人臉特征和語音特征進行融合輸入到輸出模型來預(yù)測情緒。?? |
