基于知識蒸餾和多模態(tài)結合的質(zhì)檢方法

基本信息

申請?zhí)?/td> CN202111248179.9 申請日 -
公開(公告)號 CN113919369A 公開(公告)日 2022-01-11
申請公布號 CN113919369A 申請公布日 2022-01-11
分類號 G06F40/35(2020.01)I;G10L15/06(2013.01)I;G06V10/764(2022.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 操玉琴;宣明輝;張姍;周鴻章 申請(專利權)人 信雅達科技股份有限公司
代理機構 杭州裕陽聯(lián)合專利代理有限公司 代理人 葛婷婕
地址 310051浙江省杭州市濱江區(qū)江南大道3888號信雅達科技大廈
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于知識蒸餾和多模態(tài)結合的質(zhì)檢方法,包含:搭建質(zhì)檢音頻模型并對其進行訓練;搭建質(zhì)檢文本模型并對其進行訓練;將音頻數(shù)據(jù)輸入訓練好的質(zhì)檢音頻模型進行學習得到音頻特征向量;將文本數(shù)據(jù)輸入訓練好的質(zhì)檢文本模型進行學習得到文本特征向量;將音頻特征向量和文本特征向量融合形成新的融合特征向量;根據(jù)融合特征向量進行情緒預測。本發(fā)明的基于知識蒸餾和多模態(tài)結合的質(zhì)檢方法,利用教師模型結合數(shù)據(jù)增強的方法對學生模型進行預訓練引導,利用網(wǎng)絡參數(shù)共享提升學生模型的復雜性,最后使用交叉熵損失函數(shù)聯(lián)合軟、硬標簽對學生模型進行訓練得到音頻模型和文本模型,然后將兩模型特征融合預測最后的質(zhì)檢情緒分類結果。