一種基于人工智能的多模態(tài)語義識別服務(wù)接入方法
基本信息
申請?zhí)?/td> | CN202011036983.6 | 申請日 | - |
公開(公告)號 | CN112201228A | 公開(公告)日 | 2021-01-08 |
申請公布號 | CN112201228A | 申請公布日 | 2021-01-08 |
分類號 | G10L15/18(2013.01)I | 分類 | 樂器;聲學(xué); |
發(fā)明人 | 黃晨宇 | 申請(專利權(quán))人 | 蘇州貝果智能科技有限公司 |
代理機(jī)構(gòu) | - | 代理人 | - |
地址 | 215000江蘇省蘇州市昆山市花橋經(jīng)濟(jì)開發(fā)區(qū)金星路18號A6棟三層303室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于人工智能的多模態(tài)語義識別服務(wù)接入方法,包括基于多模態(tài)對齊的語音情感識別的模型,首先通過語音進(jìn)行識別,識別時(shí),通過視頻設(shè)備、錄音設(shè)備進(jìn)行語音的收集,收集好的語音信息先進(jìn)行分類,分類后的語音進(jìn)行特征標(biāo)記,然后將收集好的語音進(jìn)行分析,利用雙向長短期記憶模型對音頻基于幀進(jìn)行高維特征表示。本發(fā)明利用多模態(tài)模型比單一模態(tài)訓(xùn)練出的模型更精準(zhǔn),所以即使在實(shí)際使用中只使用一個模態(tài)輸入,由多模態(tài)訓(xùn)練得到的模型也會優(yōu)于單模態(tài)訓(xùn)練得到的模型,對不同模態(tài)的關(guān)聯(lián)融合進(jìn)行中間層特征融合和最后層的融合時(shí),每種模態(tài)的特征識別產(chǎn)生各自的置信度,從而在互相融合時(shí)將置信度作為貢獻(xiàn)的權(quán)重。?? |
