基于復(fù)式協(xié)同結(jié)構(gòu)特征重組網(wǎng)絡(luò)的多模態(tài)數(shù)據(jù)融合方法
基本信息
申請?zhí)?/td> | CN202110763473.7 | 申請日 | - |
公開(公告)號 | CN113378989B | 公開(公告)日 | 2022-05-17 |
申請公布號 | CN113378989B | 申請公布日 | 2022-05-17 |
分類號 | G06V10/80(2022.01)I;G06V10/764(2022.01)I;G06V10/82(2022.01)I;G06K9/62(2022.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 秦亮;余金沄;張敏;韓谷靜;吳文炤;趙峰;許中平;秦旭弘;劉開培 | 申請(專利權(quán))人 | 北京國網(wǎng)信通埃森哲信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 北京孚睿灣知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | - |
地址 | 430072湖北省武漢市武昌區(qū)八一路299號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供一種基于復(fù)式協(xié)同結(jié)構(gòu)特征重組網(wǎng)絡(luò)的多模態(tài)數(shù)據(jù)融合方法。針對現(xiàn)有多模態(tài)數(shù)據(jù)融合技術(shù)主要是特征直接融合而忽視了模態(tài)與模態(tài)間的雙向交互,存在多模態(tài)融合時特征間語義鴻溝的問題,本發(fā)明利用深度神經(jīng)網(wǎng)絡(luò)提取圖像及文本單模態(tài)特征,建立基于transformer機(jī)制的圖文雙向交互注意力模型,挖掘圖像和文本之間的特征聯(lián)系,進(jìn)行多模態(tài)的語義關(guān)聯(lián),并引入復(fù)式協(xié)同結(jié)構(gòu)網(wǎng)絡(luò)加深模態(tài)之間交互信息的貫通,進(jìn)行多模態(tài)深層融合下的特征雙向重組,實現(xiàn)圖像與文本語義空間的對齊,更好地適應(yīng)了神經(jīng)網(wǎng)絡(luò)對不同模態(tài)間互補(bǔ)信息的搜尋,增強(qiáng)模型對多模態(tài)語義的理解和泛化能力,進(jìn)一步提高多模態(tài)特征網(wǎng)絡(luò)的分類準(zhǔn)確度。 |
