基于復(fù)式協(xié)同結(jié)構(gòu)特征重組網(wǎng)絡(luò)的多模態(tài)數(shù)據(jù)融合方法

基本信息

申請?zhí)?/td> CN202110763473.7 申請日 -
公開(公告)號 CN113378989B 公開(公告)日 2022-05-17
申請公布號 CN113378989B 申請公布日 2022-05-17
分類號 G06V10/80(2022.01)I;G06V10/764(2022.01)I;G06V10/82(2022.01)I;G06K9/62(2022.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 秦亮;余金沄;張敏;韓谷靜;吳文炤;趙峰;許中平;秦旭弘;劉開培 申請(專利權(quán))人 北京國網(wǎng)信通埃森哲信息技術(shù)有限公司
代理機(jī)構(gòu) 北京孚睿灣知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 -
地址 430072湖北省武漢市武昌區(qū)八一路299號
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種基于復(fù)式協(xié)同結(jié)構(gòu)特征重組網(wǎng)絡(luò)的多模態(tài)數(shù)據(jù)融合方法。針對現(xiàn)有多模態(tài)數(shù)據(jù)融合技術(shù)主要是特征直接融合而忽視了模態(tài)與模態(tài)間的雙向交互,存在多模態(tài)融合時特征間語義鴻溝的問題,本發(fā)明利用深度神經(jīng)網(wǎng)絡(luò)提取圖像及文本單模態(tài)特征,建立基于transformer機(jī)制的圖文雙向交互注意力模型,挖掘圖像和文本之間的特征聯(lián)系,進(jìn)行多模態(tài)的語義關(guān)聯(lián),并引入復(fù)式協(xié)同結(jié)構(gòu)網(wǎng)絡(luò)加深模態(tài)之間交互信息的貫通,進(jìn)行多模態(tài)深層融合下的特征雙向重組,實現(xiàn)圖像與文本語義空間的對齊,更好地適應(yīng)了神經(jīng)網(wǎng)絡(luò)對不同模態(tài)間互補(bǔ)信息的搜尋,增強(qiáng)模型對多模態(tài)語義的理解和泛化能力,進(jìn)一步提高多模態(tài)特征網(wǎng)絡(luò)的分類準(zhǔn)確度。