一種基于注意力機制和模態(tài)依賴的跨媒體交叉檢索方法
基本信息
申請?zhí)?/td> | CN202111334294.8 | 申請日 | - |
公開(公告)號 | CN113792167A | 公開(公告)日 | 2021-12-14 |
申請公布號 | CN113792167A | 申請公布日 | 2021-12-14 |
分類號 | G06F16/483(2019.01)I;G06F16/432(2019.01)I;G06F16/35(2019.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I;G06T5/00(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 姚亞洲;孫澤人;陳濤;張傳一;沈復民 | 申請(專利權)人 | 南京碼極客科技有限公司 |
代理機構 | 成都君合集專利代理事務所(普通合伙) | 代理人 | 尹新路 |
地址 | 211899江蘇省南京市浦口區(qū)新北路1號江北國際智谷B棟5層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及跨媒體檢索技術技術領域,公開了一種基于注意力機制和模態(tài)依賴的跨媒體交叉檢索方法,包括以下步驟:步驟S1.根據(jù)提取器獲取媒體類型數(shù)據(jù),媒體類型數(shù)據(jù)包括文本數(shù)據(jù)、圖像數(shù)據(jù)、音頻數(shù)據(jù)和視頻數(shù)據(jù);步驟S2.基于文本卷積網(wǎng)絡、圖像卷積網(wǎng)絡、三元組損失函數(shù)、判別損失函數(shù)和分類損失函數(shù)對文本數(shù)據(jù)和圖像數(shù)據(jù)創(chuàng)建圖像文本網(wǎng)絡;步驟S3.基于注意力機制、交叉熵損失函數(shù)、中心損失函數(shù)、四元組損失函數(shù)和分布損失函數(shù)對圖像數(shù)據(jù)、音頻數(shù)據(jù)和視頻數(shù)據(jù)創(chuàng)建圖像音頻網(wǎng)絡;步驟S4.對圖像文本網(wǎng)絡和圖像音頻網(wǎng)絡訓練后進行跨媒體交叉檢索。本發(fā)明通過注意力機制與模態(tài)依賴進行細粒度跨媒體檢索。 |
