基于圖文協(xié)同注意力的跨模態(tài)檢索模型構(gòu)建及檢索方法

基本信息

申請(qǐng)?zhí)?/td> CN202111406136.9 申請(qǐng)日 -
公開(公告)號(hào) CN114201621A 公開(公告)日 2022-03-18
申請(qǐng)公布號(hào) CN114201621A 申請(qǐng)公布日 2022-03-18
分類號(hào) G06F16/43(2019.01)I;G06F16/583(2019.01)I;G06V10/25(2022.01)I;G06V10/774(2022.01)I;G06K9/62(2022.01)I;G06N3/04(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 單麗莉;蘇宇;孫承杰;林磊;劉秉權(quán) 申請(qǐng)(專利權(quán))人 人民網(wǎng)股份有限公司
代理機(jī)構(gòu) 北京隆源天恒知識(shí)產(chǎn)權(quán)代理有限公司 代理人 戴棋欽
地址 100032北京市西城區(qū)新街口外大街28號(hào)B座234號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于圖文協(xié)同注意力的跨模態(tài)檢索模型構(gòu)建及檢索方法,所述方法包括:獲取訓(xùn)練圖像和訓(xùn)練文本,分別提取圖像樣本和文本樣本的局部特征;將圖像樣本所有的局部圖像特征和文本樣本所有的局部文本特征分別映射為特征向量,并將圖像樣本和文本樣本的特征向量分別表示成矩陣,再得到各自的Key矩陣、Query矩陣和Value矩陣;基于該多個(gè)矩陣,計(jì)算出圖像樣本和文本樣本的跨模態(tài)注意力特征、模態(tài)內(nèi)注意力特征;將跨模態(tài)注意力特征和模態(tài)內(nèi)注意力特征進(jìn)行融合,得到圖像樣本的全局特征表示和文本樣本的全局特征表示;基于所述全局特征表示,訓(xùn)練得到跨模態(tài)檢索模型。本發(fā)明可直接對(duì)不同模態(tài)的數(shù)據(jù)進(jìn)行相似度匹配,具有較高的匹配準(zhǔn)確性。