一種基于特征解耦合的文字-圖像對(duì)生成方法和裝置

基本信息

申請(qǐng)?zhí)?/td> CN202210148651.X 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN114677569A 公開(kāi)(公告)日 2022-06-28
申請(qǐng)公布號(hào) CN114677569A 申請(qǐng)公布日 2022-06-28
分類(lèi)號(hào) G06V10/80(2022.01)I;G06V10/40(2022.01)I;G06V30/18(2022.01)I;G06V10/82(2022.01)I;G06K9/62(2022.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 王蕊;梁棟;李太豪;裴冠雄 申請(qǐng)(專(zhuān)利權(quán))人 中國(guó)科學(xué)院信息工程研究所
代理機(jī)構(gòu) 杭州浙科專(zhuān)利事務(wù)所(普通合伙) 代理人 -
地址 311100浙江省杭州市余杭區(qū)中泰街道之江實(shí)驗(yàn)室南湖總部
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)一種基于特征解耦合的文字?圖像對(duì)生成方法和裝置,該方法首先利用帶標(biāo)注的文字?圖像對(duì)數(shù)據(jù)訓(xùn)練編碼器,將文字和圖像兩種模態(tài)映射到同一個(gè)隱空間;然后利用無(wú)標(biāo)注的圖像數(shù)據(jù)訓(xùn)練圖像編碼器和解碼器,同時(shí)利用無(wú)標(biāo)注的文字?jǐn)?shù)據(jù)訓(xùn)練文字編碼器與解碼器;利用訓(xùn)練好的文字?圖像特征編碼器網(wǎng)絡(luò)提取文字?圖像初始特征,在隱空間加入隨機(jī)采樣的噪聲后進(jìn)行解耦合,利用解碼器生成多樣化的文字?圖像對(duì)。本發(fā)明在自然場(chǎng)景中,例如改變紋理、顏色等高層語(yǔ)義屬性,都可以實(shí)現(xiàn)較好的文本?圖像數(shù)據(jù)編輯。