一種基于特征解耦合的文字-圖像對(duì)生成方法和裝置
基本信息
申請(qǐng)?zhí)?/td> | CN202210148651.X | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN114677569A | 公開(kāi)(公告)日 | 2022-06-28 |
申請(qǐng)公布號(hào) | CN114677569A | 申請(qǐng)公布日 | 2022-06-28 |
分類(lèi)號(hào) | G06V10/80(2022.01)I;G06V10/40(2022.01)I;G06V30/18(2022.01)I;G06V10/82(2022.01)I;G06K9/62(2022.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 王蕊;梁棟;李太豪;裴冠雄 | 申請(qǐng)(專(zhuān)利權(quán))人 | 中國(guó)科學(xué)院信息工程研究所 |
代理機(jī)構(gòu) | 杭州浙科專(zhuān)利事務(wù)所(普通合伙) | 代理人 | - |
地址 | 311100浙江省杭州市余杭區(qū)中泰街道之江實(shí)驗(yàn)室南湖總部 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)一種基于特征解耦合的文字?圖像對(duì)生成方法和裝置,該方法首先利用帶標(biāo)注的文字?圖像對(duì)數(shù)據(jù)訓(xùn)練編碼器,將文字和圖像兩種模態(tài)映射到同一個(gè)隱空間;然后利用無(wú)標(biāo)注的圖像數(shù)據(jù)訓(xùn)練圖像編碼器和解碼器,同時(shí)利用無(wú)標(biāo)注的文字?jǐn)?shù)據(jù)訓(xùn)練文字編碼器與解碼器;利用訓(xùn)練好的文字?圖像特征編碼器網(wǎng)絡(luò)提取文字?圖像初始特征,在隱空間加入隨機(jī)采樣的噪聲后進(jìn)行解耦合,利用解碼器生成多樣化的文字?圖像對(duì)。本發(fā)明在自然場(chǎng)景中,例如改變紋理、顏色等高層語(yǔ)義屬性,都可以實(shí)現(xiàn)較好的文本?圖像數(shù)據(jù)編輯。 |
