一種基于深度神經(jīng)網(wǎng)絡(luò)的智能視覺問答模型
基本信息
申請?zhí)?/td> | CN201711494024.7 | 申請日 | - |
公開(公告)號 | CN108170816A | 公開(公告)日 | 2020-12-08 |
申請公布號 | CN108170816A | 申請公布日 | 2020-12-08 |
分類號 | G06F17/30;G06N3/04;G06N3/08 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 紀榮嶸;周奕毅 | 申請(專利權(quán))人 | 南強智視(廈門)科技有限公司 |
代理機構(gòu) | 廈門南強之路專利事務(wù)所(普通合伙) | 代理人 | 馬應(yīng)森 |
地址 | 361005 福建省廈門市思明南路422號 | ||
法律狀態(tài) | - |
摘要
摘要 | 一種基于深度神經(jīng)網(wǎng)絡(luò)的智能視覺問答模型,涉及人工智能領(lǐng)域中的智能視覺問答。包括以下步驟:智能問答數(shù)據(jù)預(yù)處理;圖像深度卷積特征抽??;文本問題深度特征抽??;智能視覺問題處理;基于樞紐通道的視覺智能問答。采用多任務(wù)學(xué)習(xí)框架進行全新的深度學(xué)習(xí)網(wǎng)絡(luò)設(shè)計以解決智能視覺問答中訓(xùn)練數(shù)據(jù)缺乏與回答原因不可知等兩大問題。設(shè)計了一新型的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)在進行智能視覺問答的同時能夠?qū)o出的答案進行原因說明,該網(wǎng)絡(luò)結(jié)構(gòu)包含一視覺描述模塊,可根據(jù)問題內(nèi)容針對性地對圖像內(nèi)容進行描述。該網(wǎng)絡(luò)結(jié)構(gòu)采用了樞紐結(jié)構(gòu)設(shè)計,能將圖像描述、文本問答等領(lǐng)域的數(shù)據(jù)引入到視覺智能問答任務(wù)中來。 |
