一種基于深度神經(jīng)網(wǎng)絡(luò)的智能視覺問答方法

基本信息

申請?zhí)?/td> CN201711494024.7 申請日 -
公開(公告)號 CN108170816B 公開(公告)日 2018-06-15
申請公布號 CN108170816B 申請公布日 2018-06-15
分類號 G06F16/332(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 紀榮嶸;周奕毅 申請(專利權(quán))人 南強智視(廈門)科技有限公司
代理機構(gòu) 廈門南強之路專利事務(wù)所(普通合伙) 代理人 馬應(yīng)森
地址 361000 福建省廈門市思明區(qū)廈門大學大南2號樓
法律狀態(tài) -

摘要

摘要 一種基于深度神經(jīng)網(wǎng)絡(luò)的智能視覺問答模型,涉及人工智能領(lǐng)域中的智能視覺問答。包括以下步驟:智能問答數(shù)據(jù)預(yù)處理;圖像深度卷積特征抽??;文本問題深度特征抽??;智能視覺問題處理;基于樞紐通道的視覺智能問答。采用多任務(wù)學習框架進行全新的深度學習網(wǎng)絡(luò)設(shè)計以解決智能視覺問答中訓練數(shù)據(jù)缺乏與回答原因不可知等兩大問題。設(shè)計了一新型的深度學習網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)在進行智能視覺問答的同時能夠?qū)o出的答案進行原因說明,該網(wǎng)絡(luò)結(jié)構(gòu)包含一視覺描述模塊,可根據(jù)問題內(nèi)容針對性地對圖像內(nèi)容進行描述。該網(wǎng)絡(luò)結(jié)構(gòu)采用了樞紐結(jié)構(gòu)設(shè)計,能將圖像描述、文本問答等領(lǐng)域的數(shù)據(jù)引入到視覺智能問答任務(wù)中來。??