視覺問答處理方法、設(shè)備、計算機可讀介質(zhì)和程序產(chǎn)品

基本信息

申請?zhí)?/td> CN202110994133.5 申請日 -
公開(公告)號 CN113722458A 公開(公告)日 2021-11-30
申請公布號 CN113722458A 申請公布日 2021-11-30
分類號 G06F16/332(2019.01)I;G06F40/279(2020.01)I;G06F40/35(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I;G10L15/16(2006.01)I;G10L15/18(2013.01)I;H04N21/422(2011.01)I;H04N21/475(2011.01)I 分類 計算;推算;計數(shù);
發(fā)明人 連歡;朱飛 申請(專利權(quán))人 海信電子科技(武漢)有限公司
代理機構(gòu) 北京同立鈞成知識產(chǎn)權(quán)代理有限公司 代理人 朱穎;劉芳
地址 430073湖北省武漢市東湖新技術(shù)開發(fā)區(qū)軟件園東路1號軟件產(chǎn)業(yè)4.1期B2棟13層02號-2
法律狀態(tài) -

摘要

摘要 本申請?zhí)峁┮环N視覺問答處理方法、設(shè)備、計算機可讀介質(zhì)和程序產(chǎn)品。該方法包括:接收用戶通過交互接口輸入的提問指令,并獲取提問指令及對應(yīng)的顯示畫面;對提問指令的意圖類型進行識別;若識別出意圖類型為非通用類型,則將提問指令輸入至對應(yīng)的典型屬性模型得到提問指令的答案信息;若識別出意圖類型為通用類型,則將提問指令輸入至通用視覺問答VQA模型以對提問指令與顯示畫面進行深度協(xié)同注意力學(xué)習(xí),得到提問指令的答案信息;將指令的答案信息輸出給用戶。本申請的方法,針對提問的意圖類型可輸入至對應(yīng)的典型屬性模型或VQA模型,為從顯示畫面中確定提問指令的答案提供了更多維度的匹配方法,提升了視覺問答結(jié)果的準確率。