面向指向性視覺理解和分割的圖像描述預(yù)測(cè)方法

基本信息

申請(qǐng)?zhí)?/td> CN202011222105.3 申請(qǐng)日 -
公開(公告)號(hào) CN112308080A 公開(公告)日 2021-02-02
申請(qǐng)公布號(hào) CN112308080A 申請(qǐng)公布日 2021-02-02
分類號(hào) G06K9/34;G06K9/62;G06N3/04 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 王振寧;許金泉;王溢;蔡碧穎 申請(qǐng)(專利權(quán))人 南強(qiáng)智視(廈門)科技有限公司
代理機(jī)構(gòu) 泉州市潭思專利代理事務(wù)所(普通合伙) 代理人 廖仲禧;麻艷
地址 361000 福建省廈門市湖里區(qū)火炬高新區(qū)軟件園創(chuàng)新大廈A區(qū)402
法律狀態(tài) -

摘要

摘要 本發(fā)明公開一種面向指向性視覺理解和分割的圖像描述預(yù)測(cè)方法,用于根據(jù)RGB圖像和描述語(yǔ)言,在RGB圖像中定位描述語(yǔ)言指代的對(duì)象;包括如下步驟:分別獲取RGB圖像在三個(gè)尺度的視覺特征:Fv1,F(xiàn)v2,F(xiàn)v3,以及描述語(yǔ)言的語(yǔ)言特征;將語(yǔ)言特征與視覺特征Fv1融合,然后進(jìn)行多尺度的融合,進(jìn)而通過(guò)自底而下的融合,得到新的特征為{Fm1′,F(xiàn)m2′,F(xiàn)m3′};利用Fm3′預(yù)測(cè)得到指向性視覺分割結(jié)果,利用Fm1′預(yù)測(cè)得到指向性視覺理解結(jié)果;給定預(yù)測(cè)得到的指向性視覺分割結(jié)果,以及指向性視覺理解結(jié)果的目標(biāo)框和其對(duì)應(yīng)的置信度,利用指向性視覺理解的預(yù)測(cè)結(jié)果來(lái)自適應(yīng)地增強(qiáng)并重新得到指向性視覺分割的預(yù)測(cè)結(jié)果。此種預(yù)測(cè)方法可提高預(yù)測(cè)精度。