一種基于注意力機(jī)制的圖像目標(biāo)預(yù)測(cè)方法
基本信息
申請(qǐng)?zhí)?/td> | CN202011222985.4 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN112308081A | 公開(公告)日 | 2021-02-02 |
申請(qǐng)公布號(hào) | CN112308081A | 申請(qǐng)公布日 | 2021-02-02 |
分類號(hào) | G06K9/34;G06K9/62;G06N3/04;G06N3/08 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 許金泉;王振寧;王溢;蔡碧穎 | 申請(qǐng)(專利權(quán))人 | 南強(qiáng)智視(廈門)科技有限公司 |
代理機(jī)構(gòu) | 泉州市潭思專利代理事務(wù)所(普通合伙) | 代理人 | 廖仲禧;麻艷 |
地址 | 361000 福建省廈門市湖里區(qū)火炬高新區(qū)軟件園創(chuàng)新大廈A區(qū)402 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開一種基于注意力機(jī)制的圖像目標(biāo)預(yù)測(cè)方法,用于在RGB圖像中獲取描述語(yǔ)言針對(duì)的物體的掩膜;包括如下步驟:提取RGB圖像三個(gè)尺度的視覺特征;提取描述語(yǔ)言的語(yǔ)言特征;將視覺特征和語(yǔ)言特征進(jìn)行多模態(tài)融合;基于多模態(tài)特征以及語(yǔ)言特征,計(jì)算四個(gè)映射矩陣;然后,通過矩陣運(yùn)算以及激活函數(shù)得到兩個(gè)注意力圖;接著,通過注意力變換計(jì)算得到注意力矩陣:最后,將得到的注意力矩陣與原始矩陣進(jìn)行相加來更新原始矩陣:疊加分組注意力模塊,然后通過1x1的卷積神經(jīng)網(wǎng)絡(luò),即得到預(yù)測(cè)的掩膜。此種方法通過引入受監(jiān)督的注意力機(jī)制,能夠增強(qiáng)復(fù)雜場(chǎng)景下的推理能力,從而提高檢測(cè)的精度。 |
