一種基于實例分割的圖像語義描述改進方法

基本信息

申請?zhí)?/td> CN202111548600.8 申請日 -
公開(公告)號 CN114220095A 公開(公告)日 2022-03-22
申請公布號 CN114220095A 申請公布日 2022-03-22
分類號 G06V20/70(2022.01)I;G06V10/40(2022.01)I;G06V10/80(2022.01)I;G06V10/82(2022.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 胡皓暉;王云;周煥來;李玉琳;余夢鵬;張詩涵;陳昊男;賈海濤 申請(專利權(quán))人 一拓通信集團股份有限公司
代理機構(gòu) - 代理人 -
地址 210000江蘇省南京市自貿(mào)區(qū)南京片區(qū)浦濱路320號科創(chuàng)一號大廈B座701室
法律狀態(tài) -

摘要

摘要 本發(fā)明屬于圖像描述領(lǐng)域,具體涉及一種基于實例分割的圖像語義描述的改進方法。隨著圖像語義理解技術(shù)的發(fā)展,如何能有效的提取圖像中蘊藏的高層語義信息成為科研工作者中熱門研究的課題,但目前為止圖像描述任務(wù)依然沒有達到令人滿意的效果。圖像描述試圖通過一句話描述圖像的全部內(nèi)容,但是實現(xiàn)圖像描述的經(jīng)典的編解碼框架在編碼端往往嘗試使用基于網(wǎng)格劃分和目標(biāo)檢測的卷積神經(jīng)網(wǎng)絡(luò)來提取圖像特征,使得提取圖像特征中容易丟失背景信息,或者不同區(qū)域的特征存在信息重合的問題,從而導(dǎo)致生成描述的語句出現(xiàn)丟失重點信息或者信息冗余的問題。因此本發(fā)明對基于編解碼框架的的圖像語義描述算法進行了相應(yīng)改進,提高編碼器提取圖像特征的能力,從而使得生成的描述語句更加準(zhǔn)確。