一種基于視覺語言建模網(wǎng)絡(luò)的場(chǎng)景文字識(shí)別方法

基本信息

申請(qǐng)?zhí)?/td> CN202011502420.1 申請(qǐng)日 -
公開(公告)號(hào) CN112541501B 公開(公告)日 2021-09-07
申請(qǐng)公布號(hào) CN112541501B 申請(qǐng)公布日 2021-09-07
分類號(hào) G06K9/32;G06K9/62;G06N5/04 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 張勇東;王裕鑫;謝洪濤;柳軒 申請(qǐng)(專利權(quán))人 人民網(wǎng)股份有限公司
代理機(jī)構(gòu) 北京凱特來知識(shí)產(chǎn)權(quán)代理有限公司 代理人 鄭立明;韓珂
地址 100193 北京市海淀區(qū)西北旺東路10號(hào)院5號(hào)樓
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于視覺語言建模網(wǎng)絡(luò)的場(chǎng)景文字識(shí)別方法,訓(xùn)練過程中,通過使視覺模型直接在被遮擋的文字圖像特征中識(shí)別完整的詞級(jí)結(jié)果,引導(dǎo)視覺模型根據(jù)視覺上下文信息推理出被遮擋的文字內(nèi)容,從而賦予視覺模型語言能力;因此,在不需要引入額外語言模型結(jié)構(gòu)的情況下,視覺模型自適應(yīng)地在視覺上下文中捕捉語言信息來增強(qiáng)視覺特征,從而提升識(shí)別能力。并且,整個(gè)字符級(jí)掩碼的生成過程只需要原有的詞級(jí)標(biāo)注,不需要引入額外的標(biāo)注信息;測(cè)試過程中只使用了主干網(wǎng)絡(luò)和視覺語義推理模塊進(jìn)行識(shí)別,因此位置感知的掩碼生成模塊只在訓(xùn)練過程中使用,不引入額外的計(jì)算開銷。