文本識別及模型訓(xùn)練方法、系統(tǒng)、設(shè)備及可讀存儲介質(zhì)

基本信息

申請?zhí)?/td> CN202010270210.8 申請日 -
公開(公告)號 CN111507328A 公開(公告)日 2020-08-07
申請公布號 CN111507328A 申請公布日 2020-08-07
分類號 G06K9/20;G06K7/14;G06N3/04 分類 -
發(fā)明人 鄔國銳;卿山;王慶慶 申請(專利權(quán))人 北京愛咔咔信息技術(shù)有限公司
代理機(jī)構(gòu) 北京致科知識產(chǎn)權(quán)代理有限公司 代理人 北京愛咔咔信息技術(shù)有限公司
地址 100085 北京市海淀區(qū)上地四街8號樓502-6
法律狀態(tài) -

摘要

摘要 本發(fā)明公開一種文本識別及模型訓(xùn)練方法、系統(tǒng)、設(shè)備及可讀存儲介質(zhì),本發(fā)明在文本識別的編碼階段,通過稠密卷積神經(jīng)網(wǎng)絡(luò)提取待識別圖片的圖像特征,使得提取出的特征更加抽象,包含的語義信息更加豐富;通過在圖像特征中添加二維位置編碼信息,生成包含位置信息的圖像特征,加入的二維位置編碼能夠在對圖像特征進(jìn)行解碼時更加準(zhǔn)確的定位圖像中字符的位置,從而能夠更加準(zhǔn)確地識別出對應(yīng)的文本字符,能夠提高彎曲文本識別的準(zhǔn)確率;在解碼階段,通過包含二維注意力機(jī)制的transformer解碼層,對包含位置信息的圖像特征進(jìn)行解碼處理,能夠充分地利用圖像二維的空間信息,使用一種弱監(jiān)督的方式進(jìn)行訓(xùn)練,能夠進(jìn)一步提高彎曲文本識別的準(zhǔn)確率。