文本識別及模型訓練方法、系統(tǒng)、設備及可讀存儲介質(zhì)

基本信息

申請?zhí)?/td> CN202010270210.8 申請日 -
公開(公告)號 CN111507328A 公開(公告)日 2020-08-07
申請公布號 CN111507328A 申請公布日 2020-08-07
分類號 G06K9/20;G06K7/14;G06N3/04 分類 -
發(fā)明人 鄔國銳;卿山;王慶慶 申請(專利權)人 北京愛咔咔信息技術有限公司
代理機構 北京致科知識產(chǎn)權代理有限公司 代理人 北京愛咔咔信息技術有限公司
地址 100085 北京市海淀區(qū)上地四街8號樓502-6
法律狀態(tài) -

摘要

摘要 本發(fā)明公開一種文本識別及模型訓練方法、系統(tǒng)、設備及可讀存儲介質(zhì),本發(fā)明在文本識別的編碼階段,通過稠密卷積神經(jīng)網(wǎng)絡提取待識別圖片的圖像特征,使得提取出的特征更加抽象,包含的語義信息更加豐富;通過在圖像特征中添加二維位置編碼信息,生成包含位置信息的圖像特征,加入的二維位置編碼能夠在對圖像特征進行解碼時更加準確的定位圖像中字符的位置,從而能夠更加準確地識別出對應的文本字符,能夠提高彎曲文本識別的準確率;在解碼階段,通過包含二維注意力機制的transformer解碼層,對包含位置信息的圖像特征進行解碼處理,能夠充分地利用圖像二維的空間信息,使用一種弱監(jiān)督的方式進行訓練,能夠進一步提高彎曲文本識別的準確率。