文本識別及模型訓(xùn)練方法、系統(tǒng)、設(shè)備及可讀存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN202010270210.8 | 申請日 | - |
公開(公告)號 | CN111507328A | 公開(公告)日 | 2020-08-07 |
申請公布號 | CN111507328A | 申請公布日 | 2020-08-07 |
分類號 | G06K9/20;G06K7/14;G06N3/04 | 分類 | - |
發(fā)明人 | 鄔國銳;卿山;王慶慶 | 申請(專利權(quán))人 | 北京愛咔咔信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 北京致科知識產(chǎn)權(quán)代理有限公司 | 代理人 | 北京愛咔咔信息技術(shù)有限公司 |
地址 | 100085 北京市海淀區(qū)上地四街8號樓502-6 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開一種文本識別及模型訓(xùn)練方法、系統(tǒng)、設(shè)備及可讀存儲介質(zhì),本發(fā)明在文本識別的編碼階段,通過稠密卷積神經(jīng)網(wǎng)絡(luò)提取待識別圖片的圖像特征,使得提取出的特征更加抽象,包含的語義信息更加豐富;通過在圖像特征中添加二維位置編碼信息,生成包含位置信息的圖像特征,加入的二維位置編碼能夠在對圖像特征進(jìn)行解碼時更加準(zhǔn)確的定位圖像中字符的位置,從而能夠更加準(zhǔn)確地識別出對應(yīng)的文本字符,能夠提高彎曲文本識別的準(zhǔn)確率;在解碼階段,通過包含二維注意力機(jī)制的transformer解碼層,對包含位置信息的圖像特征進(jìn)行解碼處理,能夠充分地利用圖像二維的空間信息,使用一種弱監(jiān)督的方式進(jìn)行訓(xùn)練,能夠進(jìn)一步提高彎曲文本識別的準(zhǔn)確率。 |
