OCR模型訓(xùn)練方法、系統(tǒng)及裝置

基本信息

申請(qǐng)?zhí)?/td> CN202011307368.4 申請(qǐng)日 -
公開(公告)號(hào) CN112418304B 公開(公告)日 2021-10-29
申請(qǐng)公布號(hào) CN112418304B 申請(qǐng)公布日 2021-10-29
分類號(hào) G06K9/62(2006.01)I;G06K9/34(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 司法 申請(qǐng)(專利權(quán))人 北京云從科技有限公司
代理機(jī)構(gòu) 北京瀚仁知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 宋寶庫;王天騏
地址 102300北京市門頭溝區(qū)石龍經(jīng)濟(jì)開發(fā)區(qū)永安路20號(hào)3號(hào)樓一層102室
法律狀態(tài) -

摘要

摘要 本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,具體提供一種OCR模型訓(xùn)練方法、系統(tǒng)及裝置。本發(fā)明旨在解決目前較少數(shù)量的圖像樣本無法使OCR模型的準(zhǔn)確度達(dá)到較高水平的問題。為此目的,本發(fā)明通過首先對(duì)初始圖像樣本進(jìn)行標(biāo)注并生成第一OCR訓(xùn)練集,再在訓(xùn)練模型中輸入第一OCR訓(xùn)練集進(jìn)行訓(xùn)練,得到第一OCR模型,將實(shí)物圖像樣本輸入第一OCR模型進(jìn)行識(shí)別,根據(jù)識(shí)別結(jié)果獲得實(shí)物圖像樣本中被識(shí)別錯(cuò)誤的圖像樣本,將被識(shí)別的錯(cuò)誤的圖像樣本匯總為第一補(bǔ)充OCR訓(xùn)練集,并分配第一OCR訓(xùn)練集與第一補(bǔ)充OCR訓(xùn)練集的權(quán)重,合并后生成第一優(yōu)化OCR訓(xùn)練集,在第一OCR模型中輸入第一優(yōu)化OCR訓(xùn)練集進(jìn)行訓(xùn)練,以得到準(zhǔn)確度更高的第一優(yōu)化OCR模型進(jìn)行字符識(shí)別。