面向深度學(xué)習(xí)OCR識別的字模數(shù)據(jù)清洗方法、系統(tǒng)及介質(zhì)

基本信息

申請?zhí)?/td> CN202110677674.5 申請日 -
公開(公告)號 CN113434491A 公開(公告)日 2021-09-24
申請公布號 CN113434491A 申請公布日 2021-09-24
分類號 G06F16/215(2019.01)I;G06K9/62(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 鄭傳雙;樊向東;楊玉 申請(專利權(quán))人 深圳市曙光信息技術(shù)有限公司
代理機(jī)構(gòu) 深圳市科吉華烽知識產(chǎn)權(quán)事務(wù)所(普通合伙) 代理人 羅修華
地址 518000廣東省深圳市福田區(qū)上梅林梅林閣1棟302A
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種面向深度學(xué)習(xí)OCR識別的字模數(shù)據(jù)清洗方法、系統(tǒng)及介質(zhì),通過獲取標(biāo)準(zhǔn)字模集;以標(biāo)準(zhǔn)字模集訓(xùn)練選定的深度學(xué)習(xí)模型,得到用于識別字模集的深度學(xué)習(xí)模型;通過訓(xùn)練好的深度學(xué)習(xí)模型,對標(biāo)準(zhǔn)字模集進(jìn)行識別,構(gòu)造出易錯字對字典;通過訓(xùn)練好的深度學(xué)習(xí)模型,對待清洗的真實字模集進(jìn)行自動識別標(biāo)注,得到真實字模集識別結(jié)果;通過易錯字對字典以及字模圖像質(zhì)量評估策略,對真實字模集識別結(jié)果進(jìn)行評估,根據(jù)評估結(jié)果將所述真實字模集中不合格字模剔除,得到新的真實字模集;以新的真實字模集訓(xùn)練選定的深度學(xué)習(xí)模型,得到新的訓(xùn)練好的深度學(xué)習(xí)模型;重復(fù)執(zhí)行上述最后三個步驟,直到再無字模需要被剔除為止,可以實現(xiàn)字模數(shù)據(jù)集的快速標(biāo)注,提高字模數(shù)據(jù)的處理效率。