面向深度學(xué)習(xí)OCR識別的字模數(shù)據(jù)清洗方法、系統(tǒng)及介質(zhì)
基本信息
申請?zhí)?/td> | CN202110677674.5 | 申請日 | - |
公開(公告)號 | CN113434491A | 公開(公告)日 | 2021-09-24 |
申請公布號 | CN113434491A | 申請公布日 | 2021-09-24 |
分類號 | G06F16/215(2019.01)I;G06K9/62(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 鄭傳雙;樊向東;楊玉 | 申請(專利權(quán))人 | 深圳市曙光信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 深圳市科吉華烽知識產(chǎn)權(quán)事務(wù)所(普通合伙) | 代理人 | 羅修華 |
地址 | 518000廣東省深圳市福田區(qū)上梅林梅林閣1棟302A | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種面向深度學(xué)習(xí)OCR識別的字模數(shù)據(jù)清洗方法、系統(tǒng)及介質(zhì),通過獲取標(biāo)準(zhǔn)字模集;以標(biāo)準(zhǔn)字模集訓(xùn)練選定的深度學(xué)習(xí)模型,得到用于識別字模集的深度學(xué)習(xí)模型;通過訓(xùn)練好的深度學(xué)習(xí)模型,對標(biāo)準(zhǔn)字模集進(jìn)行識別,構(gòu)造出易錯字對字典;通過訓(xùn)練好的深度學(xué)習(xí)模型,對待清洗的真實字模集進(jìn)行自動識別標(biāo)注,得到真實字模集識別結(jié)果;通過易錯字對字典以及字模圖像質(zhì)量評估策略,對真實字模集識別結(jié)果進(jìn)行評估,根據(jù)評估結(jié)果將所述真實字模集中不合格字模剔除,得到新的真實字模集;以新的真實字模集訓(xùn)練選定的深度學(xué)習(xí)模型,得到新的訓(xùn)練好的深度學(xué)習(xí)模型;重復(fù)執(zhí)行上述最后三個步驟,直到再無字模需要被剔除為止,可以實現(xiàn)字模數(shù)據(jù)集的快速標(biāo)注,提高字模數(shù)據(jù)的處理效率。 |
