基于深度學(xué)習(xí)和并查集算法的OCR識別并抽取圖片的方法、裝置、電子設(shè)備及存儲介質(zhì)

基本信息

申請?zhí)?/td> CN202010919839.0 申請日 -
公開(公告)號 CN112149523A 公開(公告)日 2020-12-29
申請公布號 CN112149523A 申請公布日 2020-12-29
分類號 G06K9/00(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 汪敏;嚴(yán)妍;肖國泉;裴非;肖克;彭祖劍;邵羅樹;張博 申請(專利權(quán))人 開普云信息科技股份有限公司
代理機構(gòu) - 代理人 -
地址 523000廣東省東莞市石龍鎮(zhèn)中山東東升路1號匯星商業(yè)中心5棟2單元1805室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供基于深度學(xué)習(xí)和并查集算法的OCR識別并抽取圖片的方法、裝置、電子設(shè)備及存儲介質(zhì),屬于圖片處理技術(shù)領(lǐng)域。所述方法應(yīng)用于服務(wù)器,方法包括:采用深度學(xué)習(xí)算法對圖片進行OCR處理,得到文本信息BOX;運用并查集分類算法對文本信息進行抽取,得到段落分類;篩選后得到純文本段落;利用OpenCV對純文本段落做白色BOX覆蓋,得到TMP格式圖片;做像素橫縱掃描找到分割線并切分,抽取出最終圖片。本技術(shù)將深度學(xué)習(xí)算法與并查集分類算法相融合,通過深度學(xué)習(xí)算法實現(xiàn)了OCR對圖片文本的高效識別,通過并查集分類算法提高了OpenCV對圖片的精準(zhǔn)切割,大大提高了OCR識別和抽取圖像的準(zhǔn)確性和正確率。??