PDF圖紙文字識(shí)別方法、系統(tǒng)以及設(shè)備

基本信息

申請?zhí)?/td> CN202010278085.5 申請日 -
公開(公告)號(hào) CN111401312A 公開(公告)日 2020-07-10
申請公布號(hào) CN111401312A 申請公布日 2020-07-10
分類號(hào) G06K9/00(2006.01)I 分類 -
發(fā)明人 張東鋒;曾雛鵬;李俊波 申請(專利權(quán))人 深圳新致軟件有限公司
代理機(jī)構(gòu) 上海正策律師事務(wù)所 代理人 深圳新致軟件有限公司
地址 518038廣東省深圳市
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種PDF圖紙文字識(shí)別方法、系統(tǒng)以及設(shè)備,該P(yáng)DF圖紙文字識(shí)別方法包括以下步驟:基于深度學(xué)習(xí)執(zhí)行光學(xué)字符識(shí)別步驟;定制化識(shí)別和通用識(shí)別步驟;以及移動(dòng)設(shè)備低質(zhì)量圖像識(shí)別步驟;其中,該基于深度學(xué)習(xí)執(zhí)行光學(xué)字符識(shí)別步驟包括步驟:檢測場景中有文字的區(qū)域并對區(qū)域中的文字進(jìn)行識(shí)別,其中基于CTPN、Seglink、TextBoxes、FTSN、Pixellink以及CRAFT算法執(zhí)行文本檢測;其中基于CNN、CRNN算法進(jìn)行文字的識(shí)別;其中,該定制化識(shí)別步驟包括以下步驟:根據(jù)PDF中表格文字或者PDF中框架內(nèi)容識(shí)別PDF圖紙類型;根據(jù)結(jié)構(gòu)化特征提取區(qū)域內(nèi)的內(nèi)容;以及提取關(guān)鍵區(qū)域,通過深度神經(jīng)網(wǎng)絡(luò)識(shí)別區(qū)域中的文字或提取關(guān)鍵文字。??