PDF圖紙文字識(shí)別方法、系統(tǒng)以及設(shè)備
基本信息
申請?zhí)?/td> | CN202010278085.5 | 申請日 | - |
公開(公告)號(hào) | CN111401312A | 公開(公告)日 | 2020-07-10 |
申請公布號(hào) | CN111401312A | 申請公布日 | 2020-07-10 |
分類號(hào) | G06K9/00(2006.01)I | 分類 | - |
發(fā)明人 | 張東鋒;曾雛鵬;李俊波 | 申請(專利權(quán))人 | 深圳新致軟件有限公司 |
代理機(jī)構(gòu) | 上海正策律師事務(wù)所 | 代理人 | 深圳新致軟件有限公司 |
地址 | 518038廣東省深圳市 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種PDF圖紙文字識(shí)別方法、系統(tǒng)以及設(shè)備,該P(yáng)DF圖紙文字識(shí)別方法包括以下步驟:基于深度學(xué)習(xí)執(zhí)行光學(xué)字符識(shí)別步驟;定制化識(shí)別和通用識(shí)別步驟;以及移動(dòng)設(shè)備低質(zhì)量圖像識(shí)別步驟;其中,該基于深度學(xué)習(xí)執(zhí)行光學(xué)字符識(shí)別步驟包括步驟:檢測場景中有文字的區(qū)域并對區(qū)域中的文字進(jìn)行識(shí)別,其中基于CTPN、Seglink、TextBoxes、FTSN、Pixellink以及CRAFT算法執(zhí)行文本檢測;其中基于CNN、CRNN算法進(jìn)行文字的識(shí)別;其中,該定制化識(shí)別步驟包括以下步驟:根據(jù)PDF中表格文字或者PDF中框架內(nèi)容識(shí)別PDF圖紙類型;根據(jù)結(jié)構(gòu)化特征提取區(qū)域內(nèi)的內(nèi)容;以及提取關(guān)鍵區(qū)域,通過深度神經(jīng)網(wǎng)絡(luò)識(shí)別區(qū)域中的文字或提取關(guān)鍵文字。?? |
