掃描文件的處理方法、裝置、設(shè)備及存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN202011425385.8 | 申請日 | - |
公開(公告)號 | CN112800824A | 公開(公告)日 | 2021-05-14 |
申請公布號 | CN112800824A | 申請公布日 | 2021-05-14 |
分類號 | G06K9/00;G06K9/46 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 王雪峰;林好;謝浩 | 申請(專利權(quán))人 | 北京方正印捷數(shù)碼技術(shù)有限公司 |
代理機(jī)構(gòu) | 北京同立鈞成知識產(chǎn)權(quán)代理有限公司 | 代理人 | 楊俊輝;劉芳 |
地址 | 100089 北京市海淀區(qū)上地五街9號1號方正大廈211 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請?zhí)峁┮环N掃描文件的處理方法、裝置、設(shè)備及存儲介質(zhì),在該方法中,通過對待處理的掃描文件中的圖像頁面中的傾斜偏差進(jìn)行矯正處理,得到矯正后的掃描文件。之后根據(jù)非對稱腐蝕膨脹方式以及預(yù)設(shè)的表格判斷條件,從矯正后的掃描文件中提取出表格輪廓,并根據(jù)表格輪廓,對表格的單元格進(jìn)行提取,得到單元格的坐標(biāo)信息。最后采用OCR引擎提取方法提取矯正后的掃描文件中的浮動(dòng)文本和表格文本,并對浮動(dòng)文本和表格文本進(jìn)行排序。相較于現(xiàn)有技術(shù),本方法能夠正確識別掃描文件中的表格,對非理想因素有很好的抑制作用,降低了識別難度,提高了識別的精確度。 |
