掃描文件的處理方法、裝置、設(shè)備及存儲介質(zhì)

基本信息

申請?zhí)?/td> CN202011425385.8 申請日 -
公開(公告)號 CN112800824A 公開(公告)日 2021-05-14
申請公布號 CN112800824A 申請公布日 2021-05-14
分類號 G06K9/00;G06K9/46 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 王雪峰;林好;謝浩 申請(專利權(quán))人 北京方正印捷數(shù)碼技術(shù)有限公司
代理機(jī)構(gòu) 北京同立鈞成知識產(chǎn)權(quán)代理有限公司 代理人 楊俊輝;劉芳
地址 100089 北京市海淀區(qū)上地五街9號1號方正大廈211
法律狀態(tài) -

摘要

摘要 本申請?zhí)峁┮环N掃描文件的處理方法、裝置、設(shè)備及存儲介質(zhì),在該方法中,通過對待處理的掃描文件中的圖像頁面中的傾斜偏差進(jìn)行矯正處理,得到矯正后的掃描文件。之后根據(jù)非對稱腐蝕膨脹方式以及預(yù)設(shè)的表格判斷條件,從矯正后的掃描文件中提取出表格輪廓,并根據(jù)表格輪廓,對表格的單元格進(jìn)行提取,得到單元格的坐標(biāo)信息。最后采用OCR引擎提取方法提取矯正后的掃描文件中的浮動(dòng)文本和表格文本,并對浮動(dòng)文本和表格文本進(jìn)行排序。相較于現(xiàn)有技術(shù),本方法能夠正確識別掃描文件中的表格,對非理想因素有很好的抑制作用,降低了識別難度,提高了識別的精確度。