基于tesseract-ocr的pdf文件解析方法
基本信息
申請?zhí)?/td> | CN201910436587.3 | 申請日 | - |
公開(公告)號 | CN110188649A | 公開(公告)日 | 2019-08-30 |
申請公布號 | CN110188649A | 申請公布日 | 2019-08-30 |
分類號 | G06K9/00 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 金霞 | 申請(專利權)人 | 成都火石創(chuàng)造科技有限公司 |
代理機構 | 杭州求是專利事務所有限公司 | 代理人 | 劉靜;邱啟旺 |
地址 | 610200 四川省成都市天府國際生物城(雙流區(qū)生物城中路二段18號) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于tesseract?ocr的pdf文件解析方法,該方法用fitz工具包把pdf文件轉換為圖片序列;針對圖片序列的每一個圖片,用TableBank工具得到表格的多個區(qū)域位置;利用tesseract?ocr進行圖片中的圖提取、表格單元格的提取和識別:本發(fā)明在tesseract?ocr基礎上,通過結合TableBank的表格檢測和表格結構識別模型,得到了表格各單元格中的內容;匹配docx解析結果,解決了ocr識別錯誤的問題;對tesseract?ocr的ocr模型進行替換,提升了識別的準確率和速度。本發(fā)明具有表格結構識別的功能、ocr錯誤糾正的功能,優(yōu)化了模型的準確率和速度,糾正了多欄排版下的段落順序混亂問題,以及部分段落或表格丟失的問題。 |
