美女精品在线观看,wwwR日本拍拍国产

請輸入想查詢的關(guān)鍵字

查詢

退出

會員

商務(wù)合作

瀏覽歷史

清除

首頁/ 成都火石創(chuàng)造科技有限公司/ 專利詳情

基于tesseract-ocr的pdf文件解析方法

基本信息

申請?zhí)?/td>	CN201910436587.3	申請日	-
公開（公告）號	CN110188649B	公開（公告）日	2021-11-23
申請公布號	CN110188649B	申請公布日	2021-11-23
分類號	G06K9/00（2006.01）I	分類	計(jì)算；推算；計(jì)數(shù);
發(fā)明人	金霞	申請（專利權(quán)）人	成都火石創(chuàng)造科技有限公司
代理機(jī)構(gòu)	杭州求是專利事務(wù)所有限公司	代理人	劉靜;邱啟旺
地址	610200四川省成都市天府國際生物城（雙流區(qū)生物城中路二段18號）
法律狀態(tài)	-

摘要

本發(fā)明公開了一種基于tesseract?ocr的pdf文件解析方法，該方法用fitz工具包把pdf文件轉(zhuǎn)換為圖片序列；針對圖片序列的每一個(gè)圖片，用TableBank工具得到表格的多個(gè)區(qū)域位置；利用tesseract?ocr進(jìn)行圖片中的圖提取、表格單元格的提取和識別：本發(fā)明在tesseract?ocr基礎(chǔ)上，通過結(jié)合TableBank的表格檢測和表格結(jié)構(gòu)識別模型，得到了表格各單元格中的內(nèi)容；匹配docx解析結(jié)果，解決了ocr識別錯(cuò)誤的問題；對tesseract?ocr的ocr模型進(jìn)行替換，提升了識別的準(zhǔn)確率和速度。本發(fā)明具有表格結(jié)構(gòu)識別的功能、ocr錯(cuò)誤糾正的功能，優(yōu)化了模型的準(zhǔn)確率和速度，糾正了多欄排版下的段落順序混亂問題，以及部分段落或表格丟失的問題。

www久久伊人网|无码 av 一区|精品国产污污网站|欧美日韩无码一区|九九精品视在线看|久久人人爽人人骑|亚洲色图激情人妻|玖玖九九无码视频|AV天堂亚洲欧洲|日韩 内射 人妻

www久久伊人网|无码 av 一区|精品国产污污网站|欧美日韩无码一区|九九精品视在线看|久久人人爽人人骑|亚洲色图激情人妻|玖玖九九无码视频|AV天堂亚洲欧洲|日韩内射人妻