一種基于OCR預(yù)判斷的PDF文件轉(zhuǎn)換方法

基本信息

申請?zhí)?/td> CN201811206109.5 申請日 -
公開(公告)號 CN109492199A 公開(公告)日 2019-03-19
申請公布號 CN109492199A 申請公布日 2019-03-19
分類號 G06F17/22(2006.01)I; G06K9/20(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 馬萬炯 申請(專利權(quán))人 四川譯訊信息科技有限公司
代理機構(gòu) 成都睿道專利代理事務(wù)所(普通合伙) 代理人 四川譯訊信息科技有限公司
地址 610041 四川省成都市高新區(qū)蜀錦路88號31層07號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于OCR預(yù)判斷的PDF文件轉(zhuǎn)換方法,包括以下步驟:解析PDF文件,判斷該PDF文件中各頁面是否需要進行ocr;針對需要進行ocr的頁面進行ocr,得到文本信息;針對不需要進行ocr的頁面直接從該PDF頁面中文本對象的文字編碼信息提取文本信息;通過PDF解析算法和Office文件重構(gòu)算法將該PDF文件轉(zhuǎn)換為對應(yīng)的可編輯文檔。本發(fā)明通過對PDF文件的預(yù)解析,提高了PDF文字提取的正確率,在減少不必要的ocr識別的同時保證了文字提取的準(zhǔn)確度并提高了PDF文件的轉(zhuǎn)換效率,適用性強,轉(zhuǎn)換效果好。