一種基于OCR預(yù)判斷的PDF文件轉(zhuǎn)換方法
基本信息
申請(qǐng)?zhí)?/td> | CN201811206109.5 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN109492199A | 公開(kāi)(公告)日 | 2019-03-19 |
申請(qǐng)公布號(hào) | CN109492199A | 申請(qǐng)公布日 | 2019-03-19 |
分類(lèi)號(hào) | G06F17/22(2006.01)I; G06K9/20(2006.01)I | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 馬萬(wàn)炯 | 申請(qǐng)(專(zhuān)利權(quán))人 | 四川譯訊信息科技有限公司 |
代理機(jī)構(gòu) | 成都睿道專(zhuān)利代理事務(wù)所(普通合伙) | 代理人 | 四川譯訊信息科技有限公司 |
地址 | 610041 四川省成都市高新區(qū)蜀錦路88號(hào)31層07號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)了一種基于OCR預(yù)判斷的PDF文件轉(zhuǎn)換方法,包括以下步驟:解析PDF文件,判斷該P(yáng)DF文件中各頁(yè)面是否需要進(jìn)行ocr;針對(duì)需要進(jìn)行ocr的頁(yè)面進(jìn)行ocr,得到文本信息;針對(duì)不需要進(jìn)行ocr的頁(yè)面直接從該P(yáng)DF頁(yè)面中文本對(duì)象的文字編碼信息提取文本信息;通過(guò)PDF解析算法和Office文件重構(gòu)算法將該P(yáng)DF文件轉(zhuǎn)換為對(duì)應(yīng)的可編輯文檔。本發(fā)明通過(guò)對(duì)PDF文件的預(yù)解析,提高了PDF文字提取的正確率,在減少不必要的ocr識(shí)別的同時(shí)保證了文字提取的準(zhǔn)確度并提高了PDF文件的轉(zhuǎn)換效率,適用性強(qiáng),轉(zhuǎn)換效果好。 |
