PDF文字提取方法和裝置
基本信息
申請(qǐng)?zhí)?/td> | CN201711106231.0 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN108038093A | 公開(公告)日 | 2021-06-15 |
申請(qǐng)公布號(hào) | CN108038093A | 申請(qǐng)公布日 | 2021-06-15 |
分類號(hào) | G06F17/22;G06K9/00 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 晏檢平 | 申請(qǐng)(專利權(quán))人 | 深圳市億圖軟件有限公司 |
代理機(jī)構(gòu) | 深圳中一聯(lián)合知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 張全文 |
地址 | 850000 西藏自治區(qū)拉薩市柳梧新區(qū)東環(huán)路以西、1-4路以北、1-3路以南、柳梧大廈以東8棟2單元6層2號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明適用于文字識(shí)別技術(shù)領(lǐng)域,提供了一種PDF文字提取方法和裝置,所述方法包括:獲取PDF頁(yè)面中的各個(gè)文本對(duì)象的第一編碼、字形位圖、內(nèi)嵌信息和字體信息;根據(jù)所述文本對(duì)象的字體信息判斷所述文本對(duì)象的字體類型得到第一判斷結(jié)果,根據(jù)所述文本對(duì)象的內(nèi)嵌信息判斷所述文本對(duì)象是否內(nèi)嵌在所述PDF頁(yè)面中得到第二判斷結(jié)果;根據(jù)所述第一判斷結(jié)果和所述第二判斷結(jié)果對(duì)所述文本對(duì)象進(jìn)行提取。本發(fā)明實(shí)現(xiàn)了提高PDF文字提取的正確率,并且不需要將所有PDF文字進(jìn)行OCR識(shí)別,節(jié)約了PDF文字提取的時(shí)間。 |
