PDF文字提取方法和裝置

基本信息

申請?zhí)?/td> CN201711106231.0 申請日 -
公開(公告)號 CN108038093B 公開(公告)日 2021-06-15
申請公布號 CN108038093B 申請公布日 2021-06-15
分類號 G06F40/126(2020.01)I;G06K9/00(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 晏檢平 申請(專利權(quán))人 深圳市億圖軟件有限公司
代理機構(gòu) 北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 代理人 程曉
地址 518000 廣東省深圳市南山區(qū)粵海街道高新區(qū)社區(qū)科技南路16號深圳灣科技生態(tài)園11棟A1204
法律狀態(tài) -

摘要

摘要 本發(fā)明適用于文字識別技術(shù)領(lǐng)域,提供了一種PDF文字提取方法和裝置,所述方法包括:獲取PDF頁面中的各個文本對象的第一編碼、字形位圖、內(nèi)嵌信息和字體信息;根據(jù)所述文本對象的字體信息判斷所述文本對象的字體類型得到第一判斷結(jié)果,根據(jù)所述文本對象的內(nèi)嵌信息判斷所述文本對象是否內(nèi)嵌在所述PDF頁面中得到第二判斷結(jié)果;根據(jù)所述第一判斷結(jié)果和所述第二判斷結(jié)果對所述文本對象進行提取。本發(fā)明實現(xiàn)了提高PDF文字提取的正確率,并且不需要將所有PDF文字進行OCR識別,節(jié)約了PDF文字提取的時間。