一種基于圖像信息的PDF有邊框表格抽取方法

基本信息

申請?zhí)?/td> CN201810142924.3 申請日 -
公開(公告)號 CN110163030A 公開(公告)日 2019-08-23
申請公布號 CN110163030A 申請公布日 2019-08-23
分類號 G06K9/00;G06K9/20;G06F17/24 分類 計算;推算;計數(shù);
發(fā)明人 陳前力;王博遠;吳雪軍 申請(專利權(quán))人 鼎復(fù)數(shù)據(jù)科技(北京)有限公司
代理機構(gòu) 北京康思博達知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 鼎復(fù)數(shù)據(jù)科技(北京)有限公司
地址 100020 北京市朝陽區(qū)北辰世紀(jì)中心A座1550
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于圖像信息的PDF有邊框表格抽取方法,該方法中先讀取出PDF文件中記載的關(guān)于橫豎線條的信息,并據(jù)此重新繪制圖表,再對新繪制的圖表做精細化處理,濾掉其中多余線條,濾掉其中背景色,找出構(gòu)成表格的橫線和豎線,再補全可能缺失的邊框線,最后再讀取PDF文件中記載的文本信息及文本位置信息,將之填寫在新繪制的表格中,從而得到可編輯的與PDF文本中內(nèi)容一致的表格。