一種基于圖像信息的PDF有邊框表格抽取方法
基本信息
申請?zhí)?/td> | CN201810142924.3 | 申請日 | - |
公開(公告)號 | CN110163030A | 公開(公告)日 | 2019-08-23 |
申請公布號 | CN110163030A | 申請公布日 | 2019-08-23 |
分類號 | G06K9/00;G06K9/20;G06F17/24 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 陳前力;王博遠;吳雪軍 | 申請(專利權(quán))人 | 鼎復(fù)數(shù)據(jù)科技(北京)有限公司 |
代理機構(gòu) | 北京康思博達知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 鼎復(fù)數(shù)據(jù)科技(北京)有限公司 |
地址 | 100020 北京市朝陽區(qū)北辰世紀(jì)中心A座1550 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于圖像信息的PDF有邊框表格抽取方法,該方法中先讀取出PDF文件中記載的關(guān)于橫豎線條的信息,并據(jù)此重新繪制圖表,再對新繪制的圖表做精細化處理,濾掉其中多余線條,濾掉其中背景色,找出構(gòu)成表格的橫線和豎線,再補全可能缺失的邊框線,最后再讀取PDF文件中記載的文本信息及文本位置信息,將之填寫在新繪制的表格中,從而得到可編輯的與PDF文本中內(nèi)容一致的表格。 |
