一種基于圖像信息的PDF有邊框表格抽取方法
基本信息
申請(qǐng)?zhí)?/td> | CN201810142924.3 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN110163030B | 公開(公告)日 | 2021-04-23 |
申請(qǐng)公布號(hào) | CN110163030B | 申請(qǐng)公布日 | 2021-04-23 |
分類號(hào) | G06K9/00(2006.01)I;G06F40/18(2020.01)I;G06K9/20(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 陳前力;王博遠(yuǎn);吳雪軍 | 申請(qǐng)(專利權(quán))人 | 鼎復(fù)數(shù)據(jù)科技(北京)有限公司 |
代理機(jī)構(gòu) | 北京康思博達(dá)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 范國鋒;劉冬梅 |
地址 | 100020北京市朝陽區(qū)北辰世紀(jì)中心A座1550 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于圖像信息的PDF有邊框表格抽取方法,該方法中先讀取出PDF文件中記載的關(guān)于橫豎線條的信息,并據(jù)此重新繪制圖表,再對(duì)新繪制的圖表做精細(xì)化處理,濾掉其中多余線條,濾掉其中背景色,找出構(gòu)成表格的橫線和豎線,再補(bǔ)全可能缺失的邊框線,最后再讀取PDF文件中記載的文本信息及文本位置信息,將之填寫在新繪制的表格中,從而得到可編輯的與PDF文本中內(nèi)容一致的表格。?? |
