一種基于圖像信息的PDF有邊框表格抽取方法

基本信息

申請(qǐng)?zhí)?/td> CN201810142924.3 申請(qǐng)日 -
公開(公告)號(hào) CN110163030B 公開(公告)日 2021-04-23
申請(qǐng)公布號(hào) CN110163030B 申請(qǐng)公布日 2021-04-23
分類號(hào) G06K9/00(2006.01)I;G06F40/18(2020.01)I;G06K9/20(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 陳前力;王博遠(yuǎn);吳雪軍 申請(qǐng)(專利權(quán))人 鼎復(fù)數(shù)據(jù)科技(北京)有限公司
代理機(jī)構(gòu) 北京康思博達(dá)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 范國鋒;劉冬梅
地址 100020北京市朝陽區(qū)北辰世紀(jì)中心A座1550
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于圖像信息的PDF有邊框表格抽取方法,該方法中先讀取出PDF文件中記載的關(guān)于橫豎線條的信息,并據(jù)此重新繪制圖表,再對(duì)新繪制的圖表做精細(xì)化處理,濾掉其中多余線條,濾掉其中背景色,找出構(gòu)成表格的橫線和豎線,再補(bǔ)全可能缺失的邊框線,最后再讀取PDF文件中記載的文本信息及文本位置信息,將之填寫在新繪制的表格中,從而得到可編輯的與PDF文本中內(nèi)容一致的表格。??