一種針對(duì)PDF文檔表格提取的系統(tǒng)及方法
基本信息
申請(qǐng)?zhí)?/td> | CN201910738531.3 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN110516208A | 公開(公告)日 | 2019-11-29 |
申請(qǐng)公布號(hào) | CN110516208A | 申請(qǐng)公布日 | 2019-11-29 |
分類號(hào) | G06F17/22;G06K9/00;G06K9/32 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 李舟軍;金代圣;肖武魁;劉俊杰;覃維 | 申請(qǐng)(專利權(quán))人 | 深圳智能思創(chuàng)科技有限公司 |
代理機(jī)構(gòu) | 北京慧泉知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 深圳智能思創(chuàng)科技有限公司 |
地址 | 518000 廣東省深圳市南山區(qū)深圳灣錦緞之濱第5-6棟6棟2C | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開一種針對(duì)PDF文檔的表格提取的系統(tǒng),包括表格特征提取模塊、表格定位模塊、表格內(nèi)部結(jié)構(gòu)解析模塊;一種針對(duì)PDF文檔的表格提取的方法,包括:S1、表格特征提?。籗2、表格定位;S3、表格內(nèi)部結(jié)構(gòu)解析;最終表格被劃分成了二維網(wǎng)格的結(jié)構(gòu),對(duì)于得到的二維網(wǎng)格化的表格,可以知道每個(gè)單元格的位置及大小,將表格使用HTML格式進(jìn)行輸出。本發(fā)明考慮了缺省線條以及底色區(qū)分單元格等特殊表格形式,能夠?qū)DF表格數(shù)據(jù)進(jìn)行高準(zhǔn)確率的提取。 |
