一種PDF文件信息抽取方法、裝置以及計算機設(shè)備
基本信息
申請?zhí)?/td> | CN202110749413.X | 申請日 | - |
公開(公告)號 | CN113343658A | 公開(公告)日 | 2021-09-03 |
申請公布號 | CN113343658A | 申請公布日 | 2021-09-03 |
分類號 | G06F40/18(2020.01)I;G06F40/30(2020.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 陽建仁;周忠誠;段煉;張圣棟;黃九鳴 | 申請(專利權(quán))人 | 湖南四方天箭信息科技有限公司 |
代理機構(gòu) | 湖南兆弘專利事務(wù)所(普通合伙) | 代理人 | 胡君 |
地址 | 410000湖南省長沙市高新開發(fā)區(qū)岳麓西大道588號芯城科技園8棟1301房 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開一種PDF文件信息抽取方法、裝置以及計算機設(shè)備,該方法包括:獲取待抽取PDF文件,提取待抽取PDF文件中的字符和線條;根據(jù)提取的各線條的坐標位置以及各線條之間的位置關(guān)系,抽取待抽取PDF文件中的最簡表格,最簡表格為所有線條均為兩兩相連的最外圍表格;根據(jù)最簡表格的表格線條確定最簡表格的單元格,遞歸循環(huán)抽取各單元格內(nèi)部嵌套的最簡表格;根據(jù)各最簡表格的表格線條的坐標位置以及提取的各字符的坐標位置,從字符中抽取得到各最簡表格的表格字符。本發(fā)明具有實現(xiàn)方法簡單、抽取效率高、速度快且能夠保留復(fù)雜表格內(nèi)部邏輯關(guān)系等的優(yōu)點。 |
