一種PDF文件信息抽取方法、裝置以及計算機設(shè)備

基本信息

申請?zhí)?/td> CN202110749413.X 申請日 -
公開(公告)號 CN113343658A 公開(公告)日 2021-09-03
申請公布號 CN113343658A 申請公布日 2021-09-03
分類號 G06F40/18(2020.01)I;G06F40/30(2020.01)I 分類 計算;推算;計數(shù);
發(fā)明人 陽建仁;周忠誠;段煉;張圣棟;黃九鳴 申請(專利權(quán))人 湖南四方天箭信息科技有限公司
代理機構(gòu) 湖南兆弘專利事務(wù)所(普通合伙) 代理人 胡君
地址 410000湖南省長沙市高新開發(fā)區(qū)岳麓西大道588號芯城科技園8棟1301房
法律狀態(tài) -

摘要

摘要 本發(fā)明公開一種PDF文件信息抽取方法、裝置以及計算機設(shè)備,該方法包括:獲取待抽取PDF文件,提取待抽取PDF文件中的字符和線條;根據(jù)提取的各線條的坐標位置以及各線條之間的位置關(guān)系,抽取待抽取PDF文件中的最簡表格,最簡表格為所有線條均為兩兩相連的最外圍表格;根據(jù)最簡表格的表格線條確定最簡表格的單元格,遞歸循環(huán)抽取各單元格內(nèi)部嵌套的最簡表格;根據(jù)各最簡表格的表格線條的坐標位置以及提取的各字符的坐標位置,從字符中抽取得到各最簡表格的表格字符。本發(fā)明具有實現(xiàn)方法簡單、抽取效率高、速度快且能夠保留復(fù)雜表格內(nèi)部邏輯關(guān)系等的優(yōu)點。