面向PDF表格的自動識別系統(tǒng)和方法

基本信息

申請?zhí)?/td> CN201811627644.8 申請日 -
公開(公告)號 CN109670477A 公開(公告)日 2019-04-23
申請公布號 CN109670477A 申請公布日 2019-04-23
分類號 G06K9/00(2006.01)I 分類 計算;推算;計數;
發(fā)明人 張長虹; 馮衛(wèi)強; 張友豪; 羅萬坤; 王瑞; 賀曉燕 申請(專利權)人 上海大智慧財匯數據科技有限公司
代理機構 上海段和段律師事務所 代理人 上海大智慧財匯數據科技有限公司
地址 200120 上海市浦東新區(qū)自由貿易試驗區(qū)郭守敬路498號12幢21501-21507室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種面向PDF表格的自動識別系統(tǒng)和方法,掃描PDF格式的報表,識別出PDF文件中的表格內容、文字內容;完整保留原始表格樣式,根據業(yè)務需求解析表格內容,對原始表格樣式進行調整,得到調整后表格樣式;自動識別表格內容中的文本和表頭,以結構化形式輸出,對得到的結構化入庫數據進行篩選,根據業(yè)務需求過濾無效信息,校驗表頭各個科目數據的業(yè)務平衡性,得到校驗合格數據并錄入數據庫;根據原始表格樣式或者調整后表格樣式對校驗合格數據進行展示,并提供表格下載,得到excel格式的表格。實現PDF公告文件中表格的自動識別,結合實際金融業(yè)務處理的需求對表格進行個性化調整,解決現階段數據快速增長報表處理速度問題。