面向PDF表格的自動識別系統(tǒng)和方法
基本信息
申請?zhí)?/td> | CN201811627644.8 | 申請日 | - |
公開(公告)號 | CN109670477A | 公開(公告)日 | 2019-04-23 |
申請公布號 | CN109670477A | 申請公布日 | 2019-04-23 |
分類號 | G06K9/00(2006.01)I | 分類 | 計算;推算;計數; |
發(fā)明人 | 張長虹; 馮衛(wèi)強; 張友豪; 羅萬坤; 王瑞; 賀曉燕 | 申請(專利權)人 | 上海大智慧財匯數據科技有限公司 |
代理機構 | 上海段和段律師事務所 | 代理人 | 上海大智慧財匯數據科技有限公司 |
地址 | 200120 上海市浦東新區(qū)自由貿易試驗區(qū)郭守敬路498號12幢21501-21507室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供一種面向PDF表格的自動識別系統(tǒng)和方法,掃描PDF格式的報表,識別出PDF文件中的表格內容、文字內容;完整保留原始表格樣式,根據業(yè)務需求解析表格內容,對原始表格樣式進行調整,得到調整后表格樣式;自動識別表格內容中的文本和表頭,以結構化形式輸出,對得到的結構化入庫數據進行篩選,根據業(yè)務需求過濾無效信息,校驗表頭各個科目數據的業(yè)務平衡性,得到校驗合格數據并錄入數據庫;根據原始表格樣式或者調整后表格樣式對校驗合格數據進行展示,并提供表格下載,得到excel格式的表格。實現PDF公告文件中表格的自動識別,結合實際金融業(yè)務處理的需求對表格進行個性化調整,解決現階段數據快速增長報表處理速度問題。 |
