面向PDF表格的自動識別系統(tǒng)和方法
基本信息
申請?zhí)?/td> | CN201811627644.8 | 申請日 | - |
公開(公告)號 | CN109670477A | 公開(公告)日 | 2019-04-23 |
申請公布號 | CN109670477A | 申請公布日 | 2019-04-23 |
分類號 | G06K9/00(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 張長虹; 馮衛(wèi)強; 張友豪; 羅萬坤; 王瑞; 賀曉燕 | 申請(專利權(quán))人 | 上海大智慧財匯數(shù)據(jù)科技有限公司 |
代理機構(gòu) | 上海段和段律師事務(wù)所 | 代理人 | 上海大智慧財匯數(shù)據(jù)科技有限公司 |
地址 | 200120 上海市浦東新區(qū)自由貿(mào)易試驗區(qū)郭守敬路498號12幢21501-21507室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供一種面向PDF表格的自動識別系統(tǒng)和方法,掃描PDF格式的報表,識別出PDF文件中的表格內(nèi)容、文字內(nèi)容;完整保留原始表格樣式,根據(jù)業(yè)務(wù)需求解析表格內(nèi)容,對原始表格樣式進行調(diào)整,得到調(diào)整后表格樣式;自動識別表格內(nèi)容中的文本和表頭,以結(jié)構(gòu)化形式輸出,對得到的結(jié)構(gòu)化入庫數(shù)據(jù)進行篩選,根據(jù)業(yè)務(wù)需求過濾無效信息,校驗表頭各個科目數(shù)據(jù)的業(yè)務(wù)平衡性,得到校驗合格數(shù)據(jù)并錄入數(shù)據(jù)庫;根據(jù)原始表格樣式或者調(diào)整后表格樣式對校驗合格數(shù)據(jù)進行展示,并提供表格下載,得到excel格式的表格。實現(xiàn)PDF公告文件中表格的自動識別,結(jié)合實際金融業(yè)務(wù)處理的需求對表格進行個性化調(diào)整,解決現(xiàn)階段數(shù)據(jù)快速增長報表處理速度問題。 |
