面向PDF表格的自動識別系統(tǒng)和方法

基本信息

申請?zhí)?/td> CN201811627644.8 申請日 -
公開(公告)號 CN109670477A 公開(公告)日 2019-04-23
申請公布號 CN109670477A 申請公布日 2019-04-23
分類號 G06K9/00(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 張長虹; 馮衛(wèi)強; 張友豪; 羅萬坤; 王瑞; 賀曉燕 申請(專利權(quán))人 上海大智慧財匯數(shù)據(jù)科技有限公司
代理機構(gòu) 上海段和段律師事務(wù)所 代理人 上海大智慧財匯數(shù)據(jù)科技有限公司
地址 200120 上海市浦東新區(qū)自由貿(mào)易試驗區(qū)郭守敬路498號12幢21501-21507室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種面向PDF表格的自動識別系統(tǒng)和方法,掃描PDF格式的報表,識別出PDF文件中的表格內(nèi)容、文字內(nèi)容;完整保留原始表格樣式,根據(jù)業(yè)務(wù)需求解析表格內(nèi)容,對原始表格樣式進行調(diào)整,得到調(diào)整后表格樣式;自動識別表格內(nèi)容中的文本和表頭,以結(jié)構(gòu)化形式輸出,對得到的結(jié)構(gòu)化入庫數(shù)據(jù)進行篩選,根據(jù)業(yè)務(wù)需求過濾無效信息,校驗表頭各個科目數(shù)據(jù)的業(yè)務(wù)平衡性,得到校驗合格數(shù)據(jù)并錄入數(shù)據(jù)庫;根據(jù)原始表格樣式或者調(diào)整后表格樣式對校驗合格數(shù)據(jù)進行展示,并提供表格下載,得到excel格式的表格。實現(xiàn)PDF公告文件中表格的自動識別,結(jié)合實際金融業(yè)務(wù)處理的需求對表格進行個性化調(diào)整,解決現(xiàn)階段數(shù)據(jù)快速增長報表處理速度問題。