一種對(duì)圖像型PDF財(cái)務(wù)數(shù)據(jù)關(guān)鍵表格信息的處理方法

基本信息

申請(qǐng)?zhí)?/td> CN201911336180.X 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN111027297A 公開(kāi)(公告)日 2020-04-17
申請(qǐng)公布號(hào) CN111027297A 申請(qǐng)公布日 2020-04-17
分類(lèi)號(hào) G06F40/18;G06F40/174;G06K9/00 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 計(jì)璐;楊勝 申請(qǐng)(專(zhuān)利權(quán))人 海南港澳資訊產(chǎn)業(yè)股份有限公司
代理機(jī)構(gòu) 深圳市鼎泰正和知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 周小濤
地址 570105 海南省??谑袊?guó)貿(mào)大道36號(hào)嘉陵國(guó)際大廈九層
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及文檔處理領(lǐng)域,特別是涉及一種對(duì)圖像型PDF財(cái)務(wù)數(shù)據(jù)關(guān)鍵表格信息的處理方法。在云化服務(wù)器上加載PDF財(cái)務(wù)數(shù)據(jù)表識(shí)別系統(tǒng),用戶(hù)上傳需要處理獲得財(cái)務(wù)數(shù)據(jù)的PDF文檔,系統(tǒng)采用OCR光學(xué)圖像識(shí)別字符接口、表格版面分析算法及深度學(xué)習(xí)算法將關(guān)鍵財(cái)務(wù)數(shù)據(jù)提取出來(lái);系統(tǒng)將提取結(jié)果數(shù)據(jù)序列化,以結(jié)構(gòu)化形式輸出為JSON格式數(shù)據(jù),調(diào)用數(shù)據(jù)庫(kù)接口,將PDF中所有表格信息入庫(kù);引入財(cái)務(wù)表格識(shí)別性能評(píng)測(cè)系統(tǒng),對(duì)已經(jīng)提取的數(shù)據(jù)進(jìn)行量化評(píng)價(jià),根據(jù)量化結(jié)果實(shí)時(shí)調(diào)整系統(tǒng)對(duì)財(cái)務(wù)數(shù)據(jù)表圖像處理參數(shù)調(diào)整,以此優(yōu)化系統(tǒng)識(shí)別效率。通過(guò)使用本方法能夠準(zhǔn)確、快速對(duì)圖像型的財(cái)務(wù)單據(jù)數(shù)據(jù)進(jìn)行解析提取,增加財(cái)務(wù)數(shù)據(jù)入庫(kù)的數(shù)據(jù)來(lái)源渠道。