基于XML的多頁文檔處理方法、裝置、計算機設備及介質(zhì)

基本信息

申請?zhí)?/td> CN202011479857.8 申請日 -
公開(公告)號 CN112528599A 公開(公告)日 2021-03-19
申請公布號 CN112528599A 申請公布日 2021-03-19
分類號 G06F40/14;G06F40/174;G06F40/18;G06K9/32 分類 計算;推算;計數(shù);
發(fā)明人 莊志強;施光輝;陸承豐;王鶴 申請(專利權(quán))人 信號旗智能科技(上海)有限公司
代理機構(gòu) - 代理人 -
地址 200120 上海市浦東新區(qū)中國(上海)自由貿(mào)易試驗區(qū)納賢路800號1幢A座8樓A1-3室
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及表單數(shù)據(jù)處理領域,公開了一種基于XML的多頁文檔處理方法、裝置、計算機設備及介質(zhì),其方法包括:通過光學字符識別程序處理包含表單的多頁文檔,生成XML數(shù)據(jù);根據(jù)XML數(shù)據(jù)構(gòu)建二維矩陣;根據(jù)預設分類識別算法處理二維矩陣和多頁文檔,生成若干表單分頁數(shù)據(jù)和表單結(jié)構(gòu)信息,一個表單分頁數(shù)據(jù)對應一個表單結(jié)構(gòu)信息;通過自然語言處理模型處理表單單元數(shù)據(jù),生成若干表單字段數(shù)據(jù);根據(jù)表單結(jié)構(gòu)信息和表單字段數(shù)據(jù)合成目標表單。本發(fā)明解決了海關(guān)報關(guān)系統(tǒng)的制單流程處理效率低、處理成本高的問題。