一種基于大數(shù)據(jù)的PDF文檔處理方法及裝置
基本信息
申請?zhí)?/td> | CN201711080720.3 | 申請日 | - |
公開(公告)號 | CN107943785B | 公開(公告)日 | 2021-07-20 |
申請公布號 | CN107943785B | 申請公布日 | 2021-07-20 |
分類號 | G06F40/279 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 賈義動;紀曉陽;高峰 | 申請(專利權(quán))人 | 廣東廣業(yè)開元科技有限公司 |
代理機構(gòu) | 廣州嘉權(quán)專利商標事務(wù)所有限公司 | 代理人 | 朱曉敏;胡輝 |
地址 | 510623 廣東省廣州市天河區(qū)珠江新城金穗路1號邦華環(huán)球廣場408 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于大數(shù)據(jù)的PDF文檔處理方法及裝置,該方法包括:利用去重技術(shù)和格式轉(zhuǎn)換技術(shù),構(gòu)建包含多個不同文檔格式財務(wù)文檔的多格式文檔池;利用財務(wù)指標的正則表達式規(guī)則、起始特征指標和結(jié)束特征指標,對多個不同文檔格式的財務(wù)文檔進行定位解析處理后,獲得財務(wù)數(shù)據(jù)以及與財務(wù)數(shù)據(jù)對應(yīng)的指標名稱和時間;利用財務(wù)數(shù)據(jù)所對應(yīng)的不同解析結(jié)果,對財務(wù)數(shù)據(jù)進行校驗。該裝置包括用于存儲程序的存儲器以及用于加載程序并執(zhí)行所述基于大數(shù)據(jù)的PDF文檔處理方法的處理器。通過使用本發(fā)明,能夠快速、準確地對多種不同格式的財務(wù)文檔進行財務(wù)數(shù)據(jù)的解析提取。本發(fā)明作為一種基于大數(shù)據(jù)的PDF文檔處理方法及裝置可廣泛應(yīng)用于大數(shù)據(jù)解析領(lǐng)域中。 |
