一種基于大數(shù)據(jù)的PDF文檔處理方法及裝置

基本信息

申請?zhí)?/td> CN201711080720.3 申請日 -
公開(公告)號 CN107943785B 公開(公告)日 2021-07-20
申請公布號 CN107943785B 申請公布日 2021-07-20
分類號 G06F40/279 分類 計算;推算;計數(shù);
發(fā)明人 賈義動;紀曉陽;高峰 申請(專利權(quán))人 廣東廣業(yè)開元科技有限公司
代理機構(gòu) 廣州嘉權(quán)專利商標事務(wù)所有限公司 代理人 朱曉敏;胡輝
地址 510623 廣東省廣州市天河區(qū)珠江新城金穗路1號邦華環(huán)球廣場408
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于大數(shù)據(jù)的PDF文檔處理方法及裝置,該方法包括:利用去重技術(shù)和格式轉(zhuǎn)換技術(shù),構(gòu)建包含多個不同文檔格式財務(wù)文檔的多格式文檔池;利用財務(wù)指標的正則表達式規(guī)則、起始特征指標和結(jié)束特征指標,對多個不同文檔格式的財務(wù)文檔進行定位解析處理后,獲得財務(wù)數(shù)據(jù)以及與財務(wù)數(shù)據(jù)對應(yīng)的指標名稱和時間;利用財務(wù)數(shù)據(jù)所對應(yīng)的不同解析結(jié)果,對財務(wù)數(shù)據(jù)進行校驗。該裝置包括用于存儲程序的存儲器以及用于加載程序并執(zhí)行所述基于大數(shù)據(jù)的PDF文檔處理方法的處理器。通過使用本發(fā)明,能夠快速、準確地對多種不同格式的財務(wù)文檔進行財務(wù)數(shù)據(jù)的解析提取。本發(fā)明作為一種基于大數(shù)據(jù)的PDF文檔處理方法及裝置可廣泛應(yīng)用于大數(shù)據(jù)解析領(lǐng)域中。