一種PDF文件表格解析方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN201710193060.3 申請(qǐng)日 -
公開(公告)號(hào) CN108664458A 公開(公告)日 2018-10-16
申請(qǐng)公布號(hào) CN108664458A 申請(qǐng)公布日 2018-10-16
分類號(hào) G06F17/22 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 裴澤光;武海峰 申請(qǐng)(專利權(quán))人 中科云投科技股份有限公司
代理機(jī)構(gòu) 北京市盛峰律師事務(wù)所 代理人 華多九州科技股份有限公司
地址 100089 北京市海淀區(qū)萬柳中路6號(hào)院4號(hào)樓1層101
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種PDF文件表格解析方法及系統(tǒng),涉及數(shù)據(jù)處理領(lǐng)域。所述方法:獲取目標(biāo)PDF文件,并將所述目標(biāo)PDF文件轉(zhuǎn)化為word文檔;將word文檔轉(zhuǎn)化為html文檔;識(shí)別html文檔中的表格信息,讀取并輸出所述表格信息;在識(shí)別html文檔中的表格信息過程中,還需要將識(shí)別到的表格信息轉(zhuǎn)化成結(jié)構(gòu)化信息。所述系統(tǒng)包括:轉(zhuǎn)換單元一、轉(zhuǎn)換單元二和制作單元。本發(fā)明所述方法不僅能準(zhǔn)確的識(shí)別和讀取PDF文件中的文字信息,還能完成的讀取PDF文件中的表格信息,且準(zhǔn)確率至少為90%,本發(fā)明還能將讀取的表格信息轉(zhuǎn)化為結(jié)構(gòu)話數(shù)據(jù)。