一種PDF文件表格解析方法及系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN201710193060.3 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN108664458A | 公開(公告)日 | 2018-10-16 |
申請(qǐng)公布號(hào) | CN108664458A | 申請(qǐng)公布日 | 2018-10-16 |
分類號(hào) | G06F17/22 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 裴澤光;武海峰 | 申請(qǐng)(專利權(quán))人 | 中科云投科技股份有限公司 |
代理機(jī)構(gòu) | 北京市盛峰律師事務(wù)所 | 代理人 | 華多九州科技股份有限公司 |
地址 | 100089 北京市海淀區(qū)萬柳中路6號(hào)院4號(hào)樓1層101 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種PDF文件表格解析方法及系統(tǒng),涉及數(shù)據(jù)處理領(lǐng)域。所述方法:獲取目標(biāo)PDF文件,并將所述目標(biāo)PDF文件轉(zhuǎn)化為word文檔;將word文檔轉(zhuǎn)化為html文檔;識(shí)別html文檔中的表格信息,讀取并輸出所述表格信息;在識(shí)別html文檔中的表格信息過程中,還需要將識(shí)別到的表格信息轉(zhuǎn)化成結(jié)構(gòu)化信息。所述系統(tǒng)包括:轉(zhuǎn)換單元一、轉(zhuǎn)換單元二和制作單元。本發(fā)明所述方法不僅能準(zhǔn)確的識(shí)別和讀取PDF文件中的文字信息,還能完成的讀取PDF文件中的表格信息,且準(zhǔn)確率至少為90%,本發(fā)明還能將讀取的表格信息轉(zhuǎn)化為結(jié)構(gòu)話數(shù)據(jù)。 |
