用于挖掘PDF文件中的PDF表格的方法、設(shè)備和介質(zhì)

基本信息

申請?zhí)?/td> CN202111554602.8 申請日 -
公開(公告)號 CN114201620A 公開(公告)日 2022-03-18
申請公布號 CN114201620A 申請公布日 2022-03-18
分類號 G06F16/383;G06F40/18 分類 計算;推算;計數(shù);
發(fā)明人 殷佳春;徐正昀 申請(專利權(quán))人 上海朝陽永續(xù)信息技術(shù)股份有限公司
代理機構(gòu) 北京市金杜律師事務(wù)所 代理人 龐淑敏
地址 201203 上海市浦東新區(qū)張江高科碧波路690號4號樓
法律狀態(tài) -

摘要

摘要 本公開的實施例涉及用于挖掘PDF文件中的PDF表格的方法和設(shè)備和介質(zhì),其中方法包括針對PDF表格設(shè)置目標(biāo)關(guān)鍵字以及與所述目標(biāo)關(guān)鍵字相關(guān)聯(lián)的配置信息;解析所述PDF文件,以便獲取所述PDF文件中的文本信息;基于與所述配置信息和所獲取的文本信息,確定第一文本信息;基于所述目標(biāo)關(guān)鍵字在所述第一文本信息中的預(yù)定義位置以及所述第一文本信息,確定第二文本信息;基于所提取的PDF表格的特征,驗證所述第二文本信息是否屬于所述PDF表格的特征行,以便確定所述PDF表格的特征行;基于所述目標(biāo)關(guān)鍵字和所述第一文本信息,確定所述PDF表格的特征列;以及根據(jù)所確定的特征行和特征列獲取所述PDF表格的單元格的文本信息。