用于挖掘PDF文件中的PDF表格的方法、設(shè)備和介質(zhì)
基本信息
申請?zhí)?/td> | CN202111554602.8 | 申請日 | - |
公開(公告)號 | CN114201620A | 公開(公告)日 | 2022-03-18 |
申請公布號 | CN114201620A | 申請公布日 | 2022-03-18 |
分類號 | G06F16/383;G06F40/18 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 殷佳春;徐正昀 | 申請(專利權(quán))人 | 上海朝陽永續(xù)信息技術(shù)股份有限公司 |
代理機構(gòu) | 北京市金杜律師事務(wù)所 | 代理人 | 龐淑敏 |
地址 | 201203 上海市浦東新區(qū)張江高科碧波路690號4號樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本公開的實施例涉及用于挖掘PDF文件中的PDF表格的方法和設(shè)備和介質(zhì),其中方法包括針對PDF表格設(shè)置目標(biāo)關(guān)鍵字以及與所述目標(biāo)關(guān)鍵字相關(guān)聯(lián)的配置信息;解析所述PDF文件,以便獲取所述PDF文件中的文本信息;基于與所述配置信息和所獲取的文本信息,確定第一文本信息;基于所述目標(biāo)關(guān)鍵字在所述第一文本信息中的預(yù)定義位置以及所述第一文本信息,確定第二文本信息;基于所提取的PDF表格的特征,驗證所述第二文本信息是否屬于所述PDF表格的特征行,以便確定所述PDF表格的特征行;基于所述目標(biāo)關(guān)鍵字和所述第一文本信息,確定所述PDF表格的特征列;以及根據(jù)所確定的特征行和特征列獲取所述PDF表格的單元格的文本信息。 |
