用于識(shí)別PDF表格的方法、設(shè)備和介質(zhì)

基本信息

申請?zhí)?/td> CN202210007815.7 申請日 -
公開(公告)號(hào) CN114022888B 公開(公告)日 2022-04-08
申請公布號(hào) CN114022888B 申請公布日 2022-04-08
分類號(hào) G06V30/412(2022.01)I;G06V30/414(2022.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 朱峰;尹揚(yáng);郭鵬華 申請(專利權(quán))人 上海朝陽永續(xù)信息技術(shù)股份有限公司
代理機(jī)構(gòu) 北京市金杜律師事務(wù)所 代理人 王茂華
地址 201203 上海市浦東新區(qū)中國(上海)自由貿(mào)易試驗(yàn)區(qū)碧波路690號(hào)4號(hào)樓501室
法律狀態(tài) -

摘要

摘要 本公開的實(shí)施例涉及用于識(shí)別PDF表格的方法、設(shè)備和介質(zhì)。在該方法中,可以針對PDF文件檢索目標(biāo)關(guān)鍵字,以便確定PDF文件中的目標(biāo)表格區(qū)域;獲取處于目標(biāo)表格區(qū)域內(nèi)的多個(gè)文本塊;基于所述多個(gè)文本塊的坐標(biāo),確定關(guān)于目標(biāo)表格的掃描區(qū)域的左上起點(diǎn)和右下終點(diǎn),以便提取掃描區(qū)域內(nèi)的所有文本塊;基于所提取的掃描區(qū)域內(nèi)的所有文本塊的坐標(biāo),確定對角坐標(biāo)集合,所述對角坐標(biāo)集合包括所有文本塊中的每一個(gè)文本塊的對角坐標(biāo);掃描對角坐標(biāo)集合,以便生成掃描結(jié)果數(shù)組;以及遍歷掃描結(jié)果數(shù)組,以便確定目標(biāo)表格中的單元格文本信息。由此,本公開能夠?qū)崿F(xiàn)復(fù)雜PDF表格的精確識(shí)別,并且還可以實(shí)現(xiàn)表格提取、分析等處理。