一種PDF等版式文檔中識(shí)別表格的方法
基本信息
申請?zhí)?/td> | CN202110598830.9 | 申請日 | - |
公開(公告)號(hào) | CN113343815A | 公開(公告)日 | 2021-09-03 |
申請公布號(hào) | CN113343815A | 申請公布日 | 2021-09-03 |
分類號(hào) | G06K9/00(2006.01)I;G06F40/177(2020.01)I;G06F40/174(2020.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 安永進(jìn);魯林 | 申請(專利權(quán))人 | 北森云計(jì)算有限公司 |
代理機(jī)構(gòu) | 成都九鼎天元知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 徐靜 |
地址 | 610041四川省成都市高新區(qū)萃華路89號(hào)1棟1單元4001號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種PDF等版式文檔中識(shí)別表格的方法,包括以下步驟:在PDF頁面渲染過程中,記錄頁面狀態(tài),忽略隱藏線條,記錄有效的橫向線段和縱向線段;合并近似共線且相交或近似相交的橫向線段和縱向線段;找到所有橫向線段和縱向線段的交點(diǎn)和兩側(cè)端點(diǎn);劃分出多個(gè)互不聯(lián)通的點(diǎn)線區(qū)域,將交點(diǎn)不超過4個(gè)的點(diǎn)線區(qū)域作為無效區(qū)域,多個(gè)相鄰的無效區(qū)域作為無連通區(qū)域組并確定其單元格;針對交點(diǎn)超過4個(gè)的點(diǎn)線區(qū)域,得到每個(gè)單元格的坐標(biāo)及邊線;將每個(gè)單元格組劃分為若干個(gè)表格行;得到表格整體的行數(shù)和列數(shù);根據(jù)坐標(biāo)設(shè)置單元格內(nèi)的內(nèi)容。本發(fā)明識(shí)別單元格更準(zhǔn)確,不會(huì)因文本坐標(biāo)出現(xiàn)漏識(shí)別或錯(cuò)識(shí)別,能準(zhǔn)確提取單元格的行列特征。 |
