一種版式文檔中的含線表格信息提取方法
基本信息
申請?zhí)?/td> | CN201910743582.5 | 申請日 | - |
公開(公告)號 | CN110688825A | 公開(公告)日 | 2020-01-14 |
申請公布號 | CN110688825A | 申請公布日 | 2020-01-14 |
分類號 | G06F40/177;G06F40/18 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 張詩玉;徐劍波;王磊 | 申請(專利權(quán))人 | 北京眾信博雅科技有限公司 |
代理機構(gòu) | - | 代理人 | - |
地址 | 100000 北京市海淀區(qū)西三旗安寧莊路4號9號樓4層0996 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及本發(fā)明涉及一種版式文檔中的含線表格信息提取方法,包括以下步驟:步驟一、解析版式文檔,逐頁獲取頁面信息及頁面中文字塊和直線信息;步驟二、對各頁的直線進行合并;步驟三、連續(xù)頁拼接,將所有頁面拼接,最終整個版式文件獲得一個虛擬頁;步驟四、提取表格所在位置和表格中直線信息;步驟五、結(jié)合文字塊和表格線提取表格中各單元格內(nèi)容和位置信息;步驟六、表格單元格的組織結(jié)構(gòu)分析,本發(fā)明能有效提高表格的識別效果,尤其是不規(guī)則表格,減少了版式文檔排版識別、轉(zhuǎn)換的困難,有助于提高版式文檔解析的效率和效果。 |
