一種版式文檔中的含線表格信息提取方法

基本信息

申請?zhí)?/td> CN201910743582.5 申請日 -
公開(公告)號 CN110688825A 公開(公告)日 2020-01-14
申請公布號 CN110688825A 申請公布日 2020-01-14
分類號 G06F40/177;G06F40/18 分類 計算;推算;計數(shù);
發(fā)明人 張詩玉;徐劍波;王磊 申請(專利權(quán))人 北京眾信博雅科技有限公司
代理機構(gòu) - 代理人 -
地址 100000 北京市海淀區(qū)西三旗安寧莊路4號9號樓4層0996
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及本發(fā)明涉及一種版式文檔中的含線表格信息提取方法,包括以下步驟:步驟一、解析版式文檔,逐頁獲取頁面信息及頁面中文字塊和直線信息;步驟二、對各頁的直線進行合并;步驟三、連續(xù)頁拼接,將所有頁面拼接,最終整個版式文件獲得一個虛擬頁;步驟四、提取表格所在位置和表格中直線信息;步驟五、結(jié)合文字塊和表格線提取表格中各單元格內(nèi)容和位置信息;步驟六、表格單元格的組織結(jié)構(gòu)分析,本發(fā)明能有效提高表格的識別效果,尤其是不規(guī)則表格,減少了版式文檔排版識別、轉(zhuǎn)換的困難,有助于提高版式文檔解析的效率和效果。