一種版式文檔中的含線表格信息提取方法
基本信息
申請(qǐng)?zhí)?/td> | CN201910743582.5 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN110688825A | 公開(公告)日 | 2020-01-14 |
申請(qǐng)公布號(hào) | CN110688825A | 申請(qǐng)公布日 | 2020-01-14 |
分類號(hào) | G06F40/177;G06F40/18 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 張?jiān)娪?徐劍波;王磊 | 申請(qǐng)(專利權(quán))人 | 北京眾信博雅科技有限公司 |
代理機(jī)構(gòu) | - | 代理人 | - |
地址 | 100000 北京市海淀區(qū)西三旗安寧莊路4號(hào)9號(hào)樓4層0996 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及本發(fā)明涉及一種版式文檔中的含線表格信息提取方法,包括以下步驟:步驟一、解析版式文檔,逐頁(yè)獲取頁(yè)面信息及頁(yè)面中文字塊和直線信息;步驟二、對(duì)各頁(yè)的直線進(jìn)行合并;步驟三、連續(xù)頁(yè)拼接,將所有頁(yè)面拼接,最終整個(gè)版式文件獲得一個(gè)虛擬頁(yè);步驟四、提取表格所在位置和表格中直線信息;步驟五、結(jié)合文字塊和表格線提取表格中各單元格內(nèi)容和位置信息;步驟六、表格單元格的組織結(jié)構(gòu)分析,本發(fā)明能有效提高表格的識(shí)別效果,尤其是不規(guī)則表格,減少了版式文檔排版識(shí)別、轉(zhuǎn)換的困難,有助于提高版式文檔解析的效率和效果。 |
