一種版式文檔中的含線表格信息提取方法

基本信息

申請(qǐng)?zhí)?/td> CN201910743582.5 申請(qǐng)日 -
公開(公告)號(hào) CN110688825A 公開(公告)日 2020-01-14
申請(qǐng)公布號(hào) CN110688825A 申請(qǐng)公布日 2020-01-14
分類號(hào) G06F40/177;G06F40/18 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 張?jiān)娪?徐劍波;王磊 申請(qǐng)(專利權(quán))人 北京眾信博雅科技有限公司
代理機(jī)構(gòu) - 代理人 -
地址 100000 北京市海淀區(qū)西三旗安寧莊路4號(hào)9號(hào)樓4層0996
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及本發(fā)明涉及一種版式文檔中的含線表格信息提取方法,包括以下步驟:步驟一、解析版式文檔,逐頁(yè)獲取頁(yè)面信息及頁(yè)面中文字塊和直線信息;步驟二、對(duì)各頁(yè)的直線進(jìn)行合并;步驟三、連續(xù)頁(yè)拼接,將所有頁(yè)面拼接,最終整個(gè)版式文件獲得一個(gè)虛擬頁(yè);步驟四、提取表格所在位置和表格中直線信息;步驟五、結(jié)合文字塊和表格線提取表格中各單元格內(nèi)容和位置信息;步驟六、表格單元格的組織結(jié)構(gòu)分析,本發(fā)明能有效提高表格的識(shí)別效果,尤其是不規(guī)則表格,減少了版式文檔排版識(shí)別、轉(zhuǎn)換的困難,有助于提高版式文檔解析的效率和效果。