一種表格結(jié)構(gòu)提取方法

基本信息

申請?zhí)?/td> CN202010129664.3 申請日 -
公開(公告)號 CN111368695A 公開(公告)日 2020-07-03
申請公布號 CN111368695A 申請公布日 2020-07-03
分類號 G06K9/00;G06K9/34;G06K9/46;G06N3/04 分類 -
發(fā)明人 汪雨;郭彥儒;王威 申請(專利權(quán))人 上海匯航捷訊網(wǎng)絡(luò)科技有限公司
代理機構(gòu) 北京同恒源知識產(chǎn)權(quán)代理有限公司 代理人 上海匯航捷訊網(wǎng)絡(luò)科技有限公司
地址 200120 上海市浦東新區(qū)(上海)自由貿(mào)易試驗區(qū)民生路1403號1112室
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種表格結(jié)構(gòu)提取方法,屬于文檔識別領(lǐng)域。該方法包括:S1:數(shù)據(jù)轉(zhuǎn)換;S2:圖片預(yù)處理及直線分割;S3:直線檢測及預(yù)處理;S4:水平線與豎直線判斷;S5:查找交點;S6:斷線的續(xù)連;S7:獲取單元格。本發(fā)明采用深度網(wǎng)絡(luò)分割圖像,泛化和穩(wěn)定性更高,能夠減小背景色、印章、線條顏色的干擾;對表格圖像進行分析,能處理表格線斷裂,文字表格線粘連等常見問題,正確得到表格結(jié)構(gòu);對分割圖進行線條檢測時,通過按比例縮小圖像提高檢測速度,并保證大小與坐標(biāo)還原;通過交點關(guān)系產(chǎn)生單元格,排除了原始線條的凸凹瑕疵,使單元格更加美觀。