一種表格結(jié)構(gòu)提取方法
基本信息
申請?zhí)?/td> | CN202010129664.3 | 申請日 | - |
公開(公告)號 | CN111368695A | 公開(公告)日 | 2020-07-03 |
申請公布號 | CN111368695A | 申請公布日 | 2020-07-03 |
分類號 | G06K9/00;G06K9/34;G06K9/46;G06N3/04 | 分類 | - |
發(fā)明人 | 汪雨;郭彥儒;王威 | 申請(專利權(quán))人 | 上海匯航捷訊網(wǎng)絡(luò)科技有限公司 |
代理機構(gòu) | 北京同恒源知識產(chǎn)權(quán)代理有限公司 | 代理人 | 上海匯航捷訊網(wǎng)絡(luò)科技有限公司 |
地址 | 200120 上海市浦東新區(qū)(上海)自由貿(mào)易試驗區(qū)民生路1403號1112室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種表格結(jié)構(gòu)提取方法,屬于文檔識別領(lǐng)域。該方法包括:S1:數(shù)據(jù)轉(zhuǎn)換;S2:圖片預(yù)處理及直線分割;S3:直線檢測及預(yù)處理;S4:水平線與豎直線判斷;S5:查找交點;S6:斷線的續(xù)連;S7:獲取單元格。本發(fā)明采用深度網(wǎng)絡(luò)分割圖像,泛化和穩(wěn)定性更高,能夠減小背景色、印章、線條顏色的干擾;對表格圖像進行分析,能處理表格線斷裂,文字表格線粘連等常見問題,正確得到表格結(jié)構(gòu);對分割圖進行線條檢測時,通過按比例縮小圖像提高檢測速度,并保證大小與坐標(biāo)還原;通過交點關(guān)系產(chǎn)生單元格,排除了原始線條的凸凹瑕疵,使單元格更加美觀。 |
