PDF文檔中表格解析的方法、系統(tǒng)、存儲介質(zhì)及電子設(shè)備
基本信息
申請?zhí)?/td> | CN201910560269.8 | 申請日 | - |
公開(公告)號 | CN110472208A | 公開(公告)日 | 2019-11-19 |
申請公布號 | CN110472208A | 申請公布日 | 2019-11-19 |
分類號 | G06F17/24(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 陸惠國 | 申請(專利權(quán))人 | 上海恒生聚源數(shù)據(jù)服務(wù)有限公司 |
代理機構(gòu) | 杭州華鼎知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 上海恒生聚源數(shù)據(jù)服務(wù)有限公司 |
地址 | 200127 上海市浦東新區(qū)峨山路91弄61號7樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及PDF文檔中表格解析的方法、系統(tǒng)、存儲介質(zhì)及電子設(shè)備,S1:對PDF文檔中的繪圖指令進(jìn)行解析,獲得線段;S2:根據(jù)線段解析出表格及表格對應(yīng)的位置,根據(jù)表格及表格對應(yīng)的位置獲取表格數(shù)據(jù);S3:對表格數(shù)據(jù)進(jìn)行校驗,若表格格式錯誤,則進(jìn)入步驟S4,若表格格式正確,則提取表格數(shù)據(jù)并進(jìn)入步驟S5;S4:通過圖像邊緣檢測算法對PDF文檔進(jìn)行解析,獲得線段,然后進(jìn)入步驟S2;S5:通過基于深度學(xué)習(xí)的物體探測算法來探測PDF文檔中無表格線的表格存在的區(qū)域,并在判定成功的區(qū)域中的文本塊的排列位置,添加表格線得到表格數(shù)據(jù),提取表格數(shù)據(jù)。通過使用本發(fā)明,大大提高了采集表格數(shù)據(jù)的效率,提高了準(zhǔn)確性。 |
