PDF文檔中表格解析的方法、系統(tǒng)、存儲介質(zhì)及電子設(shè)備

基本信息

申請?zhí)?/td> CN201910560269.8 申請日 -
公開(公告)號 CN110472208A 公開(公告)日 2019-11-19
申請公布號 CN110472208A 申請公布日 2019-11-19
分類號 G06F17/24(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 陸惠國 申請(專利權(quán))人 上海恒生聚源數(shù)據(jù)服務(wù)有限公司
代理機構(gòu) 杭州華鼎知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 上海恒生聚源數(shù)據(jù)服務(wù)有限公司
地址 200127 上海市浦東新區(qū)峨山路91弄61號7樓
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及PDF文檔中表格解析的方法、系統(tǒng)、存儲介質(zhì)及電子設(shè)備,S1:對PDF文檔中的繪圖指令進(jìn)行解析,獲得線段;S2:根據(jù)線段解析出表格及表格對應(yīng)的位置,根據(jù)表格及表格對應(yīng)的位置獲取表格數(shù)據(jù);S3:對表格數(shù)據(jù)進(jìn)行校驗,若表格格式錯誤,則進(jìn)入步驟S4,若表格格式正確,則提取表格數(shù)據(jù)并進(jìn)入步驟S5;S4:通過圖像邊緣檢測算法對PDF文檔進(jìn)行解析,獲得線段,然后進(jìn)入步驟S2;S5:通過基于深度學(xué)習(xí)的物體探測算法來探測PDF文檔中無表格線的表格存在的區(qū)域,并在判定成功的區(qū)域中的文本塊的排列位置,添加表格線得到表格數(shù)據(jù),提取表格數(shù)據(jù)。通過使用本發(fā)明,大大提高了采集表格數(shù)據(jù)的效率,提高了準(zhǔn)確性。