一種針對PDF文檔表格提取優(yōu)化方法及系統(tǒng)
基本信息
申請?zhí)?/td> | CN202010209797.1 | 申請日 | - |
公開(公告)號 | CN111340000A | 公開(公告)日 | 2020-06-26 |
申請公布號 | CN111340000A | 申請公布日 | 2020-06-26 |
分類號 | G06K9/00(2006.01)I;G06N3/04(2006.01)I | 分類 | - |
發(fā)明人 | 李舟軍;肖武魁;劉俊杰;陳小明;覃維;王博洋 | 申請(專利權(quán))人 | 深圳智能思創(chuàng)科技有限公司 |
代理機構(gòu) | 深圳市恒程創(chuàng)新知識產(chǎn)權(quán)代理有限公司 | 代理人 | 深圳智能思創(chuàng)科技有限公司 |
地址 | 518000廣東省深圳市南山區(qū)南頭街道蓮城社區(qū)深南大道10128號南山軟件園A2108-2107 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開一種針對PDF文檔表格提取優(yōu)化方法及系統(tǒng),該系統(tǒng)包括:表格檢測模塊、表格角檢測模塊、表格角優(yōu)化模塊和表格邊界優(yōu)化。表格檢測模塊識別和定位表格;表格角檢測模塊識別和定位表格角;表格角優(yōu)化模塊用于表格角分組和過濾劣質(zhì)表格角;表格邊界優(yōu)化模塊用于融合表格檢測和表格角優(yōu)化結(jié)果對表格定位結(jié)果進行優(yōu)化。該方法包括步驟S1、表格檢測;步驟S2、表格角點檢測;步驟S3、表格角優(yōu)化包括對表格角點分組和表格角點過濾;步驟S4、表格邊界優(yōu)化。本發(fā)明實現(xiàn)了對于PDF文檔中表格數(shù)據(jù)的高質(zhì)量自動化提取,為自動化信息提取提供了數(shù)據(jù)支持,從而節(jié)約人力物力、提高工作效率。?? |
