一種嵌套表格的提取方法及裝置、存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN202011564518.X | 申請日 | - |
公開(公告)號 | CN112668289A | 公開(公告)日 | 2021-04-16 |
申請公布號 | CN112668289A | 申請公布日 | 2021-04-16 |
分類號 | G06F40/18;G06F16/22 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 王春浩;程言超;周炬;馬成龍 | 申請(專利權)人 | 蘇州開心盒子軟件有限公司 |
代理機構 | 北京尚倫律師事務所 | 代理人 | 陳紅亮 |
地址 | 215123 江蘇省蘇州市蘇州工業(yè)園區(qū)星湖街328號創(chuàng)意產(chǎn)業(yè)園6-604 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請公開了一種嵌套表格的提取方法及裝置、存儲介質(zhì),所述方法包括:讀取第一類型文件中的數(shù)據(jù)內(nèi)容并進行解析,確定解析后的所述數(shù)據(jù)內(nèi)容中包含的線段坐標信息;以展示單元為基準,對線段進行分組;基于線段的坐標將相鄰或相接線段橫向或縱向距離小于相應閾值、相鄰線段相鄰端點間隔小于對應定閾值的線段進行合并;遍歷合并后的所有線段,確定線段是否相交,生成集合;遍歷集合內(nèi)線段,確定合并后的相交線段之間的交點,遍歷所有交點,確定構成矩形框的交點;以構成的矩形框面積大于設定閾值的交點為基準,生成表格;基于生成的表格,計算表格的包含關系,基于包含關系形成嵌套表格。本申請?zhí)嵘吮砀裉崛蚀_率,減輕了編輯工作。 |
