基于領域知識模版的表格結(jié)構(gòu)化提取方法
基本信息
申請?zhí)?/td> | CN201810289621.4 | 申請日 | - |
公開(公告)號 | CN110347982A | 公開(公告)日 | 2019-10-18 |
申請公布號 | CN110347982A | 申請公布日 | 2019-10-18 |
分類號 | G06F17/24;G06F17/27 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 王博遠;陳前力;淡強強;吳雪軍 | 申請(專利權)人 | 鼎復數(shù)據(jù)科技(北京)有限公司 |
代理機構(gòu) | 北京康思博達知識產(chǎn)權代理事務所(普通合伙) | 代理人 | 鼎復數(shù)據(jù)科技(北京)有限公司 |
地址 | 100020 北京市朝陽區(qū)北辰世紀中心A座1550 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于領域知識模版的表格結(jié)構(gòu)化提取方法,該方法中通過編輯多個領域知識模板,分別用以處理不同類型的待處理表格,在所述領域知識模版中設置有目標表格,即期望抽取處理得到的表格形式;該方法中依次讀取待處理表格信息,具體確定處理每個表格所用的領域知識模板;在領域知識模板中還記載有與目標表格相關聯(lián)的詞典,以使得能夠快速識別出待處理表格不同表述形式的內(nèi)容,使之與目標表格相對應;特別地,該領域知識模板是可以可視化編輯,操作者能夠?qū)崟r調(diào)整其中的目標表格結(jié)構(gòu)和詞典,逐步完善領域知識模板,逐步提高該方法的適應性和準確性。 |
