基于領域知識模版的表格結(jié)構(gòu)化提取方法

基本信息

申請?zhí)?/td> CN201810289621.4 申請日 -
公開(公告)號 CN110347982A 公開(公告)日 2019-10-18
申請公布號 CN110347982A 申請公布日 2019-10-18
分類號 G06F17/24;G06F17/27 分類 計算;推算;計數(shù);
發(fā)明人 王博遠;陳前力;淡強強;吳雪軍 申請(專利權)人 鼎復數(shù)據(jù)科技(北京)有限公司
代理機構(gòu) 北京康思博達知識產(chǎn)權代理事務所(普通合伙) 代理人 鼎復數(shù)據(jù)科技(北京)有限公司
地址 100020 北京市朝陽區(qū)北辰世紀中心A座1550
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于領域知識模版的表格結(jié)構(gòu)化提取方法,該方法中通過編輯多個領域知識模板,分別用以處理不同類型的待處理表格,在所述領域知識模版中設置有目標表格,即期望抽取處理得到的表格形式;該方法中依次讀取待處理表格信息,具體確定處理每個表格所用的領域知識模板;在領域知識模板中還記載有與目標表格相關聯(lián)的詞典,以使得能夠快速識別出待處理表格不同表述形式的內(nèi)容,使之與目標表格相對應;特別地,該領域知識模板是可以可視化編輯,操作者能夠?qū)崟r調(diào)整其中的目標表格結(jié)構(gòu)和詞典,逐步完善領域知識模板,逐步提高該方法的適應性和準確性。