抽取表單文檔中信息的方法、電子設備和計算機可讀介質

基本信息

申請?zhí)?/td> CN202110203157.4 申請日 -
公開(公告)號 CN112560504B 公開(公告)日 2021-06-11
申請公布號 CN112560504B 申請公布日 2021-06-11
分類號 G06F40/30 分類 計算;推算;計數;
發(fā)明人 吳勇民 申請(專利權)人 北京庖丁科技有限公司
代理機構 北京衛(wèi)智暢科專利代理事務所(普通合伙) 代理人 陳佳
地址 100091 北京市海淀區(qū)廂黃旗2號樓2層X06-205室
法律狀態(tài) -

摘要

摘要 本公開的實施例公開了抽取表單文檔中信息的方法、電子設備和計算機可讀介質。該方法的一具體實施方式包括:獲取表單文檔和預先確定的鍵值;基于預先確定的鍵值,生成鍵值語義序列;將表單文檔和鍵值語義序列輸入預先確定的信息生成模型,以得到目標信息序列和目標觸發(fā)詞序列;將目標信息序列和目標觸發(fā)詞序列推送至具有顯示功能的目標設備,以及控制目標設備顯示目標信息序列。這種方法將鍵值表示為鍵值語義序列,能夠顯式表示該鍵值的語義信息,從而可以直接根據鍵值語義序列得到表單文檔中待抽取的目標信息序列的語義信息。引入目標觸發(fā)詞序列,能夠解釋鍵值語義序列,同時指示出目標信息序列在表單文檔中的位置,提升了可抽取的目標信息序列的準確度,方便用戶抽取表單文檔中的關鍵信息。