文檔解析方法與裝置

基本信息

申請?zhí)?/td> CN201810444475.8 申請日 -
公開(公告)號 CN108614898A 公開(公告)日 2021-06-25
申請公布號 CN108614898A 申請公布日 2021-06-25
分類號 G06F17/30 分類 計算;推算;計數;
發(fā)明人 鐘翰廷;韓警;吳金龍;王守崑 申請(專利權)人 愛因互動科技發(fā)展(北京)有限公司
代理機構 北京卓孚知識產權代理事務所(普通合伙) 代理人 劉光明;任宇
地址 100095 北京市海淀區(qū)北清路68號院24號樓D座4層017
法律狀態(tài) -

摘要

摘要 本公開提供一種文檔解析方法與裝置。在根據本公開的文檔解析方法(100)中,包括如下步驟:針對文檔進行內容解析,以檢測出文字行(S110);基于機器學習模型,對文字行進行文本整理(S120);基于機器學習模型,對整理后的文本進行文本分類(S130);基于文本分類的結果,對文檔內容進行結構化處理(S140)。根據本公開的文檔解析技術利用機器學習模型和自然語言處理技術,對初步的解析結果進行糾正,然后通過機器學習技術將解析出來的內容進行分類,提高最終的結構化的效率和準確率。