一種基于機(jī)器學(xué)習(xí)的非固定格式單據(jù)信息的抽取方法

基本信息

申請?zhí)?/td> CN202110119111.4 申請日 -
公開(公告)號 CN112818824A 公開(公告)日 2021-05-18
申請公布號 CN112818824A 申請公布日 2021-05-18
分類號 G06K9/00;G06K9/20;G06K9/62 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 甘超 申請(專利權(quán))人 金科覽智科技(北京)有限公司
代理機(jī)構(gòu) - 代理人 -
地址 100037 北京市西城區(qū)阜成門外大街31號4層409C
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種基于機(jī)器學(xué)習(xí)的非固定格式單據(jù)信息抽取方法,包括以下步驟:S1:將單據(jù)圖像轉(zhuǎn)換為html文本;S2:進(jìn)行文字塊span特征工程將文本轉(zhuǎn)化成文字塊span特征向量;S3:進(jìn)行信息抽取模型訓(xùn)練輸出文字塊span分類標(biāo)簽;S4:對文字塊span分類標(biāo)簽進(jìn)行數(shù)據(jù)處理,生成專有模型輸出要素值。通過對文字塊自身以及周圍局部信息進(jìn)行的要素抽取,能夠解決傳統(tǒng)NER技術(shù)無法融入文檔布局,字體大小及位置等特征信息的問題,有效提高單據(jù)信息抽取結(jié)果的精準(zhǔn)度,極大提高單據(jù)的審核效率。