一種基于機(jī)器學(xué)習(xí)的非固定格式單據(jù)信息的抽取方法
基本信息
申請?zhí)?/td> | CN202110119111.4 | 申請日 | - |
公開(公告)號 | CN112818824A | 公開(公告)日 | 2021-05-18 |
申請公布號 | CN112818824A | 申請公布日 | 2021-05-18 |
分類號 | G06K9/00;G06K9/20;G06K9/62 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 甘超 | 申請(專利權(quán))人 | 金科覽智科技(北京)有限公司 |
代理機(jī)構(gòu) | - | 代理人 | - |
地址 | 100037 北京市西城區(qū)阜成門外大街31號4層409C | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種基于機(jī)器學(xué)習(xí)的非固定格式單據(jù)信息抽取方法,包括以下步驟:S1:將單據(jù)圖像轉(zhuǎn)換為html文本;S2:進(jìn)行文字塊span特征工程將文本轉(zhuǎn)化成文字塊span特征向量;S3:進(jìn)行信息抽取模型訓(xùn)練輸出文字塊span分類標(biāo)簽;S4:對文字塊span分類標(biāo)簽進(jìn)行數(shù)據(jù)處理,生成專有模型輸出要素值。通過對文字塊自身以及周圍局部信息進(jìn)行的要素抽取,能夠解決傳統(tǒng)NER技術(shù)無法融入文檔布局,字體大小及位置等特征信息的問題,有效提高單據(jù)信息抽取結(jié)果的精準(zhǔn)度,極大提高單據(jù)的審核效率。 |
