一種基于票據(jù)內(nèi)容和位置信息的文本抽取方法
基本信息
申請?zhí)?/td> | CN202110119105.9 | 申請日 | - |
公開(公告)號 | CN112818823A | 公開(公告)日 | 2021-05-18 |
申請公布號 | CN112818823A | 申請公布日 | 2021-05-18 |
分類號 | G06K9/00;G06K9/20;G06K9/32;G06K9/34;G06K9/62;G06N3/04;G06N3/08 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 張書源 | 申請(專利權(quán))人 | 金科覽智科技(北京)有限公司 |
代理機構(gòu) | - | 代理人 | - |
地址 | 100037 北京市西城區(qū)阜成門外大街31號4層409C | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種基于票據(jù)內(nèi)容和位置信息的文本抽取方法,包括以下步驟:S1:圖像校正;S2:進行文字檢測,檢測出文字塊;S3:在檢測好的文字塊上進行文字識別;S4:對文字塊進行分類,得到文字塊的文字信息和坐標信息;S5:將文字塊的文字信息和坐標信息送入神經(jīng)網(wǎng)絡(luò)中,輸出每個文字塊的標簽;S6:對相同標簽類型的文字塊進行匹配鏈接,輸出抽取結(jié)果。本發(fā)明通過引入了位置信息的textCNN+blocklink的方法,解決了在二維票據(jù)中實體抽取的問題,并通引入的位置信息有效提高了文本抽取的準確率。 |
