一種基于票據(jù)內(nèi)容和位置信息的文本抽取方法

基本信息

申請?zhí)?/td> CN202110119105.9 申請日 -
公開(公告)號 CN112818823A 公開(公告)日 2021-05-18
申請公布號 CN112818823A 申請公布日 2021-05-18
分類號 G06K9/00;G06K9/20;G06K9/32;G06K9/34;G06K9/62;G06N3/04;G06N3/08 分類 計算;推算;計數(shù);
發(fā)明人 張書源 申請(專利權(quán))人 金科覽智科技(北京)有限公司
代理機構(gòu) - 代理人 -
地址 100037 北京市西城區(qū)阜成門外大街31號4層409C
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種基于票據(jù)內(nèi)容和位置信息的文本抽取方法,包括以下步驟:S1:圖像校正;S2:進行文字檢測,檢測出文字塊;S3:在檢測好的文字塊上進行文字識別;S4:對文字塊進行分類,得到文字塊的文字信息和坐標信息;S5:將文字塊的文字信息和坐標信息送入神經(jīng)網(wǎng)絡(luò)中,輸出每個文字塊的標簽;S6:對相同標簽類型的文字塊進行匹配鏈接,輸出抽取結(jié)果。本發(fā)明通過引入了位置信息的textCNN+blocklink的方法,解決了在二維票據(jù)中實體抽取的問題,并通引入的位置信息有效提高了文本抽取的準確率。