一種基于深度學(xué)習(xí)的自由格式文檔識(shí)別方法
基本信息
申請(qǐng)?zhí)?/td> | CN202011168354.9 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN112348022A | 公開(kāi)(公告)日 | 2021-02-09 |
申請(qǐng)公布號(hào) | CN112348022A | 申請(qǐng)公布日 | 2021-02-09 |
分類(lèi)號(hào) | G06K9/34(2006.01)I; | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 王文鋒;傅啟予;韓光祖;秦澤文;鄧梁;朱志童 | 申請(qǐng)(專(zhuān)利權(quán))人 | 富邦華一銀行有限公司 |
代理機(jī)構(gòu) | 上海翰信知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 張維東 |
地址 | 200120上海市浦東新區(qū)自由貿(mào)易試驗(yàn)區(qū)世紀(jì)大道1168號(hào)A座101室、18樓、19樓及20樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種基于深度學(xué)習(xí)的自由格式文檔識(shí)別方法,包括以下步驟:定義模板,所述模板中包含多個(gè)矩形碎片的坐標(biāo)位置;獲取待識(shí)別文檔;OCR引擎全文識(shí)別,以判斷待識(shí)別文檔所屬模板;調(diào)用模板中所有矩形碎片的坐標(biāo)位置,采用YOLO目標(biāo)檢測(cè)模型將模板中所有矩形碎片及其坐標(biāo)位置對(duì)應(yīng)在待識(shí)別文檔中;根據(jù)矩形碎片及其坐標(biāo)位置切割待識(shí)別文檔,形成多個(gè)碎片文件;將多個(gè)碎片文件存入數(shù)據(jù)庫(kù),并將多個(gè)碎片文件傳入消息隊(duì)列中;OCR引擎繼續(xù)識(shí)別消息隊(duì)列中的碎片文件,得到識(shí)別結(jié)果;返回碎片文件和識(shí)別結(jié)果到數(shù)據(jù)庫(kù);完成識(shí)別。本發(fā)明通過(guò)兩次采用OCR引擎進(jìn)行識(shí)別,提高了識(shí)別的準(zhǔn)確率;還通過(guò)提前定義模板及矩形碎片等,從而明確被識(shí)別內(nèi)容的作用和意義。?? |
