基于OCR識(shí)別的單證數(shù)據(jù)提取方法、裝置、設(shè)備及介質(zhì)
基本信息
申請(qǐng)?zhí)?/td> | CN202011478079.0 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN112507909A | 公開(kāi)(公告)日 | 2021-03-16 |
申請(qǐng)公布號(hào) | CN112507909A | 申請(qǐng)公布日 | 2021-03-16 |
分類號(hào) | G06K9/00;G06K9/32;G06K9/72;G06F40/289 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 莊志強(qiáng);施光輝;吳思琪;馬澤未;李承影;夏永財(cái) | 申請(qǐng)(專利權(quán))人 | 信號(hào)旗智能科技(上海)有限公司 |
代理機(jī)構(gòu) | - | 代理人 | - |
地址 | 200120 上海市浦東新區(qū)中國(guó)(上海)自由貿(mào)易試驗(yàn)區(qū)納賢路800號(hào)1幢A座8樓A1-3室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及表單數(shù)據(jù)處理領(lǐng)域,公開(kāi)了一種基于OCR識(shí)別的單證數(shù)據(jù)提取方法、裝置、設(shè)備及介質(zhì),其方法包括:通過(guò)OCR識(shí)別程序處理單證文檔,生成包含若干字符塊及其字符坐標(biāo)信息的XML數(shù)據(jù),一個(gè)字符塊對(duì)應(yīng)一個(gè)字符坐標(biāo)信息;根據(jù)字符坐標(biāo)信息將處于同一行的字符塊組成字符組;通過(guò)預(yù)設(shè)的分詞算法從字符組提取關(guān)鍵詞,生成詞塊,詞塊包括若干字符塊;根據(jù)詞塊內(nèi)各個(gè)字符塊對(duì)應(yīng)的字符坐標(biāo)信息確定詞塊的詞塊坐標(biāo)信息;通過(guò)預(yù)設(shè)除錯(cuò)合并程序處理詞塊和詞塊坐標(biāo)信息,生成結(jié)構(gòu)化單證數(shù)據(jù)。本發(fā)明可以提高單證文檔的識(shí)別精度,減少識(shí)別錯(cuò)誤。 |
