基于OCR識(shí)別的單證數(shù)據(jù)提取方法、裝置、設(shè)備及介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN202011478079.0 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN112507909A 公開(kāi)(公告)日 2021-03-16
申請(qǐng)公布號(hào) CN112507909A 申請(qǐng)公布日 2021-03-16
分類號(hào) G06K9/00;G06K9/32;G06K9/72;G06F40/289 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 莊志強(qiáng);施光輝;吳思琪;馬澤未;李承影;夏永財(cái) 申請(qǐng)(專利權(quán))人 信號(hào)旗智能科技(上海)有限公司
代理機(jī)構(gòu) - 代理人 -
地址 200120 上海市浦東新區(qū)中國(guó)(上海)自由貿(mào)易試驗(yàn)區(qū)納賢路800號(hào)1幢A座8樓A1-3室
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及表單數(shù)據(jù)處理領(lǐng)域,公開(kāi)了一種基于OCR識(shí)別的單證數(shù)據(jù)提取方法、裝置、設(shè)備及介質(zhì),其方法包括:通過(guò)OCR識(shí)別程序處理單證文檔,生成包含若干字符塊及其字符坐標(biāo)信息的XML數(shù)據(jù),一個(gè)字符塊對(duì)應(yīng)一個(gè)字符坐標(biāo)信息;根據(jù)字符坐標(biāo)信息將處于同一行的字符塊組成字符組;通過(guò)預(yù)設(shè)的分詞算法從字符組提取關(guān)鍵詞,生成詞塊,詞塊包括若干字符塊;根據(jù)詞塊內(nèi)各個(gè)字符塊對(duì)應(yīng)的字符坐標(biāo)信息確定詞塊的詞塊坐標(biāo)信息;通過(guò)預(yù)設(shè)除錯(cuò)合并程序處理詞塊和詞塊坐標(biāo)信息,生成結(jié)構(gòu)化單證數(shù)據(jù)。本發(fā)明可以提高單證文檔的識(shí)別精度,減少識(shí)別錯(cuò)誤。