基于深度學(xué)習(xí)的OCR圖像文字識(shí)別與段落輸出方法

基本信息

申請(qǐng)?zhí)?/td> CN202110884424.9 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN113435449A 公開(kāi)(公告)日 2021-09-24
申請(qǐng)公布號(hào) CN113435449A 申請(qǐng)公布日 2021-09-24
分類(lèi)號(hào) G06K9/32(2006.01)I;G06K9/46(2006.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 盧紅波 申請(qǐng)(專(zhuān)利權(quán))人 全知科技(杭州)有限責(zé)任公司
代理機(jī)構(gòu) 杭州奇炬知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 代理人 賀心韜
地址 310000浙江省杭州市余杭區(qū)倉(cāng)前街道倉(cāng)興路1號(hào)2幢204B室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了基于深度學(xué)習(xí)的OCR圖像文字識(shí)別與段落輸出方法,具體涉及OCR文字識(shí)別領(lǐng)域,具體操作步驟如下:S1、讀入圖像:將待識(shí)別的圖像上傳/導(dǎo)入,得到可編輯圖像;S2、圖像預(yù)處理:將步驟S1中得到的可編輯圖像進(jìn)行編輯,調(diào)整該圖像到指定大??;S3、加載CTPN預(yù)訓(xùn)練模型:加載CTPN模型,先通過(guò)VGG16提取圖像中的局部圖像特征,再使用BLSTM提取上下文特征,然后用全連接層和多預(yù)測(cè)分支得到坐標(biāo)值和概率值,最后合并字符為文本檢測(cè)框。本發(fā)明在深度學(xué)習(xí)檢測(cè)模型CTPN的基礎(chǔ)上,對(duì)復(fù)雜圖像進(jìn)行分欄分段識(shí)別;在復(fù)雜的多欄場(chǎng)景下對(duì)圖像中的文字進(jìn)行識(shí)別并段落輸出,根本上解決已有OCR識(shí)別中的結(jié)果雜糅問(wèn)題,大大提升結(jié)果的可讀性。