基于深度學(xué)習(xí)的OCR圖像文字識(shí)別與段落輸出方法
基本信息
申請(qǐng)?zhí)?/td> | CN202110884424.9 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN113435449A | 公開(kāi)(公告)日 | 2021-09-24 |
申請(qǐng)公布號(hào) | CN113435449A | 申請(qǐng)公布日 | 2021-09-24 |
分類(lèi)號(hào) | G06K9/32(2006.01)I;G06K9/46(2006.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 盧紅波 | 申請(qǐng)(專(zhuān)利權(quán))人 | 全知科技(杭州)有限責(zé)任公司 |
代理機(jī)構(gòu) | 杭州奇炬知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) | 代理人 | 賀心韜 |
地址 | 310000浙江省杭州市余杭區(qū)倉(cāng)前街道倉(cāng)興路1號(hào)2幢204B室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)了基于深度學(xué)習(xí)的OCR圖像文字識(shí)別與段落輸出方法,具體涉及OCR文字識(shí)別領(lǐng)域,具體操作步驟如下:S1、讀入圖像:將待識(shí)別的圖像上傳/導(dǎo)入,得到可編輯圖像;S2、圖像預(yù)處理:將步驟S1中得到的可編輯圖像進(jìn)行編輯,調(diào)整該圖像到指定大??;S3、加載CTPN預(yù)訓(xùn)練模型:加載CTPN模型,先通過(guò)VGG16提取圖像中的局部圖像特征,再使用BLSTM提取上下文特征,然后用全連接層和多預(yù)測(cè)分支得到坐標(biāo)值和概率值,最后合并字符為文本檢測(cè)框。本發(fā)明在深度學(xué)習(xí)檢測(cè)模型CTPN的基礎(chǔ)上,對(duì)復(fù)雜圖像進(jìn)行分欄分段識(shí)別;在復(fù)雜的多欄場(chǎng)景下對(duì)圖像中的文字進(jìn)行識(shí)別并段落輸出,根本上解決已有OCR識(shí)別中的結(jié)果雜糅問(wèn)題,大大提升結(jié)果的可讀性。 |
