一種基于深度學(xué)習(xí)優(yōu)化網(wǎng)絡(luò)的圖文識別方法及系統(tǒng)

基本信息

申請?zhí)?/td> CN202011178476.6 申請日 -
公開(公告)號 CN112348024A 公開(公告)日 2021-02-09
申請公布號 CN112348024A 申請公布日 2021-02-09
分類號 G06K9/34(2006.01)I; 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 戴亦斌 申請(專利權(quán))人 北京信工博特智能科技有限公司
代理機(jī)構(gòu) 天津市鼎和專利商標(biāo)代理有限公司 代理人 蒙建軍
地址 100089北京市海淀區(qū)長春橋路11號3號樓6層602-4
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于深度學(xué)習(xí)優(yōu)化網(wǎng)絡(luò)的圖文識別方法及系統(tǒng),屬于光學(xué)字符識別技術(shù)領(lǐng)域,其特征在于:至少包括如下步驟:步驟一:通過深度學(xué)習(xí)目標(biāo)檢測技術(shù),識別出單幀圖像中的物體;步驟二:通過摳圖模型和對齊模型,將所述物體摳出圖片,并對齊;步驟三:將所述圖片整塊進(jìn)行OCR識別;步驟四:將OCR識別得到的文字識別結(jié)果送入基于深度學(xué)習(xí)自然語言處理建立的NLP校正模型進(jìn)行校正,最終輸出文字識別結(jié)果。本發(fā)明借助深度學(xué)習(xí)目標(biāo)檢測技術(shù),通過建立不精確文本校正模型,能快速識別整塊文字的照片、視頻加工工藝,它能將整幅照片或整幀視頻中的整塊文字塊標(biāo)記出來,從而節(jié)省OCR處理的系統(tǒng)資源,大大提高文字識別效率。??