基于OCR技術(shù)的文本糾正方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN202111089125.2 申請(qǐng)日 -
公開(公告)號(hào) CN113850251A 公開(公告)日 2021-12-28
申請(qǐng)公布號(hào) CN113850251A 申請(qǐng)公布日 2021-12-28
分類號(hào) G06K9/20(2006.01)I;G06K9/32(2006.01)I;G06F16/903(2019.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 徐波 申請(qǐng)(專利權(quán))人 廣州多益網(wǎng)絡(luò)股份有限公司
代理機(jī)構(gòu) 廣州駿思知識(shí)產(chǎn)權(quán)代理有限公司 代理人 潘桂生
地址 510530廣東省廣州市蘿崗區(qū)伴河路90號(hào)自編一棟305房
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及文本糾正技術(shù)領(lǐng)域,特別涉及一種基于OCR技術(shù)的文本糾正方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì),所述方法包括:獲取基于OCR技術(shù)識(shí)別圖片得到的第一文本數(shù)據(jù)、所述第一文本數(shù)據(jù)中每個(gè)字符的置信度以及第一文本數(shù)據(jù)中每個(gè)字符的前十個(gè)字符組成的候選字符集,根據(jù)所述第一文本數(shù)據(jù)以及預(yù)設(shè)的文本預(yù)糾正深度學(xué)習(xí)模型,獲取第二文本數(shù)據(jù);對(duì)所述預(yù)糾正后的字符串序列中置信度高于預(yù)設(shè)的置信度閾值的字符進(jìn)行剔除,根據(jù)剔除后的所述預(yù)糾正后的字符串序列,對(duì)所述第一文本數(shù)據(jù)的相應(yīng)字符進(jìn)行替換,獲取第三文本數(shù)據(jù);利用預(yù)設(shè)的語言模型對(duì)所述第一文本數(shù)據(jù)和所述第三文本數(shù)據(jù)進(jìn)行流暢度評(píng)價(jià),將流暢度較高的文本數(shù)據(jù)作為識(shí)別結(jié)果輸出,獲取糾正文本數(shù)據(jù)。