基于OCR技術(shù)的文本糾正方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì)
基本信息
申請(qǐng)?zhí)?/td> | CN202111089125.2 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN113850251A | 公開(公告)日 | 2021-12-28 |
申請(qǐng)公布號(hào) | CN113850251A | 申請(qǐng)公布日 | 2021-12-28 |
分類號(hào) | G06K9/20(2006.01)I;G06K9/32(2006.01)I;G06F16/903(2019.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 徐波 | 申請(qǐng)(專利權(quán))人 | 廣州多益網(wǎng)絡(luò)股份有限公司 |
代理機(jī)構(gòu) | 廣州駿思知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 潘桂生 |
地址 | 510530廣東省廣州市蘿崗區(qū)伴河路90號(hào)自編一棟305房 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及文本糾正技術(shù)領(lǐng)域,特別涉及一種基于OCR技術(shù)的文本糾正方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì),所述方法包括:獲取基于OCR技術(shù)識(shí)別圖片得到的第一文本數(shù)據(jù)、所述第一文本數(shù)據(jù)中每個(gè)字符的置信度以及第一文本數(shù)據(jù)中每個(gè)字符的前十個(gè)字符組成的候選字符集,根據(jù)所述第一文本數(shù)據(jù)以及預(yù)設(shè)的文本預(yù)糾正深度學(xué)習(xí)模型,獲取第二文本數(shù)據(jù);對(duì)所述預(yù)糾正后的字符串序列中置信度高于預(yù)設(shè)的置信度閾值的字符進(jìn)行剔除,根據(jù)剔除后的所述預(yù)糾正后的字符串序列,對(duì)所述第一文本數(shù)據(jù)的相應(yīng)字符進(jìn)行替換,獲取第三文本數(shù)據(jù);利用預(yù)設(shè)的語言模型對(duì)所述第一文本數(shù)據(jù)和所述第三文本數(shù)據(jù)進(jìn)行流暢度評(píng)價(jià),將流暢度較高的文本數(shù)據(jù)作為識(shí)別結(jié)果輸出,獲取糾正文本數(shù)據(jù)。 |
