一種用于數(shù)學(xué)試卷圖像識別的樣本自動(dòng)生成方法

基本信息

申請?zhí)?/td> CN202010708248.9 申請日 -
公開(公告)號 CN111627088A 公開(公告)日 2020-09-04
申請公布號 CN111627088A 申請公布日 2020-09-04
分類號 G06T11/60(2006.01)I;G06F40/166(2020.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 湯敏;李哲;陳家海;葉家鳴;吳波 申請(專利權(quán))人 安徽七天網(wǎng)絡(luò)科技有限公司
代理機(jī)構(gòu) 北京力量專利代理事務(wù)所(特殊普通合伙) 代理人 安徽七天教育科技有限公司
地址 230012安徽省合肥市新站區(qū)銅陵北路與潁河路交口新站總部經(jīng)濟(jì)大廈B樓1201室
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及自然語言處理和圖像處理領(lǐng)域,具體公開了一種用于數(shù)學(xué)試卷圖像識別的樣本自動(dòng)生成方法,針對用深度學(xué)習(xí)技術(shù)進(jìn)行OCR數(shù)學(xué)試題識別所需訓(xùn)練數(shù)據(jù)量大、數(shù)據(jù)難以獲取,人工標(biāo)注方法成本昂貴,任務(wù)具體精細(xì)、不易泛化遷移、可實(shí)操性差、周期漫長等困難,提出了一種以word試卷(或類似可解析類型文檔)作為輸入語料,通過3種方法并行處理解析文檔針對性地截取不同樣式的文本樣本,然后以復(fù)合方式和簡單方式分流畫圖,自動(dòng)生成包含漢字、英文、數(shù)字和公式等多種樣式混合的數(shù)學(xué)試題圖片樣本。??