一種用于數(shù)學(xué)試卷圖像識別的樣本自動(dòng)生成方法
基本信息
申請?zhí)?/td> | CN202010708248.9 | 申請日 | - |
公開(公告)號 | CN111627088A | 公開(公告)日 | 2020-09-04 |
申請公布號 | CN111627088A | 申請公布日 | 2020-09-04 |
分類號 | G06T11/60(2006.01)I;G06F40/166(2020.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 湯敏;李哲;陳家海;葉家鳴;吳波 | 申請(專利權(quán))人 | 安徽七天網(wǎng)絡(luò)科技有限公司 |
代理機(jī)構(gòu) | 北京力量專利代理事務(wù)所(特殊普通合伙) | 代理人 | 安徽七天教育科技有限公司 |
地址 | 230012安徽省合肥市新站區(qū)銅陵北路與潁河路交口新站總部經(jīng)濟(jì)大廈B樓1201室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及自然語言處理和圖像處理領(lǐng)域,具體公開了一種用于數(shù)學(xué)試卷圖像識別的樣本自動(dòng)生成方法,針對用深度學(xué)習(xí)技術(shù)進(jìn)行OCR數(shù)學(xué)試題識別所需訓(xùn)練數(shù)據(jù)量大、數(shù)據(jù)難以獲取,人工標(biāo)注方法成本昂貴,任務(wù)具體精細(xì)、不易泛化遷移、可實(shí)操性差、周期漫長等困難,提出了一種以word試卷(或類似可解析類型文檔)作為輸入語料,通過3種方法并行處理解析文檔針對性地截取不同樣式的文本樣本,然后以復(fù)合方式和簡單方式分流畫圖,自動(dòng)生成包含漢字、英文、數(shù)字和公式等多種樣式混合的數(shù)學(xué)試題圖片樣本。?? |
