一種掃描試卷版面分析的樣本制作及識(shí)別方法

基本信息

申請(qǐng)?zhí)?/td> CN202011514989.X 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN112597878A 公開(kāi)(公告)日 2021-04-02
申請(qǐng)公布號(hào) CN112597878A 申請(qǐng)公布日 2021-04-02
分類(lèi)號(hào) G06K9/34(2006.01)I;G06K9/38(2006.01)I;G06K9/00(2006.01)I;G06T11/40(2006.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 呂達(dá);湯敏;陳家海;葉家鳴;吳波 申請(qǐng)(專(zhuān)利權(quán))人 安徽七天網(wǎng)絡(luò)科技有限公司
代理機(jī)構(gòu) 安徽申策知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 程艷梅
地址 230000安徽省合肥市新站區(qū)銅陵北路與潁河路交口新站總部經(jīng)濟(jì)大廈B樓1201室
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及人工智能ocr版面分析領(lǐng)域,且公開(kāi)了一種通過(guò)解析修改word的officexml自動(dòng)標(biāo)注word,然后轉(zhuǎn)成圖片通過(guò)圖像處理方法獲取坐標(biāo),將未標(biāo)注的word轉(zhuǎn)成圖片來(lái)仿造掃描試卷樣本。本發(fā)明使用了一種多分枝的DB分割算法用以檢測(cè)掃描試卷中的各個(gè)類(lèi)別結(jié)構(gòu)。其特征在于:包含以下幾個(gè)步驟,通過(guò)解析修改word的officexml標(biāo)注各個(gè)類(lèi)別得到標(biāo)注word,人工檢查后修改officexml恢復(fù)成未標(biāo)注的word,將標(biāo)注的word及對(duì)應(yīng)的未標(biāo)注word隨機(jī)轉(zhuǎn)成各樣大小的圖片并通過(guò)圖像處理方法法獲取標(biāo)注圖片相關(guān)結(jié)構(gòu)元素位置的坐標(biāo),通過(guò)訓(xùn)練多個(gè)分枝的DB分割算法訓(xùn)練出可以檢測(cè)出各個(gè)結(jié)構(gòu)類(lèi)別的版面分析算法模型。本發(fā)明解決了樣本難獲取及標(biāo)注的問(wèn)題,節(jié)省大量的人工成本,并且模型算法精度高速度快。??