訓(xùn)練數(shù)據(jù)生成方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN202011378838.6 申請(qǐng)日 -
公開(公告)號(hào) CN112200158B 公開(公告)日 2021-05-25
申請(qǐng)公布號(hào) CN112200158B 申請(qǐng)公布日 2021-05-25
分類號(hào) G06F40/103(2020.01)I;G06K9/00(2006.01)I;G06K9/62(2006.01)I 分類 -
發(fā)明人 豆浩斌;陳博;朱風(fēng)云 申請(qǐng)(專利權(quán))人 北京靈伴即時(shí)智能科技有限公司
代理機(jī)構(gòu) - 代理人 -
地址 100083北京市海淀區(qū)王莊路1號(hào)院2號(hào)樓9層10-A1-3
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種訓(xùn)練數(shù)據(jù)生成系統(tǒng),包括文本生成器、版式生成器、文本渲染器、圖表渲染器、噪聲添加器、形變添加器、標(biāo)注生成器、文檔圖像樣本庫;文本渲染器選取文本行并將其渲染至文本行位置區(qū)域;圖表渲染器將圖表元素渲染至圖表元素的位置區(qū)域;標(biāo)注生成器生成版式分析標(biāo)注信息、文本定位及識(shí)別標(biāo)注信息。此外,本發(fā)明還公開了一種訓(xùn)練數(shù)據(jù)生成方法。本發(fā)明考慮了文檔圖像產(chǎn)生過程中的各種因素,并將因素模塊化、參數(shù)化、可配置化,能夠自動(dòng)生成應(yīng)用于文檔圖像分析與識(shí)別系統(tǒng)的訓(xùn)練樣本,合成得到的文檔圖像形式豐富、效果逼真,且整體靈活可調(diào)、擴(kuò)展性強(qiáng),還可以自動(dòng)完成文檔圖像各級(jí)信息的標(biāo)注,提供完整標(biāo)注的訓(xùn)練數(shù)據(jù)。??