標(biāo)注數(shù)據(jù)生成方法、設(shè)備及計算機可讀存儲介質(zhì)

基本信息

申請?zhí)?/td> CN201810609646.8 申請日 -
公開(公告)號 CN108960409B 公開(公告)日 2021-08-03
申請公布號 CN108960409B 申請公布日 2021-08-03
分類號 G06N3/04(2006.01)I;G06K9/62(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 鄭斌;徐暉 申請(專利權(quán))人 南昌黑鯊科技有限公司
代理機構(gòu) 上海雍灝知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 沈汶波
地址 330008江西省南昌市青山湖區(qū)南昌經(jīng)濟技術(shù)開發(fā)區(qū)蛟橋鎮(zhèn)辦公樓319室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種標(biāo)注數(shù)據(jù)生成方法、設(shè)備及計算機可讀存儲介質(zhì)。標(biāo)注數(shù)據(jù)生成方法,包括以下步驟:S100:獲取數(shù)據(jù)全集及包含于數(shù)據(jù)全集內(nèi)已被標(biāo)注的標(biāo)注數(shù)據(jù)集;S200:分析標(biāo)注數(shù)據(jù)集的數(shù)據(jù)特征,并根據(jù)數(shù)據(jù)特征制造符合數(shù)據(jù)特征的偽數(shù)據(jù)集;S300:基于GAN神經(jīng)網(wǎng)絡(luò)對偽數(shù)據(jù)集擴充,形成擴充數(shù)據(jù)集;S400:識別對擴充數(shù)據(jù)集內(nèi)的數(shù)據(jù)是否需要標(biāo)注,篩選被標(biāo)注的數(shù)據(jù)以形成訓(xùn)練數(shù)據(jù)集;S500:對訓(xùn)練數(shù)據(jù)集進行神經(jīng)網(wǎng)絡(luò)訓(xùn)練形成訓(xùn)練模型;S600:基于訓(xùn)練模型對數(shù)據(jù)全集內(nèi)處標(biāo)注數(shù)據(jù)集外的數(shù)據(jù)清洗,標(biāo)注符合訓(xùn)練模型的數(shù)據(jù)并歸入標(biāo)注數(shù)據(jù)集內(nèi),從而,以少量數(shù)據(jù)作為基礎(chǔ),可快速高效地生成與樣本數(shù)據(jù)匹配度高,且隨機性強的訓(xùn)練數(shù)集,從而擴大標(biāo)注數(shù)據(jù)的數(shù)據(jù)量。