標注數(shù)據(jù)生成方法、設備及計算機可讀存儲介質

基本信息

申請?zhí)?/td> CN201810609646.8 申請日 -
公開(公告)號 CN108960409B 公開(公告)日 2021-08-03
申請公布號 CN108960409B 申請公布日 2021-08-03
分類號 G06N3/04(2006.01)I;G06K9/62(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 鄭斌;徐暉 申請(專利權)人 南昌黑鯊科技有限公司
代理機構 上海雍灝知識產權代理事務所(普通合伙) 代理人 沈汶波
地址 330008江西省南昌市青山湖區(qū)南昌經濟技術開發(fā)區(qū)蛟橋鎮(zhèn)辦公樓319室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種標注數(shù)據(jù)生成方法、設備及計算機可讀存儲介質。標注數(shù)據(jù)生成方法,包括以下步驟:S100:獲取數(shù)據(jù)全集及包含于數(shù)據(jù)全集內已被標注的標注數(shù)據(jù)集;S200:分析標注數(shù)據(jù)集的數(shù)據(jù)特征,并根據(jù)數(shù)據(jù)特征制造符合數(shù)據(jù)特征的偽數(shù)據(jù)集;S300:基于GAN神經網絡對偽數(shù)據(jù)集擴充,形成擴充數(shù)據(jù)集;S400:識別對擴充數(shù)據(jù)集內的數(shù)據(jù)是否需要標注,篩選被標注的數(shù)據(jù)以形成訓練數(shù)據(jù)集;S500:對訓練數(shù)據(jù)集進行神經網絡訓練形成訓練模型;S600:基于訓練模型對數(shù)據(jù)全集內處標注數(shù)據(jù)集外的數(shù)據(jù)清洗,標注符合訓練模型的數(shù)據(jù)并歸入標注數(shù)據(jù)集內,從而,以少量數(shù)據(jù)作為基礎,可快速高效地生成與樣本數(shù)據(jù)匹配度高,且隨機性強的訓練數(shù)集,從而擴大標注數(shù)據(jù)的數(shù)據(jù)量。