標注數(shù)據(jù)生成方法、設備及計算機可讀存儲介質
基本信息
申請?zhí)?/td> | CN201810609646.8 | 申請日 | - |
公開(公告)號 | CN108960409B | 公開(公告)日 | 2021-08-03 |
申請公布號 | CN108960409B | 申請公布日 | 2021-08-03 |
分類號 | G06N3/04(2006.01)I;G06K9/62(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 鄭斌;徐暉 | 申請(專利權)人 | 南昌黑鯊科技有限公司 |
代理機構 | 上海雍灝知識產權代理事務所(普通合伙) | 代理人 | 沈汶波 |
地址 | 330008江西省南昌市青山湖區(qū)南昌經濟技術開發(fā)區(qū)蛟橋鎮(zhèn)辦公樓319室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種標注數(shù)據(jù)生成方法、設備及計算機可讀存儲介質。標注數(shù)據(jù)生成方法,包括以下步驟:S100:獲取數(shù)據(jù)全集及包含于數(shù)據(jù)全集內已被標注的標注數(shù)據(jù)集;S200:分析標注數(shù)據(jù)集的數(shù)據(jù)特征,并根據(jù)數(shù)據(jù)特征制造符合數(shù)據(jù)特征的偽數(shù)據(jù)集;S300:基于GAN神經網絡對偽數(shù)據(jù)集擴充,形成擴充數(shù)據(jù)集;S400:識別對擴充數(shù)據(jù)集內的數(shù)據(jù)是否需要標注,篩選被標注的數(shù)據(jù)以形成訓練數(shù)據(jù)集;S500:對訓練數(shù)據(jù)集進行神經網絡訓練形成訓練模型;S600:基于訓練模型對數(shù)據(jù)全集內處標注數(shù)據(jù)集外的數(shù)據(jù)清洗,標注符合訓練模型的數(shù)據(jù)并歸入標注數(shù)據(jù)集內,從而,以少量數(shù)據(jù)作為基礎,可快速高效地生成與樣本數(shù)據(jù)匹配度高,且隨機性強的訓練數(shù)集,從而擴大標注數(shù)據(jù)的數(shù)據(jù)量。 |
