一種數(shù)據(jù)集均衡方法、裝置及計算機可讀存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN202111342212.4 | 申請日 | - |
公開(公告)號 | CN114036145A | 公開(公告)日 | 2022-02-11 |
申請公布號 | CN114036145A | 申請公布日 | 2022-02-11 |
分類號 | G06F16/215(2019.01)I;G06F16/2455(2019.01)I;G06K9/62(2022.01)I;G06Q40/02(2012.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 顧凌云;周軒;王存?zhèn)?/td> | 申請(專利權(quán))人 | 上海冰鑒信息科技有限公司 |
代理機構(gòu) | 成都頂峰專利事務(wù)所(普通合伙) | 代理人 | 李崧巖 |
地址 | 200000上海市浦東新區(qū)自由貿(mào)易試驗區(qū)商城路618號四層B207室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請?zhí)峁┑臄?shù)據(jù)集均衡方法、裝置及計算機可讀存儲介質(zhì),涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,通過調(diào)整原始數(shù)據(jù)集中各樣本的權(quán)重參數(shù),降低數(shù)據(jù)集合中噪聲樣本或者異常樣本的權(quán)重影響,篩選出有利于提高模型性能的樣本來衍生新的樣本;同時,基于原始數(shù)據(jù)集中負(fù)樣本的分布衍生得到第一衍生數(shù)據(jù)集,并根據(jù)原始數(shù)據(jù)集中的中樣本的分布及樣本的權(quán)重參數(shù),衍生出第二衍生數(shù)據(jù)集;最后將原始數(shù)據(jù)集、第一衍生數(shù)據(jù)集及第二衍生數(shù)據(jù)集合并得到均衡后的目標(biāo)數(shù)據(jù)集。在基于原始數(shù)據(jù)集中樣本的分布衍生新樣本的過程中,盡可能生成有助于性能優(yōu)化的新樣本并增加負(fù)樣本數(shù)量,同時通過權(quán)重參數(shù)減少生成新樣本過程中的噪聲,規(guī)避噪聲對后續(xù)業(yè)務(wù)預(yù)測模型訓(xùn)練的影響。 |
