面向高維和不平衡數(shù)據(jù)分類的集成

基本信息

申請(qǐng)?zhí)?/td> CN201610218160.2 申請(qǐng)日 -
公開(公告)號(hào) CN107273387A 公開(公告)日 2017-10-20
申請(qǐng)公布號(hào) CN107273387A 申請(qǐng)公布日 2017-10-20
分類號(hào) G06F17/30(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 李臻 申請(qǐng)(專利權(quán))人 上海玻森數(shù)據(jù)科技有限公司
代理機(jī)構(gòu) 上海申新律師事務(wù)所 代理人 上海市玻森數(shù)據(jù)科技有限公司;上海風(fēng)報(bào)信息科技有限公司
地址 200000 上海市寶山區(qū)月羅路310號(hào)F東2-G365室
法律狀態(tài) -

摘要

摘要 本發(fā)明提出面向高維和不平衡數(shù)據(jù)分類的集成,其特征在于,采用降維和取樣的先后順序,將預(yù)處理策略減少為兩類;基于實(shí)驗(yàn)結(jié)論的可重現(xiàn)性原則,選取數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的一些標(biāo)準(zhǔn)數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù);在預(yù)處理方法的選擇上,增加了封裝式(Wrapper)特征選擇方法和過取樣方法;從屬性個(gè)數(shù)和不平衡程度兩方面研究預(yù)處理方法對(duì)高維不平衡數(shù)據(jù)分類性能的影響,采用更完備的預(yù)處理實(shí)驗(yàn)策略,獲得了不同的結(jié)論:對(duì)高維不平衡數(shù)據(jù)分類前,先減少特征再平衡數(shù)據(jù)產(chǎn)生的平均AUC性能更優(yōu),自動(dòng)化程度強(qiáng),采用不同的預(yù)處理組合策略來緩和高維和不平衡對(duì)分類的影響。