面向高維和不平衡數(shù)據(jù)分類的集成
基本信息
申請(qǐng)?zhí)?/td> | CN201610218160.2 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN107273387A | 公開(公告)日 | 2017-10-20 |
申請(qǐng)公布號(hào) | CN107273387A | 申請(qǐng)公布日 | 2017-10-20 |
分類號(hào) | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 李臻 | 申請(qǐng)(專利權(quán))人 | 上海玻森數(shù)據(jù)科技有限公司 |
代理機(jī)構(gòu) | 上海申新律師事務(wù)所 | 代理人 | 上海市玻森數(shù)據(jù)科技有限公司;上海風(fēng)報(bào)信息科技有限公司 |
地址 | 200000 上海市寶山區(qū)月羅路310號(hào)F東2-G365室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提出面向高維和不平衡數(shù)據(jù)分類的集成,其特征在于,采用降維和取樣的先后順序,將預(yù)處理策略減少為兩類;基于實(shí)驗(yàn)結(jié)論的可重現(xiàn)性原則,選取數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的一些標(biāo)準(zhǔn)數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù);在預(yù)處理方法的選擇上,增加了封裝式(Wrapper)特征選擇方法和過取樣方法;從屬性個(gè)數(shù)和不平衡程度兩方面研究預(yù)處理方法對(duì)高維不平衡數(shù)據(jù)分類性能的影響,采用更完備的預(yù)處理實(shí)驗(yàn)策略,獲得了不同的結(jié)論:對(duì)高維不平衡數(shù)據(jù)分類前,先減少特征再平衡數(shù)據(jù)產(chǎn)生的平均AUC性能更優(yōu),自動(dòng)化程度強(qiáng),采用不同的預(yù)處理組合策略來緩和高維和不平衡對(duì)分類的影響。 |
