面向高維和不平衡數(shù)據(jù)分類的集成
基本信息
申請?zhí)?/td> | CN201610218160.2 | 申請日 | - |
公開(公告)號 | CN107273387A | 公開(公告)日 | 2017-10-20 |
申請公布號 | CN107273387A | 申請公布日 | 2017-10-20 |
分類號 | G06F17/30(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 李臻 | 申請(專利權(quán))人 | 上海玻森數(shù)據(jù)科技有限公司 |
代理機構(gòu) | 上海申新律師事務(wù)所 | 代理人 | 上海市玻森數(shù)據(jù)科技有限公司;上海風報信息科技有限公司 |
地址 | 200000 上海市寶山區(qū)月羅路310號F東2-G365室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提出面向高維和不平衡數(shù)據(jù)分類的集成,其特征在于,采用降維和取樣的先后順序,將預(yù)處理策略減少為兩類;基于實驗結(jié)論的可重現(xiàn)性原則,選取數(shù)據(jù)挖掘和機器學習的一些標準數(shù)據(jù)集作為實驗數(shù)據(jù);在預(yù)處理方法的選擇上,增加了封裝式(Wrapper)特征選擇方法和過取樣方法;從屬性個數(shù)和不平衡程度兩方面研究預(yù)處理方法對高維不平衡數(shù)據(jù)分類性能的影響,采用更完備的預(yù)處理實驗策略,獲得了不同的結(jié)論:對高維不平衡數(shù)據(jù)分類前,先減少特征再平衡數(shù)據(jù)產(chǎn)生的平均AUC性能更優(yōu),自動化程度強,采用不同的預(yù)處理組合策略來緩和高維和不平衡對分類的影響。 |
