面向高維和不平衡數(shù)據(jù)分類的集成

基本信息

申請?zhí)?/td> CN201610218160.2 申請日 -
公開(公告)號 CN107273387A 公開(公告)日 2017-10-20
申請公布號 CN107273387A 申請公布日 2017-10-20
分類號 G06F17/30(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 李臻 申請(專利權(quán))人 上海玻森數(shù)據(jù)科技有限公司
代理機構(gòu) 上海申新律師事務(wù)所 代理人 上海市玻森數(shù)據(jù)科技有限公司;上海風報信息科技有限公司
地址 200000 上海市寶山區(qū)月羅路310號F東2-G365室
法律狀態(tài) -

摘要

摘要 本發(fā)明提出面向高維和不平衡數(shù)據(jù)分類的集成,其特征在于,采用降維和取樣的先后順序,將預(yù)處理策略減少為兩類;基于實驗結(jié)論的可重現(xiàn)性原則,選取數(shù)據(jù)挖掘和機器學習的一些標準數(shù)據(jù)集作為實驗數(shù)據(jù);在預(yù)處理方法的選擇上,增加了封裝式(Wrapper)特征選擇方法和過取樣方法;從屬性個數(shù)和不平衡程度兩方面研究預(yù)處理方法對高維不平衡數(shù)據(jù)分類性能的影響,采用更完備的預(yù)處理實驗策略,獲得了不同的結(jié)論:對高維不平衡數(shù)據(jù)分類前,先減少特征再平衡數(shù)據(jù)產(chǎn)生的平均AUC性能更優(yōu),自動化程度強,采用不同的預(yù)處理組合策略來緩和高維和不平衡對分類的影響。