一種在類別樣本數(shù)量不均衡情況下的惡意樣本檢測(cè)方法

基本信息

申請(qǐng)?zhí)?/td> CN202210187808.X 申請(qǐng)日 -
公開(公告)號(hào) CN114548305A 公開(公告)日 2022-05-27
申請(qǐng)公布號(hào) CN114548305A 申請(qǐng)公布日 2022-05-27
分類號(hào) G06K9/62(2022.01)I;G06N20/00(2019.01)I;G06F21/56(2013.01)I;G06F8/53(2018.01)I;G06F17/18(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 劉洋;卞超軼;陳亙;金珂 申請(qǐng)(專利權(quán))人 北京啟明星辰信息安全技術(shù)有限公司
代理機(jī)構(gòu) 北京君泰水木知識(shí)產(chǎn)權(quán)代理有限公司 代理人 -
地址 100193北京市海淀區(qū)東北旺西路8號(hào)21號(hào)樓啟明星辰大廈102號(hào)
法律狀態(tài) -

摘要

摘要 本申請(qǐng)?zhí)峁┮环N在類別樣本數(shù)量不均衡情況下的惡意樣本檢測(cè)方法,其步驟包括:對(duì)類別樣本數(shù)量不均衡的原始樣本進(jìn)行特征提取,得到特征提取后的樣本作為訓(xùn)練數(shù)據(jù);使用分類算法得到訓(xùn)練數(shù)據(jù)的至少兩個(gè)分類預(yù)測(cè)結(jié)果;其中,所述訓(xùn)練數(shù)據(jù)包括未標(biāo)記數(shù)據(jù);設(shè)置采樣參數(shù)組集,所述采樣參數(shù)組集由若干采樣參數(shù)組構(gòu)成,每個(gè)采樣參數(shù)組包括對(duì)訓(xùn)練數(shù)據(jù)中各類別樣本進(jìn)行采樣時(shí)使用的采樣參數(shù);將采樣參數(shù)組集中,使得所有分類預(yù)測(cè)結(jié)果之間相似度最高的采樣參數(shù)組作為最優(yōu)采樣參數(shù)組;根據(jù)最優(yōu)采樣參數(shù)組對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行采樣。使用本申請(qǐng)能夠同時(shí)對(duì)多數(shù)類進(jìn)行降采樣以及對(duì)少數(shù)類的進(jìn)行過采樣,達(dá)到提高了檢測(cè)的泛化能力。