一種基于樹狀基學(xué)習(xí)器的混合特征數(shù)據(jù)聚類方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN202111073665.1 申請(qǐng)日 -
公開(公告)號(hào) CN114004271A 公開(公告)日 2022-02-01
申請(qǐng)公布號(hào) CN114004271A 申請(qǐng)公布日 2022-02-01
分類號(hào) G06K9/62(2022.01)I;G06N20/00(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 范慶來;倪勇龍;陳義;周君良;錢至遠(yuǎn);朱霄;蔣肇標(biāo);郭慶 申請(qǐng)(專利權(quán))人 浙江浙石油綜合能源銷售有限公司
代理機(jī)構(gòu) 浙江千克知識(shí)產(chǎn)權(quán)代理有限公司 代理人 黎雙華
地址 310000浙江省杭州市西湖區(qū)古蕩街道文二路391號(hào)西湖國(guó)際科技大廈22樓
法律狀態(tài) -

摘要

摘要 本發(fā)明屬于混合特征數(shù)據(jù)集聚類技術(shù)領(lǐng)域,公開了一種基于樹狀基學(xué)習(xí)器的混合特征數(shù)據(jù)聚類方法及系統(tǒng),其方法包括步驟:S1、對(duì)樣本集進(jìn)行隨機(jī)子采樣生成N個(gè)不同的子樣本集;S2、對(duì)每個(gè)子樣本集進(jìn)行樹狀基學(xué)習(xí)器的訓(xùn)練,并得到訓(xùn)練完成后的N顆樹以及聚類簇?cái)?shù)量K;S3、基于訓(xùn)練完成后的N顆樹,統(tǒng)計(jì)任意兩個(gè)樣本之間的相似度矩陣,并將所有相似度矩陣歸一化,以得到多個(gè)歸一化相似度矩陣;S4、將聚類簇?cái)?shù)量K以及多個(gè)歸一化相似度矩陣作為譜聚類模型的輸入,以得到樣本集最終的聚類結(jié)果。本發(fā)明設(shè)計(jì)了高緯度、混合特征情況下的數(shù)據(jù)聚類方法,可解決數(shù)據(jù)集維度過高以及連續(xù)特征和離散特征混合情況下無法明確定義相似性概念導(dǎo)致難以聚類的問題。