一種基于樹狀基學(xué)習(xí)器的混合特征數(shù)據(jù)聚類方法及系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN202111073665.1 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN114004271A | 公開(公告)日 | 2022-02-01 |
申請(qǐng)公布號(hào) | CN114004271A | 申請(qǐng)公布日 | 2022-02-01 |
分類號(hào) | G06K9/62(2022.01)I;G06N20/00(2019.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 范慶來;倪勇龍;陳義;周君良;錢至遠(yuǎn);朱霄;蔣肇標(biāo);郭慶 | 申請(qǐng)(專利權(quán))人 | 浙江浙石油綜合能源銷售有限公司 |
代理機(jī)構(gòu) | 浙江千克知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 黎雙華 |
地址 | 310000浙江省杭州市西湖區(qū)古蕩街道文二路391號(hào)西湖國(guó)際科技大廈22樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明屬于混合特征數(shù)據(jù)集聚類技術(shù)領(lǐng)域,公開了一種基于樹狀基學(xué)習(xí)器的混合特征數(shù)據(jù)聚類方法及系統(tǒng),其方法包括步驟:S1、對(duì)樣本集進(jìn)行隨機(jī)子采樣生成N個(gè)不同的子樣本集;S2、對(duì)每個(gè)子樣本集進(jìn)行樹狀基學(xué)習(xí)器的訓(xùn)練,并得到訓(xùn)練完成后的N顆樹以及聚類簇?cái)?shù)量K;S3、基于訓(xùn)練完成后的N顆樹,統(tǒng)計(jì)任意兩個(gè)樣本之間的相似度矩陣,并將所有相似度矩陣歸一化,以得到多個(gè)歸一化相似度矩陣;S4、將聚類簇?cái)?shù)量K以及多個(gè)歸一化相似度矩陣作為譜聚類模型的輸入,以得到樣本集最終的聚類結(jié)果。本發(fā)明設(shè)計(jì)了高緯度、混合特征情況下的數(shù)據(jù)聚類方法,可解決數(shù)據(jù)集維度過高以及連續(xù)特征和離散特征混合情況下無法明確定義相似性概念導(dǎo)致難以聚類的問題。 |
