一種基于樹狀基學習器的混合特征數(shù)據(jù)聚類方法及系統(tǒng)

基本信息

申請?zhí)?/td> CN202111073665.1 申請日 -
公開(公告)號 CN114004271A 公開(公告)日 2022-02-01
申請公布號 CN114004271A 申請公布日 2022-02-01
分類號 G06K9/62(2022.01)I;G06N20/00(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 范慶來;倪勇龍;陳義;周君良;錢至遠;朱霄;蔣肇標;郭慶 申請(專利權(quán))人 浙江浙石油綜合能源銷售有限公司
代理機構(gòu) 浙江千克知識產(chǎn)權(quán)代理有限公司 代理人 黎雙華
地址 310000浙江省杭州市西湖區(qū)古蕩街道文二路391號西湖國際科技大廈22樓
法律狀態(tài) -

摘要

摘要 本發(fā)明屬于混合特征數(shù)據(jù)集聚類技術領域,公開了一種基于樹狀基學習器的混合特征數(shù)據(jù)聚類方法及系統(tǒng),其方法包括步驟:S1、對樣本集進行隨機子采樣生成N個不同的子樣本集;S2、對每個子樣本集進行樹狀基學習器的訓練,并得到訓練完成后的N顆樹以及聚類簇數(shù)量K;S3、基于訓練完成后的N顆樹,統(tǒng)計任意兩個樣本之間的相似度矩陣,并將所有相似度矩陣歸一化,以得到多個歸一化相似度矩陣;S4、將聚類簇數(shù)量K以及多個歸一化相似度矩陣作為譜聚類模型的輸入,以得到樣本集最終的聚類結(jié)果。本發(fā)明設計了高緯度、混合特征情況下的數(shù)據(jù)聚類方法,可解決數(shù)據(jù)集維度過高以及連續(xù)特征和離散特征混合情況下無法明確定義相似性概念導致難以聚類的問題。