一種單機(jī)的大規(guī)模數(shù)據(jù)集的聚類挖掘方法

基本信息

申請(qǐng)?zhí)?/td> CN201510163967.6 申請(qǐng)日 -
公開(公告)號(hào) CN104731968A 公開(公告)日 2015-06-24
申請(qǐng)公布號(hào) CN104731968A 申請(qǐng)公布日 2015-06-24
分類號(hào) G06F17/30(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 范仕良;張雪潔;駱融臻 申請(qǐng)(專利權(quán))人 江蘇愛星信息科技有限公司
代理機(jī)構(gòu) 南京蘇高專利商標(biāo)事務(wù)所(普通合伙) 代理人 河海大學(xué);江蘇愛星信息科技有限公司
地址 211100 江蘇省南京市江寧區(qū)佛城西路8號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種單機(jī)的大規(guī)模數(shù)據(jù)集的聚類挖掘方法,主要包含三個(gè)步驟:一是解決讀取大規(guī)模數(shù)據(jù)集時(shí)容易發(fā)生的內(nèi)存泄露問題;二是充分利用硬件優(yōu)勢以及“分而治之”的算法思想將大數(shù)據(jù)問題轉(zhuǎn)化為容易解決的小數(shù)據(jù)問題;三是基于聚類挖掘算法構(gòu)建適當(dāng)?shù)耐诰蚰P?,依次完成小?shù)據(jù)的聚類挖掘工作,最后將各挖掘結(jié)果進(jìn)行合并得到最終結(jié)果。該發(fā)明公開的方法通過設(shè)計(jì)存儲(chǔ)方式、擴(kuò)展虛擬設(shè)備等方式有效地解決了大數(shù)據(jù)挖掘時(shí)常見的內(nèi)存限制和運(yùn)行效率的問題,實(shí)現(xiàn)了在不利用網(wǎng)絡(luò)集群的情況下,于一臺(tái)獨(dú)立正常工作的物理機(jī)上完成GB規(guī)模數(shù)據(jù)集的聚類挖掘工作。