文檔聚類方法及裝置、網(wǎng)絡(luò)設(shè)備
基本信息
申請(qǐng)?zhí)?/td> | CN201410160939.4 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN105095209B | 公開(公告)日 | 2019-05-10 |
申請(qǐng)公布號(hào) | CN105095209B | 申請(qǐng)公布日 | 2019-05-10 |
分類號(hào) | G06F16/35(2019.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 萬振; 張凱達(dá) | 申請(qǐng)(專利權(quán))人 | 北京獵豹網(wǎng)絡(luò)科技有限公司 |
代理機(jī)構(gòu) | 北京銀龍知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 珠海豹好玩科技有限公司 |
地址 | 519000 廣東省珠海市橫琴新區(qū)寶華路6號(hào)105室-53967(集中辦公區(qū)) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種文檔聚類方法及裝置、網(wǎng)絡(luò)設(shè)備,屬于數(shù)據(jù)挖掘、文檔聚類及web網(wǎng)頁聚類技術(shù)領(lǐng)域。該方法包括:步驟a:將待聚類的文檔分為多組;步驟b:對(duì)其中一組文檔通過聚類算法進(jìn)行聚類,獲取初始簇,初始簇對(duì)應(yīng)有頻繁項(xiàng)集;步驟c:獲取余下的另外一組文檔的特征詞,根據(jù)特征詞和初始簇對(duì)應(yīng)的頻繁項(xiàng)集,將特征詞包含在頻繁項(xiàng)集中的文檔聚類到頻繁項(xiàng)集對(duì)應(yīng)的初始簇,并對(duì)剩下的特征詞未包含在頻繁項(xiàng)集中的文檔進(jìn)行聚類獲取新的對(duì)應(yīng)有頻繁項(xiàng)集的初始簇;步驟d:判斷是否存在未聚類的文檔組,如存在,轉(zhuǎn)向步驟c;如不存在,存儲(chǔ)聚類成的多個(gè)初始簇和每個(gè)初始簇對(duì)應(yīng)的頻繁項(xiàng)集。本發(fā)明的技術(shù)方案能夠提高文檔聚類的速度并且節(jié)約計(jì)算資源。 |
