文檔聚類方法及裝置、網絡設備

基本信息

申請?zhí)?/td> CN201410160939.4 申請日 -
公開(公告)號 CN105095209B 公開(公告)日 2019-05-10
申請公布號 CN105095209B 申請公布日 2019-05-10
分類號 G06F16/35(2019.01)I 分類 計算;推算;計數;
發(fā)明人 萬振; 張凱達 申請(專利權)人 北京獵豹網絡科技有限公司
代理機構 北京銀龍知識產權代理有限公司 代理人 珠海豹好玩科技有限公司
地址 519000 廣東省珠海市橫琴新區(qū)寶華路6號105室-53967(集中辦公區(qū))
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種文檔聚類方法及裝置、網絡設備,屬于數據挖掘、文檔聚類及web網頁聚類技術領域。該方法包括:步驟a:將待聚類的文檔分為多組;步驟b:對其中一組文檔通過聚類算法進行聚類,獲取初始簇,初始簇對應有頻繁項集;步驟c:獲取余下的另外一組文檔的特征詞,根據特征詞和初始簇對應的頻繁項集,將特征詞包含在頻繁項集中的文檔聚類到頻繁項集對應的初始簇,并對剩下的特征詞未包含在頻繁項集中的文檔進行聚類獲取新的對應有頻繁項集的初始簇;步驟d:判斷是否存在未聚類的文檔組,如存在,轉向步驟c;如不存在,存儲聚類成的多個初始簇和每個初始簇對應的頻繁項集。本發(fā)明的技術方案能夠提高文檔聚類的速度并且節(jié)約計算資源。