一種基于杰卡德距離的實時文本聚類方法
基本信息
申請?zhí)?/td> | CN202010451072.3 | 申請日 | - |
公開(公告)號 | CN111538839A | 公開(公告)日 | 2020-08-14 |
申請公布號 | CN111538839A | 申請公布日 | 2020-08-14 |
分類號 | G06F16/35(2019.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 金勇;胡華;孫濤 | 申請(專利權)人 | 武漢烽火普天信息技術有限公司 |
代理機構 | 上海精晟知識產(chǎn)權代理有限公司 | 代理人 | 武漢烽火普天信息技術有限公司 |
地址 | 430000湖北省武漢市東湖開發(fā)區(qū)關山二路附4號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種基于杰卡德距離的實時文本聚類方法,具體包括以下步驟:S1:文本相似度計算:從待聚類數(shù)據(jù)中選取兩個文本,分別從兩個文本中抽取關鍵詞,再計算不同文本對應關鍵詞之間的交集、并集,進一步得到杰卡德距離;S2:設定層次聚類閾值;S3:構建聚類模型,依次讀取新加載數(shù)據(jù),計算每條數(shù)據(jù)和每個類之間的平均距離,并與閾值比較,確定是否聚到該類還是單獨劃分一類,不斷迭代更新;S4:將S3的聚類結果以更新聚類標識的形式寫入Hbase和ES數(shù)據(jù)庫,ES數(shù)據(jù)庫中具有相同聚類標識的數(shù)據(jù)被聚為一類。本申請的文本聚類方法可以實現(xiàn)海量文本數(shù)據(jù)的實時分析,類似文本聚類,有效去重,提升用戶體驗,同時還能改善文本分類結果。?? |
