一種基于杰卡德距離的實(shí)時(shí)文本聚類方法
基本信息
申請?zhí)?/td> | CN202010451072.3 | 申請日 | - |
公開(公告)號(hào) | CN111538839A | 公開(公告)日 | 2020-08-14 |
申請公布號(hào) | CN111538839A | 申請公布日 | 2020-08-14 |
分類號(hào) | G06F16/35(2019.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 金勇;胡華;孫濤 | 申請(專利權(quán))人 | 武漢烽火普天信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 上海精晟知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 武漢烽火普天信息技術(shù)有限公司 |
地址 | 430000湖北省武漢市東湖開發(fā)區(qū)關(guān)山二路附4號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種基于杰卡德距離的實(shí)時(shí)文本聚類方法,具體包括以下步驟:S1:文本相似度計(jì)算:從待聚類數(shù)據(jù)中選取兩個(gè)文本,分別從兩個(gè)文本中抽取關(guān)鍵詞,再計(jì)算不同文本對應(yīng)關(guān)鍵詞之間的交集、并集,進(jìn)一步得到杰卡德距離;S2:設(shè)定層次聚類閾值;S3:構(gòu)建聚類模型,依次讀取新加載數(shù)據(jù),計(jì)算每條數(shù)據(jù)和每個(gè)類之間的平均距離,并與閾值比較,確定是否聚到該類還是單獨(dú)劃分一類,不斷迭代更新;S4:將S3的聚類結(jié)果以更新聚類標(biāo)識(shí)的形式寫入Hbase和ES數(shù)據(jù)庫,ES數(shù)據(jù)庫中具有相同聚類標(biāo)識(shí)的數(shù)據(jù)被聚為一類。本申請的文本聚類方法可以實(shí)現(xiàn)海量文本數(shù)據(jù)的實(shí)時(shí)分析,類似文本聚類,有效去重,提升用戶體驗(yàn),同時(shí)還能改善文本分類結(jié)果。?? |
