一種基于杰卡德距離的實(shí)時(shí)文本聚類方法

基本信息

申請?zhí)?/td> CN202010451072.3 申請日 -
公開(公告)號(hào) CN111538839A 公開(公告)日 2020-08-14
申請公布號(hào) CN111538839A 申請公布日 2020-08-14
分類號(hào) G06F16/35(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 金勇;胡華;孫濤 申請(專利權(quán))人 武漢烽火普天信息技術(shù)有限公司
代理機(jī)構(gòu) 上海精晟知識(shí)產(chǎn)權(quán)代理有限公司 代理人 武漢烽火普天信息技術(shù)有限公司
地址 430000湖北省武漢市東湖開發(fā)區(qū)關(guān)山二路附4號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種基于杰卡德距離的實(shí)時(shí)文本聚類方法,具體包括以下步驟:S1:文本相似度計(jì)算:從待聚類數(shù)據(jù)中選取兩個(gè)文本,分別從兩個(gè)文本中抽取關(guān)鍵詞,再計(jì)算不同文本對應(yīng)關(guān)鍵詞之間的交集、并集,進(jìn)一步得到杰卡德距離;S2:設(shè)定層次聚類閾值;S3:構(gòu)建聚類模型,依次讀取新加載數(shù)據(jù),計(jì)算每條數(shù)據(jù)和每個(gè)類之間的平均距離,并與閾值比較,確定是否聚到該類還是單獨(dú)劃分一類,不斷迭代更新;S4:將S3的聚類結(jié)果以更新聚類標(biāo)識(shí)的形式寫入Hbase和ES數(shù)據(jù)庫,ES數(shù)據(jù)庫中具有相同聚類標(biāo)識(shí)的數(shù)據(jù)被聚為一類。本申請的文本聚類方法可以實(shí)現(xiàn)海量文本數(shù)據(jù)的實(shí)時(shí)分析,類似文本聚類,有效去重,提升用戶體驗(yàn),同時(shí)還能改善文本分類結(jié)果。??