一種輿情主題數(shù)據(jù)聚類方法、裝置及存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN201910522043.9 | 申請日 | - |
公開(公告)號 | CN110377695A | 公開(公告)日 | 2019-10-25 |
申請公布號 | CN110377695A | 申請公布日 | 2019-10-25 |
分類號 | G06F16/33(2019.01)I; G06F16/35(2019.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 張毅 | 申請(專利權(quán))人 | 廣州艾媒數(shù)聚信息咨詢股份有限公司 |
代理機構(gòu) | 廣州嘉權(quán)專利商標(biāo)事務(wù)所有限公司 | 代理人 | 廣州艾媒數(shù)聚信息咨詢股份有限公司 |
地址 | 510006 廣東省廣州市番禺區(qū)小谷圍街青藍街26號701房 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種輿情主題數(shù)據(jù)聚類方法、裝置及存儲介質(zhì),方法包括:對待聚類的文章進行文本處理,得到句子集合,文本處理包括分割;采用word2vec算法計算句子集合到已有聚類的關(guān)鍵詞組的距離;根據(jù)計算的距離和自適應(yīng)的距離閾值進行主題聚類,得到聚類結(jié)果,并將聚類結(jié)果寫入新聚類主題列表或已有聚類主題列表,所述已有聚類主題列表由已有聚類組成。本發(fā)明通過自適應(yīng)的距離閾值提供了通用的、可自動學(xué)習(xí)調(diào)整的分類閾值標(biāo)準(zhǔn),適用性強;結(jié)合了已有聚類這一歷史聚類成果來進行主題聚類,優(yōu)化了聚類的結(jié)果;采用了word2vec算法這一神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法配合關(guān)鍵詞組的距離特征,提升了聚類的速度和準(zhǔn)確度,可廣泛應(yīng)用于輿情監(jiān)控領(lǐng)域。 |
