一種輿情主題數(shù)據(jù)聚類方法、裝置及存儲介質(zhì)

基本信息

申請?zhí)?/td> CN201910522043.9 申請日 -
公開(公告)號 CN110377695A 公開(公告)日 2019-10-25
申請公布號 CN110377695A 申請公布日 2019-10-25
分類號 G06F16/33(2019.01)I; G06F16/35(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 張毅 申請(專利權(quán))人 廣州艾媒數(shù)聚信息咨詢股份有限公司
代理機構(gòu) 廣州嘉權(quán)專利商標(biāo)事務(wù)所有限公司 代理人 廣州艾媒數(shù)聚信息咨詢股份有限公司
地址 510006 廣東省廣州市番禺區(qū)小谷圍街青藍街26號701房
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種輿情主題數(shù)據(jù)聚類方法、裝置及存儲介質(zhì),方法包括:對待聚類的文章進行文本處理,得到句子集合,文本處理包括分割;采用word2vec算法計算句子集合到已有聚類的關(guān)鍵詞組的距離;根據(jù)計算的距離和自適應(yīng)的距離閾值進行主題聚類,得到聚類結(jié)果,并將聚類結(jié)果寫入新聚類主題列表或已有聚類主題列表,所述已有聚類主題列表由已有聚類組成。本發(fā)明通過自適應(yīng)的距離閾值提供了通用的、可自動學(xué)習(xí)調(diào)整的分類閾值標(biāo)準(zhǔn),適用性強;結(jié)合了已有聚類這一歷史聚類成果來進行主題聚類,優(yōu)化了聚類的結(jié)果;采用了word2vec算法這一神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法配合關(guān)鍵詞組的距離特征,提升了聚類的速度和準(zhǔn)確度,可廣泛應(yīng)用于輿情監(jiān)控領(lǐng)域。