一種基于主題詞語義相似度的話題聚類方法

基本信息

申請?zhí)?/td> CN202011576986.9 申請日 -
公開(公告)號 CN114691861A 公開(公告)日 2022-07-01
申請公布號 CN114691861A 申請公布日 2022-07-01
分類號 G06F16/35(2019.01)I;G06F40/194(2020.01)I;G06F40/289(2020.01)I;G06F40/30(2020.01)I 分類 計算;推算;計數;
發(fā)明人 姜衛(wèi)平;白冰;趙崟江;郭忠武;馮慧 申請(專利權)人 北京市博匯科技股份有限公司
代理機構 北京弘權知識產權代理有限公司 代理人 -
地址 100094北京市海淀區(qū)永豐產業(yè)基地豐賢中路7號孵化樓B座501
法律狀態(tài) -

摘要

摘要 本申請公開了一種基于主題詞語義相似度的話題聚類方法,該方法對每個原始標題進行預處理,獲取待聚類標題集合,然后提取目標待聚類標題對應的多個主題詞,根據預設的排除詞集合及每個待聚類標題對應的多個主題詞,生成主題集合,對主題集合中的任一主題對象進行文本數字化處理,獲取主題向量化集合,針對目標主題向量化對象,從主題向量化集合中篩選出相似的主題向量化對象,并將目標主題向量化對象與相似的主題向量化對象作為同種話題實現聚類。上述方法在針對大量網絡文本數據時,不需要指定K值,通過提取主題詞,然后計算相似度,便可以實現話題聚類,且能夠保證聚類的主題相似,話題相近,具有覆蓋范圍大,計算復雜度低的優(yōu)點。