一種面向網(wǎng)絡(luò)文本大數(shù)據(jù)的話題檢測或跟蹤方法

基本信息

申請?zhí)?/td> CN201410670235.1 申請日 -
公開(公告)號 CN104462253B 公開(公告)日 2018-05-18
申請公布號 CN104462253B 申請公布日 2018-05-18
分類號 G06F17/30 分類 計算;推算;計數(shù);
發(fā)明人 鄒復(fù)好;徐濤;周可;范瑞;鄭勝;張勝;陳進(jìn)才;李春花 申請(專利權(quán))人 武漢數(shù)為科技有限公司
代理機(jī)構(gòu) 武漢東喻專利代理事務(wù)所(普通合伙) 代理人 宋業(yè)斌
地址 430074 湖北省武漢市東湖高新技術(shù)開發(fā)區(qū)高新大道999號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種面向網(wǎng)絡(luò)文本大數(shù)據(jù)的話題檢測或跟蹤方法,其基本思路如下:通過檢測不同文檔中共同出現(xiàn)的關(guān)鍵詞,構(gòu)造關(guān)鍵詞的圖模型及對應(yīng)的鄰接矩陣,并將其與譜聚類相結(jié)合,提出了一種新的話題檢測模型,計算得到每篇文檔關(guān)于話題的概率分布,當(dāng)新文檔到達(dá)時計算其與歷史話題所表示屬性集的相似度,實現(xiàn)話題的自動檢測或跟蹤,并通過MapReduce編程模型來實現(xiàn)分布式的方法。本發(fā)明的特點在于,用關(guān)鍵詞的共現(xiàn)關(guān)系對話題進(jìn)行顯示挖掘,而非隱式,面向大數(shù)據(jù)采用分布式計算,將互聯(lián)網(wǎng)中的數(shù)據(jù)信息進(jìn)行聚類,可拓展性更強(qiáng),可處理的數(shù)據(jù)量更大,極大地提高了吞吐率。