一種面向網(wǎng)絡(luò)文本大數(shù)據(jù)的話題檢測或跟蹤方法
基本信息
申請?zhí)?/td> | CN201410670235.1 | 申請日 | - |
公開(公告)號 | CN104462253B | 公開(公告)日 | 2018-05-18 |
申請公布號 | CN104462253B | 申請公布日 | 2018-05-18 |
分類號 | G06F17/30 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 鄒復(fù)好;徐濤;周可;范瑞;鄭勝;張勝;陳進(jìn)才;李春花 | 申請(專利權(quán))人 | 武漢數(shù)為科技有限公司 |
代理機(jī)構(gòu) | 武漢東喻專利代理事務(wù)所(普通合伙) | 代理人 | 宋業(yè)斌 |
地址 | 430074 湖北省武漢市東湖高新技術(shù)開發(fā)區(qū)高新大道999號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種面向網(wǎng)絡(luò)文本大數(shù)據(jù)的話題檢測或跟蹤方法,其基本思路如下:通過檢測不同文檔中共同出現(xiàn)的關(guān)鍵詞,構(gòu)造關(guān)鍵詞的圖模型及對應(yīng)的鄰接矩陣,并將其與譜聚類相結(jié)合,提出了一種新的話題檢測模型,計算得到每篇文檔關(guān)于話題的概率分布,當(dāng)新文檔到達(dá)時計算其與歷史話題所表示屬性集的相似度,實現(xiàn)話題的自動檢測或跟蹤,并通過MapReduce編程模型來實現(xiàn)分布式的方法。本發(fā)明的特點在于,用關(guān)鍵詞的共現(xiàn)關(guān)系對話題進(jìn)行顯示挖掘,而非隱式,面向大數(shù)據(jù)采用分布式計算,將互聯(lián)網(wǎng)中的數(shù)據(jù)信息進(jìn)行聚類,可拓展性更強(qiáng),可處理的數(shù)據(jù)量更大,極大地提高了吞吐率。 |
