一種基于關鍵字加權算法的輿情熱詞發(fā)現(xiàn)方法

基本信息

申請?zhí)?/td> CN201610123465.5 申請日 -
公開(公告)號 CN107153658A 公開(公告)日 2017-09-12
申請公布號 CN107153658A 申請公布日 2017-09-12
分類號 G06F17/30(2006.01)I;G06F17/27(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 趙一昕;李華康;楊天若;楊天楚 申請(專利權)人 常州市公共交通集團有限責任公司
代理機構 - 代理人 -
地址 213000 江蘇省常州市新北區(qū)河海中路85號浙江大學常州工業(yè)技術學院215
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種熱詞發(fā)現(xiàn)方法,具體涉及一種基于關鍵字加權算法的熱詞發(fā)現(xiàn)方法。本發(fā)明利用中文分詞工具對海量的輿情信息進行初步分詞,并給出詞性標注,同時結合一個IDF表、一個過濾詞表和一個詞性權值表,依據(jù)加權式TF?IDF算法進行候選詞語熱度值計算,該計算不僅僅只依據(jù)詞頻,而是充分考慮了詞語的詞性、位置等所包含的有效信息,為熱詞識別提供了可靠性依據(jù)。另外,本發(fā)明充分考慮了自媒體時代下輿情標題主題鮮明的特點,主要對輿情標題進行語料處理,解決了海量輿情信息下的熱詞識別的效率問題。最后對IDF表實現(xiàn)動態(tài)的增量式更新,保證了詞語反文檔頻率的實時性,提高了熱詞識別的準確度。