一種基于關鍵字加權算法的輿情熱詞發(fā)現(xiàn)方法
基本信息
申請?zhí)?/td> | CN201610123465.5 | 申請日 | - |
公開(公告)號 | CN107153658A | 公開(公告)日 | 2017-09-12 |
申請公布號 | CN107153658A | 申請公布日 | 2017-09-12 |
分類號 | G06F17/30(2006.01)I;G06F17/27(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 趙一昕;李華康;楊天若;楊天楚 | 申請(專利權)人 | 常州市公共交通集團有限責任公司 |
代理機構 | - | 代理人 | - |
地址 | 213000 江蘇省常州市新北區(qū)河海中路85號浙江大學常州工業(yè)技術學院215 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種熱詞發(fā)現(xiàn)方法,具體涉及一種基于關鍵字加權算法的熱詞發(fā)現(xiàn)方法。本發(fā)明利用中文分詞工具對海量的輿情信息進行初步分詞,并給出詞性標注,同時結合一個IDF表、一個過濾詞表和一個詞性權值表,依據(jù)加權式TF?IDF算法進行候選詞語熱度值計算,該計算不僅僅只依據(jù)詞頻,而是充分考慮了詞語的詞性、位置等所包含的有效信息,為熱詞識別提供了可靠性依據(jù)。另外,本發(fā)明充分考慮了自媒體時代下輿情標題主題鮮明的特點,主要對輿情標題進行語料處理,解決了海量輿情信息下的熱詞識別的效率問題。最后對IDF表實現(xiàn)動態(tài)的增量式更新,保證了詞語反文檔頻率的實時性,提高了熱詞識別的準確度。 |
