一種信息熱點挖掘方法及裝置

基本信息

申請?zhí)?/td> CN201811399436.7 申請日 -
公開(公告)號 CN109492109B 公開(公告)日 2021-09-17
申請公布號 CN109492109B 申請公布日 2021-09-17
分類號 G06F16/35(2019.01)I;G06F40/289(2020.01)I;G06F40/211(2020.01)I 分類 計算;推算;計數(shù);
發(fā)明人 何曉藝;李德彥;吳云鶴 申請(專利權(quán))人 鼎富智能科技有限公司
代理機構(gòu) 北京弘權(quán)知識產(chǎn)權(quán)代理有限公司 代理人 逯長明;許偉群
地址 100089 北京市海淀區(qū)萬泉莊路28號萬柳新貴大廈A座6層630室
法律狀態(tài) -

摘要

摘要 本申請實施例提供了一種信息熱點挖掘方法及裝置,其中,該方法包括:對采集的語料信息進行數(shù)據(jù)清洗和分詞處理,得到樣本語料;對樣本語料進行依存句法分析,以從樣本語料抽取預設句法成分對應的分詞,作為樣本語料的特征信息;將特征信息進行聚類得到多個聚類簇;確定熱點聚類簇及其對應的熱點類別,并將熱點聚類簇中的特征信息作為對應熱點類別的代表熱點。由此,本申請實施例提供的技術(shù)方案,針對短語料信息包含信息量少的特點,將短語料中的特征信息進行聚類,使每個聚類簇包含大量同一類別的特征信息,從而,可以根據(jù)聚類簇中特征信息的數(shù)量等指標確定熱點類別,解決了現(xiàn)有技術(shù)中無法從大量的短語料信息中挖掘出有價值的熱點信息的問題。