一種基于層次聚類的聊天記錄分析方法和裝置

基本信息

申請?zhí)?/td> CN201810137784.0 申請日 -
公開(公告)號 CN108153738A 公開(公告)日 2018-06-12
申請公布號 CN108153738A 申請公布日 2018-06-12
分類號 G06F17/27;G06F17/30;G06K9/62 分類 計算;推算;計數(shù);
發(fā)明人 許振興;朱留鋒;榮強;田淑寧 申請(專利權(quán))人 燈塔財經(jīng)信息有限公司
代理機構(gòu) 深圳市六加知識產(chǎn)權(quán)代理有限公司 代理人 燈塔財經(jīng)信息有限公司
地址 430000 湖北省武漢市東西湖區(qū)臺商投資區(qū)高橋產(chǎn)業(yè)園臺中大道特1號(3)
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及計算機技術(shù)領(lǐng)域,提供了一種基于層次聚類的聊天記錄分析方法和裝置。方法包括獲取聊天記錄和相關(guān)的數(shù)據(jù)信息,并對所述聊天記錄做DBSCAN聚類算法前的預(yù)處理;采用DBSCAN的聚類算法,對預(yù)處理之后的數(shù)據(jù)做聚類處理;對所述DBSCAN的聚類處理的結(jié)果數(shù)據(jù),采用TF?IDF算法提取關(guān)鍵字作為熱詞,并統(tǒng)計數(shù)據(jù)條目出現(xiàn)熱詞的次數(shù),以出現(xiàn)次數(shù)最多的熱詞作為所述聊天記錄的標(biāo)簽。本發(fā)明提出了一種基于層次聚類的聊天記錄分析方法,結(jié)合了DBSCAN的聚類算法和TF?IDF算法之間的性能特性,對現(xiàn)有的無規(guī)則的聊天記錄做了具有特征性的標(biāo)簽標(biāo)定,使得所述聊天記錄能夠被進一步被后續(xù)操作步驟以簡化的方式使用。