一種基于社區(qū)檢測(cè)的增量聚類(lèi)算法
基本信息
申請(qǐng)?zhí)?/td> | CN201911147405.7 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN110990566A | 公開(kāi)(公告)日 | 2020-04-10 |
申請(qǐng)公布號(hào) | CN110990566A | 申請(qǐng)公布日 | 2020-04-10 |
分類(lèi)號(hào) | G06F16/35;G06F16/33;G06F16/9535;G06F40/295 | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 楊佳樂(lè);程大偉;羅軼鳳;錢(qián)衛(wèi)寧;周傲英 | 申請(qǐng)(專(zhuān)利權(quán))人 | 上海瞰點(diǎn)科技有限責(zé)任公司 |
代理機(jī)構(gòu) | 上海藍(lán)迪專(zhuān)利商標(biāo)事務(wù)所(普通合伙) | 代理人 | 華東師范大學(xué);上海瞰點(diǎn)科技有限責(zé)任公司 |
地址 | 200241 上海市閔行區(qū)東川路500號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)了一種基于社區(qū)檢測(cè)的增量聚類(lèi)算法,其特點(diǎn)是采用Community社區(qū)概念和Online?Offline兩階段框架并引入IMC概念,由文檔表征詞向量、文檔的表征關(guān)鍵詞與文檔的命名實(shí)體識(shí)別預(yù)測(cè)詞共同經(jīng)相似度計(jì)算方法得到目標(biāo)語(yǔ)料的相似度圖,最后對(duì)相似度圖先使用Louvain算法得到初始化社區(qū)結(jié)果,并在初始化社區(qū)結(jié)果的基礎(chǔ)上使用增量聚類(lèi)算法得到最終的聚類(lèi)結(jié)果。本發(fā)明與現(xiàn)有技術(shù)相比具有在同等硬件條件下降低計(jì)算時(shí)間開(kāi)銷(xiāo),快速生成聚類(lèi)結(jié)果,以便更好地服務(wù)于應(yīng)用場(chǎng)景的上下游業(yè)務(wù),做到及時(shí)響應(yīng),實(shí)現(xiàn)了區(qū)分熱點(diǎn)事件與持續(xù)報(bào)道事件的功能,從而對(duì)新聞事件做了有效的聚類(lèi)與事件級(jí)別的過(guò)濾。 |
