基于內(nèi)容特征和主題特征的文本分組聚類(lèi)方法

基本信息

申請(qǐng)?zhí)?/td> CN201210285275.5 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN102929906A 公開(kāi)(公告)日 2013-02-13
申請(qǐng)公布號(hào) CN102929906A 申請(qǐng)公布日 2013-02-13
分類(lèi)號(hào) G06F17/30(2006.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 盧美蓮;李佳珊;王明華;葉小衛(wèi);劉金亮;曹一鳴 申請(qǐng)(專(zhuān)利權(quán))人 北京格致璞科技有限公司
代理機(jī)構(gòu) 北京同立鈞成知識(shí)產(chǎn)權(quán)代理有限公司 代理人 北京郵電大學(xué);北京格致璞科技有限公司
地址 100876 北京市海淀區(qū)西土城路10號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種基于內(nèi)容特征和主題特征的文本分組聚類(lèi)方法,包括:提取所述文本的內(nèi)容特征和主題特征;將所述主題特征轉(zhuǎn)換為二進(jìn)制主題特征;采用相同的分組算法對(duì)文本基于所述內(nèi)容特征和所述二進(jìn)制主題特征依次進(jìn)行分組,獲得層次化的文本分組結(jié)果;對(duì)所述文本分組結(jié)果進(jìn)行聚類(lèi)。使用本發(fā)明提供的基于內(nèi)容特征和主題特征的文本分組聚類(lèi)方法對(duì)新聞文本進(jìn)行分組聚類(lèi),可以令新聞文本的聚類(lèi)結(jié)果在兼顧新聞事件的針對(duì)性的基礎(chǔ)上避免聚類(lèi)結(jié)果過(guò)多的缺陷。