基于內(nèi)容特征和主題特征的文本分組聚類(lèi)方法
基本信息
申請(qǐng)?zhí)?/td> | CN201210285275.5 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN102929906B | 公開(kāi)(公告)日 | 2015-07-22 |
申請(qǐng)公布號(hào) | CN102929906B | 申請(qǐng)公布日 | 2015-07-22 |
分類(lèi)號(hào) | G06F17/30(2006.01)I | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 盧美蓮;李佳珊;王明華;葉小衛(wèi);劉金亮;曹一鳴 | 申請(qǐng)(專(zhuān)利權(quán))人 | 北京格致璞科技有限公司 |
代理機(jī)構(gòu) | 北京同立鈞成知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 劉芳 |
地址 | 100876 北京市海淀區(qū)西土城路10號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供一種基于內(nèi)容特征和主題特征的文本分組聚類(lèi)方法,包括:提取所述文本的內(nèi)容特征和主題特征;將所述主題特征轉(zhuǎn)換為二進(jìn)制主題特征;采用相同的分組算法對(duì)文本基于所述內(nèi)容特征和所述二進(jìn)制主題特征依次進(jìn)行分組,獲得層次化的文本分組結(jié)果;對(duì)所述文本分組結(jié)果進(jìn)行聚類(lèi)。使用本發(fā)明提供的基于內(nèi)容特征和主題特征的文本分組聚類(lèi)方法對(duì)新聞文本進(jìn)行分組聚類(lèi),可以令新聞文本的聚類(lèi)結(jié)果在兼顧新聞事件的針對(duì)性的基礎(chǔ)上避免聚類(lèi)結(jié)果過(guò)多的缺陷。 |
