一種面向圖書市場書名的短文本聚類方法
基本信息
申請?zhí)?/td> | CN201510886332.9 | 申請日 | - |
公開(公告)號 | CN105512277A | 公開(公告)日 | 2016-04-20 |
申請公布號 | CN105512277A | 申請公布日 | 2016-04-20 |
分類號 | G06F17/30(2006.01)I;G06K9/62(2006.01)I;G06F17/27(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 李歡;孫陽;劉海星;張立;尤樹林 | 申請(專利權(quán))人 | 化學工業(yè)出版社有限公司 |
代理機構(gòu) | 北京同立鈞成知識產(chǎn)權(quán)代理有限公司 | 代理人 | 楊貝貝;黃健 |
地址 | 100191 北京市海淀區(qū)北京航空航天大學7-28#信箱 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供一種面向圖書市場書名的短文本聚類方法,包括:對文本數(shù)據(jù)及設(shè)定的聚類關(guān)鍵詞進行詞向量化,計算文本數(shù)據(jù)詞向量到所述聚類關(guān)鍵詞向量的距離,根據(jù)每個文本數(shù)據(jù)詞向量到所述聚類關(guān)鍵詞向量的距離確定所述文本數(shù)據(jù)的聚類類型,根據(jù)所述文本數(shù)據(jù)的聚類類型將所述文本數(shù)據(jù)劃分到對應(yīng)的聚類集合;計算每個聚類集合中的所有文本數(shù)據(jù)詞向量中的特征詞的文件詞頻-逆向文件頻率TF-IDF值,確定TF-IDF值滿足設(shè)定條件的特征詞作為所述聚類集合的更新后的聚類關(guān)鍵詞;根據(jù)所述更新后的聚類關(guān)鍵詞確定所述文本數(shù)據(jù)的聚類類型。采用本發(fā)明實施例提供的方法,能夠更加準確地確定文本數(shù)據(jù)的聚類類型,使聚類結(jié)果能夠更接近用戶的實際需求。 |
