一種面向圖書市場書名的短文本聚類方法

基本信息

申請?zhí)?/td> CN201510886332.9 申請日 -
公開(公告)號 CN105512277A 公開(公告)日 2016-04-20
申請公布號 CN105512277A 申請公布日 2016-04-20
分類號 G06F17/30(2006.01)I;G06K9/62(2006.01)I;G06F17/27(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 李歡;孫陽;劉海星;張立;尤樹林 申請(專利權(quán))人 化學工業(yè)出版社有限公司
代理機構(gòu) 北京同立鈞成知識產(chǎn)權(quán)代理有限公司 代理人 楊貝貝;黃健
地址 100191 北京市海淀區(qū)北京航空航天大學7-28#信箱
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種面向圖書市場書名的短文本聚類方法,包括:對文本數(shù)據(jù)及設(shè)定的聚類關(guān)鍵詞進行詞向量化,計算文本數(shù)據(jù)詞向量到所述聚類關(guān)鍵詞向量的距離,根據(jù)每個文本數(shù)據(jù)詞向量到所述聚類關(guān)鍵詞向量的距離確定所述文本數(shù)據(jù)的聚類類型,根據(jù)所述文本數(shù)據(jù)的聚類類型將所述文本數(shù)據(jù)劃分到對應(yīng)的聚類集合;計算每個聚類集合中的所有文本數(shù)據(jù)詞向量中的特征詞的文件詞頻-逆向文件頻率TF-IDF值,確定TF-IDF值滿足設(shè)定條件的特征詞作為所述聚類集合的更新后的聚類關(guān)鍵詞;根據(jù)所述更新后的聚類關(guān)鍵詞確定所述文本數(shù)據(jù)的聚類類型。采用本發(fā)明實施例提供的方法,能夠更加準確地確定文本數(shù)據(jù)的聚類類型,使聚類結(jié)果能夠更接近用戶的實際需求。