一種面向圖書市場書名的短文本聚類方法

基本信息

申請?zhí)?/td> CN201510886332.9 申請日 -
公開(公告)號 CN105512277A 公開(公告)日 2016-04-20
申請公布號 CN105512277A 申請公布日 2016-04-20
分類號 G06F17/30(2006.01)I;G06K9/62(2006.01)I;G06F17/27(2006.01)I 分類 計算;推算;計數;
發(fā)明人 李歡;孫陽;劉海星;張立;尤樹林 申請(專利權)人 化學工業(yè)出版社有限公司
代理機構 北京同立鈞成知識產權代理有限公司 代理人 楊貝貝;黃健
地址 100191 北京市海淀區(qū)北京航空航天大學7-28#信箱
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種面向圖書市場書名的短文本聚類方法,包括:對文本數據及設定的聚類關鍵詞進行詞向量化,計算文本數據詞向量到所述聚類關鍵詞向量的距離,根據每個文本數據詞向量到所述聚類關鍵詞向量的距離確定所述文本數據的聚類類型,根據所述文本數據的聚類類型將所述文本數據劃分到對應的聚類集合;計算每個聚類集合中的所有文本數據詞向量中的特征詞的文件詞頻-逆向文件頻率TF-IDF值,確定TF-IDF值滿足設定條件的特征詞作為所述聚類集合的更新后的聚類關鍵詞;根據所述更新后的聚類關鍵詞確定所述文本數據的聚類類型。采用本發(fā)明實施例提供的方法,能夠更加準確地確定文本數據的聚類類型,使聚類結果能夠更接近用戶的實際需求。