一種面向圖書市場書名的短文本聚類方法

基本信息

申請?zhí)?/td> CN201510886332.9 申請日 -
公開(公告)號 CN105512277B 公開(公告)日 2019-09-20
申請公布號 CN105512277B 申請公布日 2019-09-20
分類號 G06F16/35(2019.01)I; G06K9/62(2006.01)I; G06F17/27(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 李歡; 孫陽; 劉海星; 張立; 尤樹林 申請(專利權(quán))人 化學(xué)工業(yè)出版社有限公司
代理機(jī)構(gòu) 北京同立鈞成知識產(chǎn)權(quán)代理有限公司 代理人 北京航空航天大學(xué); 化學(xué)工業(yè)出版社
地址 100191 北京市海淀區(qū)北京航空航天大學(xué)7-28#信箱
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種面向圖書市場書名的短文本聚類方法,包括:對文本數(shù)據(jù)及設(shè)定的聚類關(guān)鍵詞進(jìn)行詞向量化,計(jì)算文本數(shù)據(jù)詞向量到所述聚類關(guān)鍵詞向量的距離,根據(jù)每個(gè)文本數(shù)據(jù)詞向量到所述聚類關(guān)鍵詞向量的距離確定所述文本數(shù)據(jù)的聚類類型,根據(jù)所述文本數(shù)據(jù)的聚類類型將所述文本數(shù)據(jù)劃分到對應(yīng)的聚類集合;計(jì)算每個(gè)聚類集合中的所有文本數(shù)據(jù)詞向量中的特征詞的文件詞頻?逆向文件頻率TF?IDF值,確定TF?IDF值滿足設(shè)定條件的特征詞作為所述聚類集合的更新后的聚類關(guān)鍵詞;根據(jù)所述更新后的聚類關(guān)鍵詞確定所述文本數(shù)據(jù)的聚類類型。采用本發(fā)明實(shí)施例提供的方法,能夠更加準(zhǔn)確地確定文本數(shù)據(jù)的聚類類型,使聚類結(jié)果能夠更接近用戶的實(shí)際需求。