一種面向圖書市場書名的短文本聚類方法
基本信息
申請?zhí)?/td> | CN201510886332.9 | 申請日 | - |
公開(公告)號 | CN105512277B | 公開(公告)日 | 2019-09-20 |
申請公布號 | CN105512277B | 申請公布日 | 2019-09-20 |
分類號 | G06F16/35(2019.01)I; G06K9/62(2006.01)I; G06F17/27(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 李歡; 孫陽; 劉海星; 張立; 尤樹林 | 申請(專利權(quán))人 | 化學(xué)工業(yè)出版社有限公司 |
代理機(jī)構(gòu) | 北京同立鈞成知識產(chǎn)權(quán)代理有限公司 | 代理人 | 北京航空航天大學(xué); 化學(xué)工業(yè)出版社 |
地址 | 100191 北京市海淀區(qū)北京航空航天大學(xué)7-28#信箱 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供一種面向圖書市場書名的短文本聚類方法,包括:對文本數(shù)據(jù)及設(shè)定的聚類關(guān)鍵詞進(jìn)行詞向量化,計(jì)算文本數(shù)據(jù)詞向量到所述聚類關(guān)鍵詞向量的距離,根據(jù)每個(gè)文本數(shù)據(jù)詞向量到所述聚類關(guān)鍵詞向量的距離確定所述文本數(shù)據(jù)的聚類類型,根據(jù)所述文本數(shù)據(jù)的聚類類型將所述文本數(shù)據(jù)劃分到對應(yīng)的聚類集合;計(jì)算每個(gè)聚類集合中的所有文本數(shù)據(jù)詞向量中的特征詞的文件詞頻?逆向文件頻率TF?IDF值,確定TF?IDF值滿足設(shè)定條件的特征詞作為所述聚類集合的更新后的聚類關(guān)鍵詞;根據(jù)所述更新后的聚類關(guān)鍵詞確定所述文本數(shù)據(jù)的聚類類型。采用本發(fā)明實(shí)施例提供的方法,能夠更加準(zhǔn)確地確定文本數(shù)據(jù)的聚類類型,使聚類結(jié)果能夠更接近用戶的實(shí)際需求。 |
