一種文本聚類方法及裝置
基本信息
申請(qǐng)?zhí)?/td> | CN201910250896.1 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN110083828A | 公開(公告)日 | 2019-08-02 |
申請(qǐng)公布號(hào) | CN110083828A | 申請(qǐng)公布日 | 2019-08-02 |
分類號(hào) | G06F17/27;G06F16/35 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 王曉琳 | 申請(qǐng)(專利權(quán))人 | 珠海遠(yuǎn)光消防科技有限公司 |
代理機(jī)構(gòu) | 北京天達(dá)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 龐許倩;裴紅 |
地址 | 519000 廣東省珠海市橫琴新區(qū)寶華路6號(hào)105室-4675 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種文本聚類方法及裝置,解決了現(xiàn)有文本聚類存在的文本聚類時(shí)間長、效率低、效果差的問題。本發(fā)明中的文本聚類方法包括以下步驟:采集數(shù)據(jù)構(gòu)建文本庫,得到所述文本庫中的所有特征詞,根據(jù)各特征詞在文本庫所有特征詞中出現(xiàn)的頻次,得到各特征詞的權(quán)重,將特征詞及對(duì)應(yīng)的特征詞權(quán)重保存至數(shù)據(jù)庫中;采集各待聚類文本,獲取所述各待聚類文本中的特征詞;根據(jù)所述各待聚類文本中的特征詞及其在所述數(shù)據(jù)庫中的權(quán)重,得到各特征詞的詞向量、各待聚類文本的句向量以及所有待聚類文本的特征向量;利用所述待聚類文本的特征向量,對(duì)所述待聚類文本進(jìn)行聚類。本發(fā)明中方法能夠有效縮短文本聚類時(shí)間、提升聚類效率、達(dá)到較好的聚類效果。 |
