一種文本聚類方法及裝置

基本信息

申請(qǐng)?zhí)?/td> CN201910250896.1 申請(qǐng)日 -
公開(公告)號(hào) CN110083828A 公開(公告)日 2019-08-02
申請(qǐng)公布號(hào) CN110083828A 申請(qǐng)公布日 2019-08-02
分類號(hào) G06F17/27;G06F16/35 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 王曉琳 申請(qǐng)(專利權(quán))人 珠海遠(yuǎn)光消防科技有限公司
代理機(jī)構(gòu) 北京天達(dá)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 龐許倩;裴紅
地址 519000 廣東省珠海市橫琴新區(qū)寶華路6號(hào)105室-4675
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種文本聚類方法及裝置,解決了現(xiàn)有文本聚類存在的文本聚類時(shí)間長、效率低、效果差的問題。本發(fā)明中的文本聚類方法包括以下步驟:采集數(shù)據(jù)構(gòu)建文本庫,得到所述文本庫中的所有特征詞,根據(jù)各特征詞在文本庫所有特征詞中出現(xiàn)的頻次,得到各特征詞的權(quán)重,將特征詞及對(duì)應(yīng)的特征詞權(quán)重保存至數(shù)據(jù)庫中;采集各待聚類文本,獲取所述各待聚類文本中的特征詞;根據(jù)所述各待聚類文本中的特征詞及其在所述數(shù)據(jù)庫中的權(quán)重,得到各特征詞的詞向量、各待聚類文本的句向量以及所有待聚類文本的特征向量;利用所述待聚類文本的特征向量,對(duì)所述待聚類文本進(jìn)行聚類。本發(fā)明中方法能夠有效縮短文本聚類時(shí)間、提升聚類效率、達(dá)到較好的聚類效果。