一種文本聚類方法、裝置和計(jì)算設(shè)備

基本信息

申請(qǐng)?zhí)?/td> CN201910779788.3 申請(qǐng)日 -
公開(公告)號(hào) CN110532389A 公開(公告)日 2019-12-03
申請(qǐng)公布號(hào) CN110532389A 申請(qǐng)公布日 2019-12-03
分類號(hào) G06F16/35;G06F17/27;G06K9/62 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 吳文豪 申請(qǐng)(專利權(quán))人 四川睿象科技有限公司
代理機(jī)構(gòu) 北京思睿峰知識(shí)產(chǎn)權(quán)代理有限公司 代理人 謝建云;趙愛軍
地址 640041 四川省成都市自由貿(mào)易試驗(yàn)區(qū)成都高新區(qū)吉泰五路88號(hào)3棟29層11號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種文本聚類方法,適于在計(jì)算設(shè)備中執(zhí)行,該方法包括步驟:獲取多條文本數(shù)據(jù)構(gòu)成第一文本庫(kù),并通過比較各文本的第一簽名值來(lái)對(duì)第一文本庫(kù)進(jìn)行聚類,得到n個(gè)第一聚類分組;分別從各第一聚類分組中選取一個(gè)第一代表文本構(gòu)成第二文本庫(kù),并通過計(jì)算各第一代表文本的相似度來(lái)對(duì)第二文本庫(kù)進(jìn)行聚類,得到m個(gè)第二聚類分組;對(duì)于每個(gè)第二聚類分組,將其中的各第一代表文本均替換為第一代表文本所屬的第一聚類分組的文本,得到對(duì)應(yīng)的m個(gè)第三聚類分組;以及分別計(jì)算各第三聚類分組內(nèi)所有文本的最長(zhǎng)公共子串,并根據(jù)該最長(zhǎng)公共子串生成各第三聚類分組的文本表達(dá)模式。本發(fā)明還一并公開了對(duì)應(yīng)的文本聚類裝置和計(jì)算設(shè)備。