文本聚類的方法、設(shè)備和存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN201910753636.6 申請(qǐng)日 -
公開(公告)號(hào) CN110532388B 公開(公告)日 2022-07-01
申請(qǐng)公布號(hào) CN110532388B 申請(qǐng)公布日 2022-07-01
分類號(hào) G06F16/35(2019.01)I;G06F40/258(2020.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 龔朝輝;陳汝龍;陳譽(yù);段成閣 申請(qǐng)(專利權(quán))人 企查查科技有限公司
代理機(jī)構(gòu) 蘇州威世朋知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 -
地址 215000 江蘇省蘇州市工業(yè)園區(qū)東長(zhǎng)路88號(hào)C1幢5層503室
法律狀態(tài) -

摘要

摘要 本發(fā)明揭示了一種文本聚類的方法、設(shè)備和存儲(chǔ)介質(zhì),所述方法包括:獲取待聚類的文本標(biāo)題列表;以所述文本標(biāo)題為頂點(diǎn),以所述文本標(biāo)題向量化后的距離為邊,構(gòu)建所述文本標(biāo)題之間的初始連通圖;移除所述初始連通圖的大于初始距離閾值的邊,得到一個(gè)或者多個(gè)子連通圖;計(jì)算每個(gè)所述子連通圖的聚集程度,若一個(gè)所述子連通圖的聚集程度大于或等于分簇閾值,所述子連通圖對(duì)應(yīng)的文本集合即為一個(gè)文本簇。與現(xiàn)有技術(shù)相比,本發(fā)明能夠?qū)ξ谋具M(jìn)行快速、穩(wěn)定地聚類,同樣的文本數(shù)據(jù)每次聚類的結(jié)果是一致的。同時(shí),使用此方法對(duì)企業(yè)相關(guān)的新聞進(jìn)行聚類,能夠快速的實(shí)現(xiàn)對(duì)企業(yè)熱點(diǎn)新聞的穩(wěn)定提取,對(duì)于企業(yè)相關(guān)的新聞熱點(diǎn)提取有較好的效果。