文本聚類的方法、設(shè)備和存儲(chǔ)介質(zhì)
基本信息
申請(qǐng)?zhí)?/td> | CN201910753636.6 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN110532388B | 公開(公告)日 | 2022-07-01 |
申請(qǐng)公布號(hào) | CN110532388B | 申請(qǐng)公布日 | 2022-07-01 |
分類號(hào) | G06F16/35(2019.01)I;G06F40/258(2020.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 龔朝輝;陳汝龍;陳譽(yù);段成閣 | 申請(qǐng)(專利權(quán))人 | 企查查科技有限公司 |
代理機(jī)構(gòu) | 蘇州威世朋知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | - |
地址 | 215000 江蘇省蘇州市工業(yè)園區(qū)東長(zhǎng)路88號(hào)C1幢5層503室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明揭示了一種文本聚類的方法、設(shè)備和存儲(chǔ)介質(zhì),所述方法包括:獲取待聚類的文本標(biāo)題列表;以所述文本標(biāo)題為頂點(diǎn),以所述文本標(biāo)題向量化后的距離為邊,構(gòu)建所述文本標(biāo)題之間的初始連通圖;移除所述初始連通圖的大于初始距離閾值的邊,得到一個(gè)或者多個(gè)子連通圖;計(jì)算每個(gè)所述子連通圖的聚集程度,若一個(gè)所述子連通圖的聚集程度大于或等于分簇閾值,所述子連通圖對(duì)應(yīng)的文本集合即為一個(gè)文本簇。與現(xiàn)有技術(shù)相比,本發(fā)明能夠?qū)ξ谋具M(jìn)行快速、穩(wěn)定地聚類,同樣的文本數(shù)據(jù)每次聚類的結(jié)果是一致的。同時(shí),使用此方法對(duì)企業(yè)相關(guān)的新聞進(jìn)行聚類,能夠快速的實(shí)現(xiàn)對(duì)企業(yè)熱點(diǎn)新聞的穩(wěn)定提取,對(duì)于企業(yè)相關(guān)的新聞熱點(diǎn)提取有較好的效果。 |
