用于文本聚類的方法、電子設(shè)備和存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN202011491126.5 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN112256842B 公開(kāi)(公告)日 2021-03-26
申請(qǐng)公布號(hào) CN112256842B 申請(qǐng)公布日 2021-03-26
分類號(hào) G06F16/35(2019.01)I;G06F16/33(2019.01)I;G06F40/284(2020.01)I;G06F40/216(2020.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 尹揚(yáng);郭鵬華 申請(qǐng)(專利權(quán))人 上海朝陽(yáng)永續(xù)信息技術(shù)股份有限公司
代理機(jī)構(gòu) 北京市金杜律師事務(wù)所 代理人 王茂華
地址 201203 上海市浦東新區(qū)中國(guó)(上海)自由貿(mào)易試驗(yàn)區(qū)碧波路690號(hào)4號(hào)樓501室
法律狀態(tài) -

摘要

摘要 本公開(kāi)的實(shí)施例涉及用于文本聚類的方法、電子設(shè)備和存儲(chǔ)介質(zhì),涉及信息處理領(lǐng)域。根據(jù)該方法,確定多個(gè)第一文本中的每個(gè)詞語(yǔ)的詞頻?逆文檔頻率;從多個(gè)第一文本中的多個(gè)文本標(biāo)題中去除實(shí)體標(biāo)識(shí),以生成多個(gè)非實(shí)體標(biāo)題;基于詞頻?逆文檔頻率,確定與多個(gè)非實(shí)體標(biāo)題相關(guān)聯(lián)的多個(gè)第一特征表示;基于多個(gè)第一特征表示和第一密度半徑,對(duì)多個(gè)第一文本進(jìn)行密度聚類,以生成多個(gè)第一文本聚類和未被聚類的多個(gè)第二文本;基于詞頻?逆文檔頻率,確定與多個(gè)第二文本相關(guān)聯(lián)的多個(gè)第二特征表示;以及基于多個(gè)第二特征表示和第二密度半徑,對(duì)多個(gè)第二文本進(jìn)行密度聚類,以生成多個(gè)第二文本聚類,第二密度半徑大于第一密度半徑。由此,實(shí)現(xiàn)多層次的文本聚類。??