用于文本聚類的方法、電子設(shè)備和存儲(chǔ)介質(zhì)
基本信息
申請(qǐng)?zhí)?/td> | CN202011491126.5 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN112256842B | 公開(kāi)(公告)日 | 2021-03-26 |
申請(qǐng)公布號(hào) | CN112256842B | 申請(qǐng)公布日 | 2021-03-26 |
分類號(hào) | G06F16/35(2019.01)I;G06F16/33(2019.01)I;G06F40/284(2020.01)I;G06F40/216(2020.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 尹揚(yáng);郭鵬華 | 申請(qǐng)(專利權(quán))人 | 上海朝陽(yáng)永續(xù)信息技術(shù)股份有限公司 |
代理機(jī)構(gòu) | 北京市金杜律師事務(wù)所 | 代理人 | 王茂華 |
地址 | 201203 上海市浦東新區(qū)中國(guó)(上海)自由貿(mào)易試驗(yàn)區(qū)碧波路690號(hào)4號(hào)樓501室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本公開(kāi)的實(shí)施例涉及用于文本聚類的方法、電子設(shè)備和存儲(chǔ)介質(zhì),涉及信息處理領(lǐng)域。根據(jù)該方法,確定多個(gè)第一文本中的每個(gè)詞語(yǔ)的詞頻?逆文檔頻率;從多個(gè)第一文本中的多個(gè)文本標(biāo)題中去除實(shí)體標(biāo)識(shí),以生成多個(gè)非實(shí)體標(biāo)題;基于詞頻?逆文檔頻率,確定與多個(gè)非實(shí)體標(biāo)題相關(guān)聯(lián)的多個(gè)第一特征表示;基于多個(gè)第一特征表示和第一密度半徑,對(duì)多個(gè)第一文本進(jìn)行密度聚類,以生成多個(gè)第一文本聚類和未被聚類的多個(gè)第二文本;基于詞頻?逆文檔頻率,確定與多個(gè)第二文本相關(guān)聯(lián)的多個(gè)第二特征表示;以及基于多個(gè)第二特征表示和第二密度半徑,對(duì)多個(gè)第二文本進(jìn)行密度聚類,以生成多個(gè)第二文本聚類,第二密度半徑大于第一密度半徑。由此,實(shí)現(xiàn)多層次的文本聚類。?? |
