用于文本聚類的方法、電子設(shè)備和存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN202011491126.5 | 申請日 | - |
公開(公告)號 | CN112256842B | 公開(公告)日 | 2021-03-26 |
申請公布號 | CN112256842B | 申請公布日 | 2021-03-26 |
分類號 | G06F16/35(2019.01)I;G06F16/33(2019.01)I;G06F40/284(2020.01)I;G06F40/216(2020.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 尹揚;郭鵬華 | 申請(專利權(quán))人 | 上海朝陽永續(xù)信息技術(shù)股份有限公司 |
代理機構(gòu) | 北京市金杜律師事務所 | 代理人 | 王茂華 |
地址 | 201203 上海市浦東新區(qū)中國(上海)自由貿(mào)易試驗區(qū)碧波路690號4號樓501室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本公開的實施例涉及用于文本聚類的方法、電子設(shè)備和存儲介質(zhì),涉及信息處理領(lǐng)域。根據(jù)該方法,確定多個第一文本中的每個詞語的詞頻?逆文檔頻率;從多個第一文本中的多個文本標題中去除實體標識,以生成多個非實體標題;基于詞頻?逆文檔頻率,確定與多個非實體標題相關(guān)聯(lián)的多個第一特征表示;基于多個第一特征表示和第一密度半徑,對多個第一文本進行密度聚類,以生成多個第一文本聚類和未被聚類的多個第二文本;基于詞頻?逆文檔頻率,確定與多個第二文本相關(guān)聯(lián)的多個第二特征表示;以及基于多個第二特征表示和第二密度半徑,對多個第二文本進行密度聚類,以生成多個第二文本聚類,第二密度半徑大于第一密度半徑。由此,實現(xiàn)多層次的文本聚類。?? |
