一種長文本的無監(jiān)督分類方法
基本信息
申請?zhí)?/td> | CN202110691284.3 | 申請日 | - |
公開(公告)號 | CN113378950A | 公開(公告)日 | 2021-09-10 |
申請公布號 | CN113378950A | 申請公布日 | 2021-09-10 |
分類號 | G06K9/62(2006.01)I;G06F40/284(2020.01)I;G06F40/30(2020.01)I;G06N3/08(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 林正春;蘭林;陳功文 | 申請(專利權(quán))人 | 深圳市查策網(wǎng)絡(luò)信息技術(shù)有限公司 |
代理機構(gòu) | 深圳市查策知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 曾令安 |
地址 | 518000廣東省深圳市龍華區(qū)民治街道民樂社區(qū)星河WORLD二期C棟3103A | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種長文本的無監(jiān)督分類方法,包括以下步驟:對待分類長文本進行過濾,提取待分類長文本中的標(biāo)題文本、正文文本及發(fā)文部門文本三個部分;提取標(biāo)題文本、正文文本及發(fā)文部門文本三個部分的權(quán)重系數(shù);根據(jù)提取的權(quán)重系數(shù)將標(biāo)題文本、正文文本及發(fā)文部門文本融合成一個新的長文本T;對新的長文本T進行中文分詞,提取分詞信息;將分詞信息輸入詞向量模型得到詞向量信息;根據(jù)詞向量信息,計算長文本T的特征向量;對長文本T的特征向量進行聚類得到文本分類。通過本發(fā)明,改進長文本分類的方法,降低了長文本分類的時間復(fù)雜度,提高長文本分類的準(zhǔn)確性,更方便用戶對長文本解讀和分類。 |
