一種長文本的無監(jiān)督分類方法

基本信息

申請?zhí)?/td> CN202110691284.3 申請日 -
公開(公告)號 CN113378950A 公開(公告)日 2021-09-10
申請公布號 CN113378950A 申請公布日 2021-09-10
分類號 G06K9/62(2006.01)I;G06F40/284(2020.01)I;G06F40/30(2020.01)I;G06N3/08(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 林正春;蘭林;陳功文 申請(專利權(quán))人 深圳市查策網(wǎng)絡(luò)信息技術(shù)有限公司
代理機構(gòu) 深圳市查策知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 曾令安
地址 518000廣東省深圳市龍華區(qū)民治街道民樂社區(qū)星河WORLD二期C棟3103A
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種長文本的無監(jiān)督分類方法,包括以下步驟:對待分類長文本進行過濾,提取待分類長文本中的標(biāo)題文本、正文文本及發(fā)文部門文本三個部分;提取標(biāo)題文本、正文文本及發(fā)文部門文本三個部分的權(quán)重系數(shù);根據(jù)提取的權(quán)重系數(shù)將標(biāo)題文本、正文文本及發(fā)文部門文本融合成一個新的長文本T;對新的長文本T進行中文分詞,提取分詞信息;將分詞信息輸入詞向量模型得到詞向量信息;根據(jù)詞向量信息,計算長文本T的特征向量;對長文本T的特征向量進行聚類得到文本分類。通過本發(fā)明,改進長文本分類的方法,降低了長文本分類的時間復(fù)雜度,提高長文本分類的準(zhǔn)確性,更方便用戶對長文本解讀和分類。