一種基于表征增強與融合的文本分類方法
基本信息
申請?zhí)?/td> | CN202010668999.2 | 申請日 | - |
公開(公告)號 | CN111813939A | 公開(公告)日 | 2020-10-23 |
申請公布號 | CN111813939A | 申請公布日 | 2020-10-23 |
分類號 | G06F16/35(2019.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 劉峰;陳一飛 | 申請(專利權(quán))人 | 南京睿暉數(shù)據(jù)技術(shù)有限公司 |
代理機構(gòu) | 南京業(yè)騰知識產(chǎn)權(quán)代理事務所(特殊普通合伙) | 代理人 | 繆友益 |
地址 | 210000江蘇省南京市浦口區(qū)江浦街道雨山西路86號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種基于表征增強與融合的文本分類方法,包括構(gòu)建基于表征增強與融合的文本分類模型,輸入文本在基于表征增強與融合的文本分類模型內(nèi)的處理步驟為:在數(shù)據(jù)表征層將輸入文本的離散文字轉(zhuǎn)換為連續(xù)特征向量,得到多重的表征向量;在表征增強層將擾動加入表征向量中,得到表征增強向量;在表征抽象層對表征增強向量進一步提取和抽象,得到抽象表征向量;在分類層對抽象表征向量進行分類,得到輸出文本標簽;在融合層綜合各個輸出文本標簽,得到最終的文本標簽。本發(fā)明能有效解決現(xiàn)有文本多類分類中存在的樣本數(shù)據(jù)在類別間分布不平衡、少數(shù)類別中樣本數(shù)量缺乏時正確分類困難的問題。?? |
