一種缺少負例的文本分類方法

基本信息

申請?zhí)?/td> CN201911058163.4 申請日 -
公開(公告)號 CN110795564B 公開(公告)日 2022-02-22
申請公布號 CN110795564B 申請公布日 2022-02-22
分類號 G06F16/35(2019.01)I;G06F40/216(2020.01)I;G06F40/242(2020.01)I;G06K9/62(2022.01)I 分類 計算;推算;計數(shù);
發(fā)明人 吳剛;王楠 申請(專利權)人 南京稷圖數(shù)據(jù)科技有限公司
代理機構 江蘇瑞途律師事務所 代理人 劉琦
地址 210000江蘇省南京市秣周東路12號南京未來科技城3號樓1805室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種缺少負例的文本分類方法,屬于機器學習和文本分類技術領域。該方法首先確定待分類的數(shù)據(jù)文本,并自定義文本分類類別;然后基于獲取的語料庫訓練TF?IDF模型和LSI模型;然后基于訓練好的TF?IDF模型和LSI模型分別構建文本的特征向量,并基于ensemble方法構建組合的文本特征向量;然后采用ROC?SVM組合算法,訓練Basic分類器,并且可結合k?means聚類方法進行Basic分類器的訓練,同時訓練label分類器;最后將待分類的文本首先采用Basic分類器進行初始分類,并用Elasticsearch進行篩選,確定候選分類,再采用label分類器將待分類文檔準確的分入自定義類別中的一類或者幾類中。本發(fā)明的方法能夠有效地對缺少負例的文本數(shù)據(jù)進行分類,準確率高、效果好、效率高。