一種缺少負例的文本分類方法
基本信息
申請?zhí)?/td> | CN201911058163.4 | 申請日 | - |
公開(公告)號 | CN110795564B | 公開(公告)日 | 2022-02-22 |
申請公布號 | CN110795564B | 申請公布日 | 2022-02-22 |
分類號 | G06F16/35(2019.01)I;G06F40/216(2020.01)I;G06F40/242(2020.01)I;G06K9/62(2022.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 吳剛;王楠 | 申請(專利權)人 | 南京稷圖數(shù)據(jù)科技有限公司 |
代理機構 | 江蘇瑞途律師事務所 | 代理人 | 劉琦 |
地址 | 210000江蘇省南京市秣周東路12號南京未來科技城3號樓1805室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種缺少負例的文本分類方法,屬于機器學習和文本分類技術領域。該方法首先確定待分類的數(shù)據(jù)文本,并自定義文本分類類別;然后基于獲取的語料庫訓練TF?IDF模型和LSI模型;然后基于訓練好的TF?IDF模型和LSI模型分別構建文本的特征向量,并基于ensemble方法構建組合的文本特征向量;然后采用ROC?SVM組合算法,訓練Basic分類器,并且可結合k?means聚類方法進行Basic分類器的訓練,同時訓練label分類器;最后將待分類的文本首先采用Basic分類器進行初始分類,并用Elasticsearch進行篩選,確定候選分類,再采用label分類器將待分類文檔準確的分入自定義類別中的一類或者幾類中。本發(fā)明的方法能夠有效地對缺少負例的文本數(shù)據(jù)進行分類,準確率高、效果好、效率高。 |
