一種缺少負(fù)例的文本分類方法
基本信息
申請(qǐng)?zhí)?/td> | CN201911058163.4 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN110795564A | 公開(kāi)(公告)日 | 2020-02-14 |
申請(qǐng)公布號(hào) | CN110795564A | 申請(qǐng)公布日 | 2020-02-14 |
分類號(hào) | G06F16/35;G06F40/216;G06F40/242;G06K9/62 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 吳剛;王楠 | 申請(qǐng)(專利權(quán))人 | 南京稷圖數(shù)據(jù)科技有限公司 |
代理機(jī)構(gòu) | 江蘇瑞途律師事務(wù)所 | 代理人 | 劉琦 |
地址 | 210000 江蘇省南京市秣周東路12號(hào)南京未來(lái)科技城3號(hào)樓1805室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)了一種缺少負(fù)例的文本分類方法,屬于機(jī)器學(xué)習(xí)和文本分類技術(shù)領(lǐng)域。該方法首先確定待分類的數(shù)據(jù)文本,并自定義文本分類類別;然后基于獲取的語(yǔ)料庫(kù)訓(xùn)練TF?IDF模型和LSI模型;然后基于訓(xùn)練好的TF?IDF模型和LSI模型分別構(gòu)建文本的特征向量,并基于ensemble方法構(gòu)建組合的文本特征向量;然后采用ROC?SVM組合算法,訓(xùn)練Basic分類器,并且可結(jié)合k?means聚類方法進(jìn)行Basic分類器的訓(xùn)練,同時(shí)訓(xùn)練label分類器;最后將待分類的文本首先采用Basic分類器進(jìn)行初始分類,并用Elasticsearch進(jìn)行篩選,確定候選分類,再采用label分類器將待分類文檔準(zhǔn)確的分入自定義類別中的一類或者幾類中。本發(fā)明的方法能夠有效地對(duì)缺少負(fù)例的文本數(shù)據(jù)進(jìn)行分類,準(zhǔn)確率高、效果好、效率高。 |
