一種文本精細(xì)分類(lèi)方法
基本信息
申請(qǐng)?zhí)?/td> | CN201510239027.0 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN104820703A | 公開(kāi)(公告)日 | 2015-08-05 |
申請(qǐng)公布號(hào) | CN104820703A | 申請(qǐng)公布日 | 2015-08-05 |
分類(lèi)號(hào) | G06F17/30(2006.01)I | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 鄭勝;張勝;鄒復(fù)好;蔣丹;夏明;周可 | 申請(qǐng)(專(zhuān)利權(quán))人 | 武漢數(shù)為科技有限公司 |
代理機(jī)構(gòu) | 武漢東喻專(zhuān)利代理事務(wù)所(普通合伙) | 代理人 | 宋業(yè)斌 |
地址 | 430074 湖北省武漢市東湖高新技術(shù)開(kāi)發(fā)區(qū)高新大道999號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種文本精細(xì)分類(lèi)方法,屬于計(jì)算機(jī)自然語(yǔ)言處理或模式識(shí)別技術(shù)領(lǐng)域,解決現(xiàn)有文本分類(lèi)方法針對(duì)短文檔精細(xì)類(lèi)別劃分準(zhǔn)確率低的問(wèn)題。本發(fā)明首先根據(jù)已知訓(xùn)練樣本,構(gòu)造兩級(jí)分類(lèi)器,每一級(jí)分類(lèi)器都包含獨(dú)立的敏感詞典;其次,對(duì)分類(lèi)器的訓(xùn)練樣本執(zhí)行分詞、去除專(zhuān)用停頓詞、同義詞網(wǎng)映射等操作,實(shí)現(xiàn)詞向量的預(yù)處理;再次,根據(jù)詞向量的重要性差異進(jìn)行特征選擇,構(gòu)建分類(lèi)器的敏感詞典;再次,利用KNN算法計(jì)算目標(biāo)文檔的精細(xì)分類(lèi)結(jié)果;最后,對(duì)分類(lèi)結(jié)果進(jìn)行評(píng)價(jià)與反饋,動(dòng)態(tài)優(yōu)化敏感詞典,進(jìn)一步提高分類(lèi)準(zhǔn)確率。實(shí)驗(yàn)證明,針對(duì)短文檔,采用本文的文本精細(xì)分類(lèi)方法,可以顯著提高精細(xì)分類(lèi)的準(zhǔn)確率。 |
