一種文本精細(xì)分類(lèi)方法

基本信息

申請(qǐng)?zhí)?/td> CN201510239027.0 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN104820703A 公開(kāi)(公告)日 2015-08-05
申請(qǐng)公布號(hào) CN104820703A 申請(qǐng)公布日 2015-08-05
分類(lèi)號(hào) G06F17/30(2006.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 鄭勝;張勝;鄒復(fù)好;蔣丹;夏明;周可 申請(qǐng)(專(zhuān)利權(quán))人 武漢數(shù)為科技有限公司
代理機(jī)構(gòu) 武漢東喻專(zhuān)利代理事務(wù)所(普通合伙) 代理人 宋業(yè)斌
地址 430074 湖北省武漢市東湖高新技術(shù)開(kāi)發(fā)區(qū)高新大道999號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種文本精細(xì)分類(lèi)方法,屬于計(jì)算機(jī)自然語(yǔ)言處理或模式識(shí)別技術(shù)領(lǐng)域,解決現(xiàn)有文本分類(lèi)方法針對(duì)短文檔精細(xì)類(lèi)別劃分準(zhǔn)確率低的問(wèn)題。本發(fā)明首先根據(jù)已知訓(xùn)練樣本,構(gòu)造兩級(jí)分類(lèi)器,每一級(jí)分類(lèi)器都包含獨(dú)立的敏感詞典;其次,對(duì)分類(lèi)器的訓(xùn)練樣本執(zhí)行分詞、去除專(zhuān)用停頓詞、同義詞網(wǎng)映射等操作,實(shí)現(xiàn)詞向量的預(yù)處理;再次,根據(jù)詞向量的重要性差異進(jìn)行特征選擇,構(gòu)建分類(lèi)器的敏感詞典;再次,利用KNN算法計(jì)算目標(biāo)文檔的精細(xì)分類(lèi)結(jié)果;最后,對(duì)分類(lèi)結(jié)果進(jìn)行評(píng)價(jià)與反饋,動(dòng)態(tài)優(yōu)化敏感詞典,進(jìn)一步提高分類(lèi)準(zhǔn)確率。實(shí)驗(yàn)證明,針對(duì)短文檔,采用本文的文本精細(xì)分類(lèi)方法,可以顯著提高精細(xì)分類(lèi)的準(zhǔn)確率。