一種基于術(shù)語頻率和卡方統(tǒng)計(jì)的文本分類特征選擇方法
基本信息
申請(qǐng)?zhí)?/td> | CN201410629761.3 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN104346459A | 公開(公告)日 | 2015-02-11 |
申請(qǐng)公布號(hào) | CN104346459A | 申請(qǐng)公布日 | 2015-02-11 |
分類號(hào) | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 馬廷淮;金傳鑫;侯榮濤;田偉;薛羽 | 申請(qǐng)(專利權(quán))人 | 學(xué)科網(wǎng)(北京)股份有限公司 |
代理機(jī)構(gòu) | 南京眾聯(lián)專利代理有限公司 | 代理人 | 顧進(jìn);葉涓涓 |
地址 | 100089 北京市海淀區(qū)北清路68號(hào)院2號(hào)樓二層02214室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供一種基于術(shù)語頻率和卡方統(tǒng)計(jì)的文本分類特征選擇方法,包括如下步驟:對(duì)數(shù)據(jù)集預(yù)處理;把每一個(gè)數(shù)據(jù)對(duì)象轉(zhuǎn)換為特征空間的向量;分別計(jì)算每個(gè)術(shù)語在每個(gè)文本分類中的最大術(shù)語頻率和平均術(shù)語頻率;根據(jù)平均術(shù)語頻率計(jì)算術(shù)語在每個(gè)類中的分布差異度;將每個(gè)術(shù)語的最大術(shù)語頻率和分布差異度與傳統(tǒng)的卡方統(tǒng)計(jì)公式相結(jié)合,計(jì)算每個(gè)術(shù)語在每個(gè)類中的權(quán)重,并取最大值為術(shù)語權(quán)重;將每個(gè)術(shù)語權(quán)重降序排序,選出權(quán)重值最大的前N個(gè)術(shù)語作為特征。本發(fā)明通過對(duì)傳統(tǒng)的卡方統(tǒng)計(jì)進(jìn)行改進(jìn),使在某類出現(xiàn)頻率較高的或類內(nèi)分布均勻的特征項(xiàng)對(duì)類別區(qū)分的貢獻(xiàn)度得到體現(xiàn),并修正了傳統(tǒng)卡方統(tǒng)計(jì)方法偏向于低頻詞的不足。 |
