一種基于術(shù)語頻率和卡方統(tǒng)計(jì)的文本分類特征選擇方法

基本信息

申請(qǐng)?zhí)?/td> CN201410629761.3 申請(qǐng)日 -
公開(公告)號(hào) CN104346459A 公開(公告)日 2015-02-11
申請(qǐng)公布號(hào) CN104346459A 申請(qǐng)公布日 2015-02-11
分類號(hào) G06F17/30(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 馬廷淮;金傳鑫;侯榮濤;田偉;薛羽 申請(qǐng)(專利權(quán))人 學(xué)科網(wǎng)(北京)股份有限公司
代理機(jī)構(gòu) 南京眾聯(lián)專利代理有限公司 代理人 顧進(jìn);葉涓涓
地址 100089 北京市海淀區(qū)北清路68號(hào)院2號(hào)樓二層02214室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種基于術(shù)語頻率和卡方統(tǒng)計(jì)的文本分類特征選擇方法,包括如下步驟:對(duì)數(shù)據(jù)集預(yù)處理;把每一個(gè)數(shù)據(jù)對(duì)象轉(zhuǎn)換為特征空間的向量;分別計(jì)算每個(gè)術(shù)語在每個(gè)文本分類中的最大術(shù)語頻率和平均術(shù)語頻率;根據(jù)平均術(shù)語頻率計(jì)算術(shù)語在每個(gè)類中的分布差異度;將每個(gè)術(shù)語的最大術(shù)語頻率和分布差異度與傳統(tǒng)的卡方統(tǒng)計(jì)公式相結(jié)合,計(jì)算每個(gè)術(shù)語在每個(gè)類中的權(quán)重,并取最大值為術(shù)語權(quán)重;將每個(gè)術(shù)語權(quán)重降序排序,選出權(quán)重值最大的前N個(gè)術(shù)語作為特征。本發(fā)明通過對(duì)傳統(tǒng)的卡方統(tǒng)計(jì)進(jìn)行改進(jìn),使在某類出現(xiàn)頻率較高的或類內(nèi)分布均勻的特征項(xiàng)對(duì)類別區(qū)分的貢獻(xiàn)度得到體現(xiàn),并修正了傳統(tǒng)卡方統(tǒng)計(jì)方法偏向于低頻詞的不足。