一種基于術語頻率和卡方統(tǒng)計的文本分類特征選擇方法

基本信息

申請?zhí)?/td> CN201410629761.3 申請日 -
公開(公告)號 CN104346459B 公開(公告)日 2017-10-27
申請公布號 CN104346459B 申請公布日 2017-10-27
分類號 G06F17/30(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 馬廷淮;金傳鑫;侯榮濤;田偉;薛羽 申請(專利權)人 學科網(wǎng)(北京)股份有限公司
代理機構 南京眾聯(lián)專利代理有限公司 代理人 南京信息工程大學;北京鳳凰學易科技有限公司
地址 210044 江蘇省南京市寧六路219號
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種基于術語頻率和卡方統(tǒng)計的文本分類特征選擇方法,包括如下步驟:對數(shù)據(jù)集預處理;把每一個數(shù)據(jù)對象轉換為特征空間的向量;分別計算每個術語在每個文本分類中的最大術語頻率和平均術語頻率;根據(jù)平均術語頻率計算術語在每個類中的分布差異度;將每個術語的最大術語頻率和分布差異度與傳統(tǒng)的卡方統(tǒng)計公式相結合,計算每個術語在每個類中的權重,并取最大值為術語權重;將每個術語權重降序排序,選出權重值最大的前N個術語作為特征。本發(fā)明通過對傳統(tǒng)的卡方統(tǒng)計進行改進,使在某類出現(xiàn)頻率較高的或類內(nèi)分布均勻的特征項對類別區(qū)分的貢獻度得到體現(xiàn),并修正了傳統(tǒng)卡方統(tǒng)計方法偏向于低頻詞的不足。