一種基于機器學習的文本分類方法
基本信息
申請?zhí)?/td> | CN202011544023.0 | 申請日 | - |
公開(公告)號 | CN113157912A | 公開(公告)日 | 2021-07-23 |
申請公布號 | CN113157912A | 申請公布日 | 2021-07-23 |
分類號 | G06F16/35;G06F40/216;G06K9/62;G06N20/10 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 劉建雄;陳敏 | 申請(專利權(quán))人 | 航天科工網(wǎng)絡(luò)信息發(fā)展有限公司 |
代理機構(gòu) | 中國兵器工業(yè)集團公司專利中心 | 代理人 | 張然 |
地址 | 100854 北京市海淀區(qū)永定路52號東門 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種基于機器學習的文本分類方法,其中,包括:文本數(shù)據(jù)預(yù)處理、文本表示、特征降維、分類模型訓練以及分類性能評估;文本數(shù)據(jù)預(yù)處理具體包括:按照順序需要對文本數(shù)據(jù)進行操作:文本標記、文本分詞處理以及去除停用詞處理;文本表示包括:經(jīng)過文本預(yù)處理之后,將文本表示成一種形式化數(shù)學描述,使之成為計算機能夠識別的語言;卡方統(tǒng)計算法以及互信息算法,進行特征降維。本發(fā)明在CHI中引入詞頻因子,MI中引入調(diào)節(jié)因子,形成新的特征選取算法CHMI,理論效果優(yōu)于卡方統(tǒng)計和互信息算法,實現(xiàn)了快速、準確獲取到目標數(shù)據(jù)。 |
