一種基于機器學習的文本分類方法

基本信息

申請?zhí)?/td> CN202011544023.0 申請日 -
公開(公告)號 CN113157912A 公開(公告)日 2021-07-23
申請公布號 CN113157912A 申請公布日 2021-07-23
分類號 G06F16/35;G06F40/216;G06K9/62;G06N20/10 分類 計算;推算;計數(shù);
發(fā)明人 劉建雄;陳敏 申請(專利權(quán))人 航天科工網(wǎng)絡(luò)信息發(fā)展有限公司
代理機構(gòu) 中國兵器工業(yè)集團公司專利中心 代理人 張然
地址 100854 北京市海淀區(qū)永定路52號東門
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種基于機器學習的文本分類方法,其中,包括:文本數(shù)據(jù)預(yù)處理、文本表示、特征降維、分類模型訓練以及分類性能評估;文本數(shù)據(jù)預(yù)處理具體包括:按照順序需要對文本數(shù)據(jù)進行操作:文本標記、文本分詞處理以及去除停用詞處理;文本表示包括:經(jīng)過文本預(yù)處理之后,將文本表示成一種形式化數(shù)學描述,使之成為計算機能夠識別的語言;卡方統(tǒng)計算法以及互信息算法,進行特征降維。本發(fā)明在CHI中引入詞頻因子,MI中引入調(diào)節(jié)因子,形成新的特征選取算法CHMI,理論效果優(yōu)于卡方統(tǒng)計和互信息算法,實現(xiàn)了快速、準確獲取到目標數(shù)據(jù)。