一種基于特征擴(kuò)展的中文短文本分類方法

基本信息

申請?zhí)?/td> CN201210446997.4 申請日 -
公開(公告)號 CN102955856B 公開(公告)日 2015-07-08
申請公布號 CN102955856B 申請公布日 2015-07-08
分類號 G06F17/30(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 歐陽元新;袁滿;羅建輝;劉文琦;熊璋 申請(專利權(quán))人 北京洛克威爾科技有限公司
代理機(jī)構(gòu) 北京科迪生專利代理有限責(zé)任公司 代理人 楊學(xué)明;顧煒
地址 100191 北京市海淀區(qū)學(xué)院路37號
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種基于特征擴(kuò)展的中文短文本分類方法,包括:步驟(1)建立背景知識庫:從帶有類別標(biāo)注的長文本語料庫中挖掘滿足一定約束條件的特征詞的二元組來生成背景知識庫;步驟(2)擴(kuò)展訓(xùn)練集中的短文本:根據(jù)背景知識庫中的二元組,按照一定的擴(kuò)展規(guī)則對訓(xùn)練集中的短文本添加擴(kuò)展詞;步驟(3)建立分類模型:用經(jīng)過擴(kuò)展的短文本訓(xùn)練集建立SVM分類模型;步驟(4)擴(kuò)展待分類的短文本:根據(jù)背景知識庫中的二元組和分類模型的特征空間,按照一定的擴(kuò)展規(guī)則對待分類的短文本添加擴(kuò)展詞;步驟(5)產(chǎn)生分類結(jié)果:利用分類模型和擴(kuò)展后的短文本來產(chǎn)生分類結(jié)果。本發(fā)明利用長文本語料庫來豐富短文本的特征,提高了短文本分類的準(zhǔn)確率和召回率。