一種基于特征擴(kuò)展的中文短文本分類方法

基本信息

申請(qǐng)?zhí)?/td> CN201210446997.4 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN102955856A 公開(kāi)(公告)日 2013-03-06
申請(qǐng)公布號(hào) CN102955856A 申請(qǐng)公布日 2013-03-06
分類號(hào) G06F17/30(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 歐陽(yáng)元新;羅建輝;劉文琦;熊璋 申請(qǐng)(專利權(quán))人 北京洛克威爾科技有限公司
代理機(jī)構(gòu) 北京科迪生專利代理有限責(zé)任公司 代理人 楊學(xué)明;顧煒
地址 100191 北京市海淀區(qū)學(xué)院路37號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種基于特征擴(kuò)展的中文短文本分類方法,包括:步驟(1)建立背景知識(shí)庫(kù):從帶有類別標(biāo)注的長(zhǎng)文本語(yǔ)料庫(kù)中挖掘滿足一定約束條件的特征詞的二元組來(lái)生成背景知識(shí)庫(kù);步驟(2)擴(kuò)展訓(xùn)練集中的短文本:根據(jù)背景知識(shí)庫(kù)中的二元組,按照一定的擴(kuò)展規(guī)則對(duì)訓(xùn)練集中的短文本添加擴(kuò)展詞;步驟(3)建立分類模型:用經(jīng)過(guò)擴(kuò)展的短文本訓(xùn)練集建立SVM分類模型;步驟(4)擴(kuò)展待分類的短文本:根據(jù)背景知識(shí)庫(kù)中的二元組和分類模型的特征空間,按照一定的擴(kuò)展規(guī)則對(duì)待分類的短文本添加擴(kuò)展詞;步驟(5)產(chǎn)生分類結(jié)果:利用分類模型和擴(kuò)展后的短文本來(lái)產(chǎn)生分類結(jié)果。本發(fā)明利用長(zhǎng)文本語(yǔ)料庫(kù)來(lái)豐富短文本的特征,提高了短文本分類的準(zhǔn)確率和召回率。