一種基于貝葉斯分類的短文本分類方法

基本信息

申請(qǐng)?zhí)?/td> CN201810951636.2 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN109165294A 公開(kāi)(公告)日 2019-01-08
申請(qǐng)公布號(hào) CN109165294A 申請(qǐng)公布日 2019-01-08
分類號(hào) G06F16/35;G06F16/31;G06F16/335;G06K9/62 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 水新瑩;張宇光;黃亞坤 申請(qǐng)(專利權(quán))人 安徽訊飛智能科技有限公司
代理機(jī)構(gòu) 蕪湖思誠(chéng)知識(shí)產(chǎn)權(quán)代理有限公司 代理人 安徽訊飛智能科技有限公司
地址 241000 安徽省蕪湖市鳩江區(qū)皖江財(cái)富廣場(chǎng)A1座9樓
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種基于貝葉斯分類的短文本分類方法,涉及智慧城市和電子政務(wù)領(lǐng)域,該方法包括有以下步驟:(1)數(shù)據(jù)預(yù)處理與類別標(biāo)注;(2)完成短文本數(shù)據(jù)的分詞和增量特征向量提取,主要分為以下兩個(gè)核心步驟;(3)建立基于貝葉斯的短文本分類模型;(4)對(duì)已處理的數(shù)據(jù)集合劃分為訓(xùn)練集和測(cè)試集,進(jìn)行分類模型訓(xùn)練,并根據(jù)訓(xùn)練集的結(jié)果進(jìn)行模型的優(yōu)化;(5)根據(jù)已訓(xùn)練好的模型,輸入未知類別的短文本數(shù)據(jù),輸出為當(dāng)前輸入文本屬于每個(gè)類別的概率,選取概率最大的類別作為最終分類類別的結(jié)果,該種基于貝葉斯分類的短文本分類方法能夠高效、智能、自動(dòng)的對(duì)短文本內(nèi)容進(jìn)行有效的分類。