基于點(diǎn)互信息的詞向量模型和基于CNN的文本分類方法

基本信息

申請(qǐng)?zhí)?/td> CN201810938236.8 申請(qǐng)日 -
公開(公告)號(hào) CN109189925A 公開(公告)日 2020-01-17
申請(qǐng)公布號(hào) CN109189925A 申請(qǐng)公布日 2020-01-17
分類號(hào) G06F16/35;G06N3/04;G06K9/62 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 李萬理;吳海明;薛云 申請(qǐng)(專利權(quán))人 上海高航知識(shí)產(chǎn)權(quán)服務(wù)有限公司
代理機(jī)構(gòu) 廣州粵高專利商標(biāo)代理有限公司 代理人 江裕強(qiáng)
地址 510006 廣東省廣州市番禺區(qū)外環(huán)西路378號(hào)華南師范大學(xué)物理與電信工程學(xué)院
法律狀態(tài) -

摘要

摘要 本發(fā)明公開基于點(diǎn)互信息的詞向量模型和基于CNN的文本分類方法。該方法包括:(1)通過基于點(diǎn)互信息的全局詞向量方法訓(xùn)練詞向量模型;(2)根據(jù)訓(xùn)練好的詞向量模型,確定所述文本的詞向量矩陣;(3)通過CNN提取詞向量矩陣中的特征,并訓(xùn)練分類模型;(4)根據(jù)訓(xùn)練好的詞向量模型和CNN特征提取模型對(duì)輸入文本特征提??;(5)根據(jù)CNN特征提取模型獲取的文本特征,通過softmax和交叉熵方法計(jì)算文本與預(yù)設(shè)類別的映射距離,取距離最近的為文本對(duì)應(yīng)類別。該方法克服了Glove詞向量在語義捕捉和統(tǒng)計(jì)共現(xiàn)矩陣上的不足,降低模型訓(xùn)練復(fù)雜度,能夠準(zhǔn)確地挖掘出文本的分類特征,適用于各種領(lǐng)域的文本分類,具有極大的實(shí)用價(jià)值。