基于點互信息的詞向量模型和基于CNN的文本分類方法
基本信息
申請?zhí)?/td> | CN201810938236.8 | 申請日 | - |
公開(公告)號 | CN109189925B | 公開(公告)日 | 2020-01-17 |
申請公布號 | CN109189925B | 申請公布日 | 2020-01-17 |
分類號 | G06F16/35;G06N3/04;G06K9/62 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 李萬理;吳海明;薛云 | 申請(專利權(quán))人 | 上海高航知識產(chǎn)權(quán)服務(wù)有限公司 |
代理機構(gòu) | 廣州粵高專利商標(biāo)代理有限公司 | 代理人 | 江裕強 |
地址 | 510006 廣東省廣州市番禺區(qū)外環(huán)西路378號華南師范大學(xué)物理與電信工程學(xué)院 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開基于點互信息的詞向量模型和基于CNN的文本分類方法。該方法包括:(1)通過基于點互信息的全局詞向量方法訓(xùn)練詞向量模型;(2)根據(jù)訓(xùn)練好的詞向量模型,確定所述文本的詞向量矩陣;(3)通過CNN提取詞向量矩陣中的特征,并訓(xùn)練分類模型;(4)根據(jù)訓(xùn)練好的詞向量模型和CNN特征提取模型對輸入文本特征提取;(5)根據(jù)CNN特征提取模型獲取的文本特征,通過softmax和交叉熵方法計算文本與預(yù)設(shè)類別的映射距離,取距離最近的為文本對應(yīng)類別。該方法克服了Glove詞向量在語義捕捉和統(tǒng)計共現(xiàn)矩陣上的不足,降低模型訓(xùn)練復(fù)雜度,能夠準(zhǔn)確地挖掘出文本的分類特征,適用于各種領(lǐng)域的文本分類,具有極大的實用價值。 |
