一種基于CNN與GRU及KNN融合的政務(wù)文本數(shù)據(jù)分類(lèi)方法

基本信息

申請(qǐng)?zhí)?/td> CN202110742255.5 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN113590818A 公開(kāi)(公告)日 2021-11-02
申請(qǐng)公布號(hào) CN113590818A 申請(qǐng)公布日 2021-11-02
分類(lèi)號(hào) G06F16/35(2019.01)I;G06K9/62(2006.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 王運(yùn)兵;姬少培;楊輝;顏亮;劉棟;謝建武;陳兵;董貴山 申請(qǐng)(專(zhuān)利權(quán))人 中電科大數(shù)據(jù)研究院有限公司
代理機(jī)構(gòu) 成都九鼎天元知識(shí)產(chǎn)權(quán)代理有限公司 代理人 羅強(qiáng)
地址 610000四川省成都市高新區(qū)創(chuàng)業(yè)路6號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種基于CNN與GRU及KNN融合的政務(wù)文本數(shù)據(jù)分類(lèi)方法,包括:將政務(wù)文本數(shù)據(jù)劃分為原始訓(xùn)練樣本與待測(cè)樣本;從原始訓(xùn)練樣本中提取標(biāo)題信息,構(gòu)建標(biāo)題信息訓(xùn)練樣本;提取訓(xùn)練樣本的特征,分別得到各自的特征向量,輸入至CNN進(jìn)行處理得到CNN特征向量以及輸入至GRU得到各自的GRU特征向量;將CNN特征向量與GRU特征向量融合,分別得到原始訓(xùn)練樣本的融合特征向量與標(biāo)題信息訓(xùn)練樣本的融合特征向量;分別對(duì)融合特征向量進(jìn)行降維,并將降維后的融合特征向量加權(quán)合并得到最終的訓(xùn)練樣本特征向量;對(duì)待測(cè)樣本進(jìn)行類(lèi)似處理得到待測(cè)樣本特征向量;采用KNN方法完成待測(cè)樣本分類(lèi)。本發(fā)明提出的方法能夠提取出更多有效的特征信息,有效的提高了文本分類(lèi)的準(zhǔn)確率。