基于Bi-GRU和字向量的大規(guī)模新聞文本的端到端分類方法
基本信息
申請?zhí)?/td> | CN201810426304.2 | 申請日 | - |
公開(公告)號 | CN108846017A | 公開(公告)日 | 2018-11-20 |
申請公布號 | CN108846017A | 申請公布日 | 2018-11-20 |
分類號 | G06F17/30;G06F17/27;G06N3/04 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 李雄;張傳新;劉春陽;張旭;王萌;王慧;王利軍;李磊 | 申請(專利權(quán))人 | 北京天潤基業(yè)科技發(fā)展股份有限公司 |
代理機構(gòu) | 北京慧泉知識產(chǎn)權(quán)代理有限公司 | 代理人 | 國家計算機網(wǎng)絡(luò)與信息安全管理中心;北京天潤基業(yè)科技發(fā)展股份有限公司 |
地址 | 100029 北京市朝陽區(qū)裕民路甲3號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明一種基于Bi?GRU和字向量的大規(guī)模新聞文本的端到端分類方法,包括如下步驟:S1.進行Word Embedding的字級別語義特征表示;S2.構(gòu)建注意力權(quán)重的Bi?GRU字級別的句子特征編碼模型;S3.搭建基于注意力權(quán)重的Bi?GRU句子級別特征編碼模型;S4.使用分層Softmax實現(xiàn)端到端分類實現(xiàn)。本發(fā)明方法可降低向量的維度,且有效地防止特征過于稀疏問題。優(yōu)化了最終的輸出向量,增強了模型特征編碼有效性。避免維度過高造成的模型難以訓練問題,又提供了額外的語義信息。可靈活組合特征抽取模型和各種常見分類器,方便更換調(diào)試分類器。計算復雜度比Softmax從|K|降低到log|K|。 |
