基于Bi-GRU和字向量的大規(guī)模新聞文本的端到端分類方法

基本信息

申請?zhí)?/td> CN201810426304.2 申請日 -
公開(公告)號 CN108846017A 公開(公告)日 2018-11-20
申請公布號 CN108846017A 申請公布日 2018-11-20
分類號 G06F17/30;G06F17/27;G06N3/04 分類 計算;推算;計數(shù);
發(fā)明人 李雄;張傳新;劉春陽;張旭;王萌;王慧;王利軍;李磊 申請(專利權(quán))人 北京天潤基業(yè)科技發(fā)展股份有限公司
代理機構(gòu) 北京慧泉知識產(chǎn)權(quán)代理有限公司 代理人 國家計算機網(wǎng)絡(luò)與信息安全管理中心;北京天潤基業(yè)科技發(fā)展股份有限公司
地址 100029 北京市朝陽區(qū)裕民路甲3號
法律狀態(tài) -

摘要

摘要 本發(fā)明一種基于Bi?GRU和字向量的大規(guī)模新聞文本的端到端分類方法,包括如下步驟:S1.進行Word Embedding的字級別語義特征表示;S2.構(gòu)建注意力權(quán)重的Bi?GRU字級別的句子特征編碼模型;S3.搭建基于注意力權(quán)重的Bi?GRU句子級別特征編碼模型;S4.使用分層Softmax實現(xiàn)端到端分類實現(xiàn)。本發(fā)明方法可降低向量的維度,且有效地防止特征過于稀疏問題。優(yōu)化了最終的輸出向量,增強了模型特征編碼有效性。避免維度過高造成的模型難以訓練問題,又提供了額外的語義信息。可靈活組合特征抽取模型和各種常見分類器,方便更換調(diào)試分類器。計算復雜度比Softmax從|K|降低到log|K|。