一種基于Transformer的中文新聞分類方法

基本信息

申請?zhí)?/td> CN202010375567.2 申請日 -
公開(公告)號 CN111666373A 公開(公告)日 2020-09-15
申請公布號 CN111666373A 申請公布日 2020-09-15
分類號 G06F16/33(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 范夢真;楊芳洲;劉金;羅軼鳳;錢衛(wèi)寧;周傲英 申請(專利權(quán))人 上海瞰點科技有限責(zé)任公司
代理機構(gòu) 上海藍(lán)迪專利商標(biāo)事務(wù)所(普通合伙) 代理人 華東師范大學(xué);上海瞰點科技有限責(zé)任公司
地址 200241上海市閔行區(qū)東川路500號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于Transformer的中文新聞分類方法,其特點是采用可并行的Transformer?Encoder來對文本序列進行編碼,采用“詞?句?文章”多層的網(wǎng)絡(luò)來提取新聞的文本信息,利用attention機制來降維得到文章級別的向量,并且結(jié)合NER命名實體識別技術(shù)引入實體信息來豐富特征,最后融合兩部分特征輸入分類器,訓(xùn)練得到分類模型,提高分類模型訓(xùn)練的效率和預(yù)測的精度。本發(fā)明在某領(lǐng)域的文本分類任務(wù)上,相比于現(xiàn)有的分類模型,可并行化的序列編碼方式降低了模型訓(xùn)練的時間開銷,attention機制和加入實體信息提高了模型對重要信息的識別能力,同時,識別了新聞中的實體信息,減少了機器閱讀文字的歧義。??