基于改進seq2seq模型的多源多標簽文本分類方法及其系統(tǒng)
基本信息
申請?zhí)?/td> | CN201811302126.9 | 申請日 | - |
公開(公告)號 | CN109299273B | 公開(公告)日 | 2019-02-01 |
申請公布號 | CN109299273B | 申請公布日 | 2019-02-01 |
分類號 | G06F16/35(2019.01)I | 分類 | - |
發(fā)明人 | 謝松縣;高輝;陳仲生;彭立宏;曾道建;桂林;封黎;李磊 | 申請(專利權(quán))人 | 廣州語義科技有限公司 |
代理機構(gòu) | 長沙國科天河知識產(chǎn)權(quán)代理有限公司 | 代理人 | 廣州語義科技有限公司 |
地址 | 510623廣東省廣州市天河區(qū)珠江東路32號利通廣場規(guī)劃設(shè)計樓32層全層單元(自編樓層34層全層單元)的E37房 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明屬于自然語言處理文本分類技術(shù)領(lǐng)域,具體提供了一種基于改進seq2seq模型的多源多標簽文本分類方法及其系統(tǒng),該方法包括如下步驟:數(shù)據(jù)輸入及預(yù)處理、詞嵌入、編碼、編碼拼接、解碼、模型優(yōu)化以及預(yù)測輸出。本發(fā)明方法具有如下有益效果:采用seq2seq深度學(xué)習(xí)框架,構(gòu)建多個編碼器,結(jié)合注意力機制用于文本分類任務(wù),最大限度地利用了多來源語料信息,提高了多標簽分類準確性;在解碼步驟的誤差反饋過程中,針對多標簽文本的特性,加入干預(yù)機制規(guī)避了標簽排序帶來的影響,更多切合多標簽分類問題的本質(zhì);編碼器采用循環(huán)神經(jīng)網(wǎng)絡(luò),可以有效的按照時間步進行學(xué)習(xí);解碼層采用單向循環(huán)神經(jīng)網(wǎng)絡(luò),并添加了注意力機制,突出了學(xué)習(xí)重點。?? |
