基于改進(jìn)seq2seq模型的多源多標(biāo)簽文本分類方法及其系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN201811302126.9 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN109299273A | 公開(kāi)(公告)日 | 2019-02-01 |
申請(qǐng)公布號(hào) | CN109299273A | 申請(qǐng)公布日 | 2019-02-01 |
分類號(hào) | G06F16/35;G06F17/27;G06N3/04 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 謝松縣;高輝;陳仲生;彭立宏;曾道建;桂林;封黎;李磊 | 申請(qǐng)(專利權(quán))人 | 廣州語(yǔ)義科技有限公司 |
代理機(jī)構(gòu) | 長(zhǎng)沙國(guó)科天河知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 廣州語(yǔ)義科技有限公司 |
地址 | 510623 廣東省廣州市天河區(qū)珠江東路32號(hào)利通廣場(chǎng)規(guī)劃設(shè)計(jì)樓32層全層單元(自編樓層34層全層單元)的E37房 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明屬于自然語(yǔ)言處理文本分類技術(shù)領(lǐng)域,具體提供了一種基于改進(jìn)seq2seq模型的多源多標(biāo)簽文本分類方法及其系統(tǒng),該方法包括如下步驟:數(shù)據(jù)輸入及預(yù)處理、詞嵌入、編碼、編碼拼接、解碼、模型優(yōu)化以及預(yù)測(cè)輸出。本發(fā)明方法具有如下有益效果:采用seq2seq深度學(xué)習(xí)框架,構(gòu)建多個(gè)編碼器,結(jié)合注意力機(jī)制用于文本分類任務(wù),最大限度地利用了多來(lái)源語(yǔ)料信息,提高了多標(biāo)簽分類準(zhǔn)確性;在解碼步驟的誤差反饋過(guò)程中,針對(duì)多標(biāo)簽文本的特性,加入干預(yù)機(jī)制規(guī)避了標(biāo)簽排序帶來(lái)的影響,更多切合多標(biāo)簽分類問(wèn)題的本質(zhì);編碼器采用循環(huán)神經(jīng)網(wǎng)絡(luò),可以有效的按照時(shí)間步進(jìn)行學(xué)習(xí);解碼層采用單向循環(huán)神經(jīng)網(wǎng)絡(luò),并添加了注意力機(jī)制,突出了學(xué)習(xí)重點(diǎn)。 |
