文本處理模型的訓(xùn)練方法、裝置和文本處理方法
基本信息
申請(qǐng)?zhí)?/td> | CN201910471389.0 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN110209817A | 公開(kāi)(公告)日 | 2019-09-06 |
申請(qǐng)公布號(hào) | CN110209817A | 申請(qǐng)公布日 | 2019-09-06 |
分類號(hào) | G06F16/35(2019.01)I; G06F16/33(2019.01)I; G06F17/27(2006.01)I; G06N3/04(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 李健銓; 劉小康; 馬力群 | 申請(qǐng)(專利權(quán))人 | 安徽省泰岳祥升軟件有限公司 |
代理機(jī)構(gòu) | 北京弘權(quán)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 逯長(zhǎng)明;許偉群 |
地址 | 230088 安徽省合肥市高新區(qū)習(xí)友路3333號(hào)中國(guó)(合肥)國(guó)際智能語(yǔ)音產(chǎn)業(yè)園研發(fā)中心樓405-5室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請(qǐng)公開(kāi)了文本處理模型的訓(xùn)練方法、裝置及文本處理方法,所述訓(xùn)練方法應(yīng)用于多個(gè)具有不同任務(wù)目標(biāo)的文本處理模型,多個(gè)文本處理模型共享部分隱層。所述方法中,對(duì)于每一任務(wù)目標(biāo),首先將相應(yīng)訓(xùn)練樣本輸入至相應(yīng)文本處理模型中,輸出任務(wù)目標(biāo)值;其次根據(jù)輸出的任務(wù)目標(biāo)值計(jì)算預(yù)設(shè)損失函數(shù)的單任務(wù)損失值,根據(jù)各文本處理模型對(duì)應(yīng)的單任務(wù)損失值計(jì)算多任務(wù)損失值;最后根據(jù)多任務(wù)損失值,調(diào)整每一文本處理模型的參數(shù)。多個(gè)文本處理模型同時(shí)并行學(xué)習(xí),通過(guò)共享部分隱層來(lái)共享多個(gè)任務(wù)的淺層特征表示,梯度同時(shí)反向傳播幫助隱層逃離局部極小值,可以提高每個(gè)模型的準(zhǔn)確性和泛化性。將訓(xùn)練后的文本處理模型用以處理高層任務(wù),可以提高結(jié)果準(zhǔn)確性。 |
