文本處理模型的訓(xùn)練方法、裝置和文本處理方法

基本信息

申請(qǐng)?zhí)?/td> CN201910471389.0 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN110209817A 公開(kāi)(公告)日 2019-09-06
申請(qǐng)公布號(hào) CN110209817A 申請(qǐng)公布日 2019-09-06
分類號(hào) G06F16/35(2019.01)I; G06F16/33(2019.01)I; G06F17/27(2006.01)I; G06N3/04(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 李健銓; 劉小康; 馬力群 申請(qǐng)(專利權(quán))人 安徽省泰岳祥升軟件有限公司
代理機(jī)構(gòu) 北京弘權(quán)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 逯長(zhǎng)明;許偉群
地址 230088 安徽省合肥市高新區(qū)習(xí)友路3333號(hào)中國(guó)(合肥)國(guó)際智能語(yǔ)音產(chǎn)業(yè)園研發(fā)中心樓405-5室
法律狀態(tài) -

摘要

摘要 本申請(qǐng)公開(kāi)了文本處理模型的訓(xùn)練方法、裝置及文本處理方法,所述訓(xùn)練方法應(yīng)用于多個(gè)具有不同任務(wù)目標(biāo)的文本處理模型,多個(gè)文本處理模型共享部分隱層。所述方法中,對(duì)于每一任務(wù)目標(biāo),首先將相應(yīng)訓(xùn)練樣本輸入至相應(yīng)文本處理模型中,輸出任務(wù)目標(biāo)值;其次根據(jù)輸出的任務(wù)目標(biāo)值計(jì)算預(yù)設(shè)損失函數(shù)的單任務(wù)損失值,根據(jù)各文本處理模型對(duì)應(yīng)的單任務(wù)損失值計(jì)算多任務(wù)損失值;最后根據(jù)多任務(wù)損失值,調(diào)整每一文本處理模型的參數(shù)。多個(gè)文本處理模型同時(shí)并行學(xué)習(xí),通過(guò)共享部分隱層來(lái)共享多個(gè)任務(wù)的淺層特征表示,梯度同時(shí)反向傳播幫助隱層逃離局部極小值,可以提高每個(gè)模型的準(zhǔn)確性和泛化性。將訓(xùn)練后的文本處理模型用以處理高層任務(wù),可以提高結(jié)果準(zhǔn)確性。