任務(wù)導(dǎo)向型對(duì)話策略生成方法
基本信息
申請(qǐng)?zhí)?/td> | CN202110312779.0 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN112949858A | 公開(kāi)(公告)日 | 2021-06-11 |
申請(qǐng)公布號(hào) | CN112949858A | 申請(qǐng)公布日 | 2021-06-11 |
分類號(hào) | G06N3/08;G06K9/62 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 孟亞磊;劉繼明;金寧;陳浮;趙經(jīng)緯 | 申請(qǐng)(專利權(quán))人 | 網(wǎng)經(jīng)科技(蘇州)有限公司 |
代理機(jī)構(gòu) | 江蘇圣典律師事務(wù)所 | 代理人 | 王玉國(guó) |
地址 | 215021 江蘇省蘇州市工業(yè)園區(qū)金雞湖大道1355號(hào)國(guó)際科技園一期 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及任務(wù)導(dǎo)向型對(duì)話策略生成方法,先建立對(duì)話狀態(tài)跟蹤器,確定對(duì)話狀態(tài)空間與動(dòng)作空間及其形式化表示;再使用變分自動(dòng)編碼器模擬對(duì)話狀態(tài);使用多層感知器與Gumbel Softmax模擬對(duì)話動(dòng)作;模擬樣本生成器與判別器對(duì)抗訓(xùn)練;最后使用增強(qiáng)學(xué)習(xí)方法訓(xùn)練對(duì)話策略。首先使用模擬樣本生成器來(lái)學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù),來(lái)自判別器的損失可直接反饋給生成器進(jìn)行優(yōu)化;其次,訓(xùn)練好的判別器作為對(duì)話獎(jiǎng)勵(lì)被納入增強(qiáng)學(xué)習(xí)過(guò)程中用于指導(dǎo)對(duì)話策略學(xué)習(xí);可利用任何增強(qiáng)學(xué)習(xí)算法來(lái)更新對(duì)話策略;可先通過(guò)區(qū)分人類與機(jī)器各自生成的對(duì)話,推斷出人類生成的高質(zhì)量對(duì)話中包含的共同信息,然后充分利用學(xué)到的信息,以遷移學(xué)習(xí)的方式指導(dǎo)新領(lǐng)域的對(duì)話策略學(xué)習(xí)。 |
