一種新型的優(yōu)化語言生成模型輸出未知字符的方法

基本信息

申請(qǐng)?zhí)?/td> CN202010935605.5 申請(qǐng)日 -
公開(公告)號(hào) CN112115713A 公開(公告)日 2020-12-22
申請(qǐng)公布號(hào) CN112115713A 申請(qǐng)公布日 2020-12-22
分類號(hào) G06F40/284(2020.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 陳一圣;羅學(xué)優(yōu) 申請(qǐng)(專利權(quán))人 杭州艾耕科技有限公司
代理機(jī)構(gòu) 杭州天昊專利代理事務(wù)所(特殊普通合伙) 代理人 杭州艾耕科技有限公司
地址 310052浙江省杭州市濱江區(qū)六和路368號(hào)一幢(北)三樓D3052室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種新型的優(yōu)化語言生成模型輸出未知字符的方法,包括以下步驟:(1)向語言生成模型中輸入某一或者某些詞匯,將當(dāng)前詞匯輸入解碼器;(2)解碼器計(jì)算下一個(gè)詞的概率分布;(3)在得到下一個(gè)詞概率分布之后,對(duì)unk增加一個(gè)概率懲罰項(xiàng);概率懲罰項(xiàng)即在預(yù)測(cè)下一個(gè)詞之前先將unk的預(yù)測(cè)概率改為零;(4)根據(jù)步驟(3)調(diào)整后的概率分布結(jié)果,選擇概率最大的詞匯作為預(yù)測(cè)結(jié)果進(jìn)行輸出;本發(fā)明的優(yōu)化方法和模型本身無關(guān),無論是經(jīng)典的LSTM模型或者是現(xiàn)在比較常用的transformer生成模型,都可以使用這一方法對(duì)unk問題進(jìn)行優(yōu)化,且都可以達(dá)到較好的效果。??