自重建方式的語言模型訓(xùn)練方法、系統(tǒng)及計算機可讀介質(zhì)
基本信息
申請?zhí)?/td> | CN201911056884.1 | 申請日 | - |
公開(公告)號 | CN110837733A | 公開(公告)日 | 2020-02-25 |
申請公布號 | CN110837733A | 申請公布日 | 2020-02-25 |
分類號 | G06F40/289;G06N3/04;G06N3/08 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 白佳欣;宋彥 | 申請(專利權(quán))人 | 創(chuàng)新工場(廣州)人工智能研究有限公司 |
代理機構(gòu) | 深圳市智享知識產(chǎn)權(quán)代理有限公司 | 代理人 | 王琴;梁琴琴 |
地址 | 510000 廣東省廣州市黃埔區(qū)光譜中路23號A2棟1001房 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及語言處理技術(shù)領(lǐng)域,尤其涉及一種自重建方式的語言模型訓(xùn)練方法,其包括如下步驟:步驟S1:從預(yù)訓(xùn)練文本中提取至少一句待訓(xùn)練語句并將其分割為單字序列,對應(yīng)單子序列經(jīng)過位置編碼映射成文本矩陣;步驟S2:結(jié)合transformer模型和自注意力機制建立神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);步驟S3:文本矩陣作為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的輸入樣本,將transformer模型作為參數(shù)進行訓(xùn)練并優(yōu)化后得到目標(biāo)函數(shù);步驟S4:通過重復(fù)步驟S1~S3更新目標(biāo)函數(shù),直至達到設(shè)定的優(yōu)化條件從而獲取預(yù)訓(xùn)練模型。本發(fā)明還提供一種系統(tǒng)及計算機可讀介質(zhì)。 |
