自重建方式的語言模型訓(xùn)練方法、系統(tǒng)及計算機可讀介質(zhì)

基本信息

申請?zhí)?/td> CN201911056884.1 申請日 -
公開(公告)號 CN110837733A 公開(公告)日 2020-02-25
申請公布號 CN110837733A 申請公布日 2020-02-25
分類號 G06F40/289;G06N3/04;G06N3/08 分類 計算;推算;計數(shù);
發(fā)明人 白佳欣;宋彥 申請(專利權(quán))人 創(chuàng)新工場(廣州)人工智能研究有限公司
代理機構(gòu) 深圳市智享知識產(chǎn)權(quán)代理有限公司 代理人 王琴;梁琴琴
地址 510000 廣東省廣州市黃埔區(qū)光譜中路23號A2棟1001房
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及語言處理技術(shù)領(lǐng)域,尤其涉及一種自重建方式的語言模型訓(xùn)練方法,其包括如下步驟:步驟S1:從預(yù)訓(xùn)練文本中提取至少一句待訓(xùn)練語句并將其分割為單字序列,對應(yīng)單子序列經(jīng)過位置編碼映射成文本矩陣;步驟S2:結(jié)合transformer模型和自注意力機制建立神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);步驟S3:文本矩陣作為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的輸入樣本,將transformer模型作為參數(shù)進行訓(xùn)練并優(yōu)化后得到目標(biāo)函數(shù);步驟S4:通過重復(fù)步驟S1~S3更新目標(biāo)函數(shù),直至達到設(shè)定的優(yōu)化條件從而獲取預(yù)訓(xùn)練模型。本發(fā)明還提供一種系統(tǒng)及計算機可讀介質(zhì)。