一種基于注意力共享Transformer的語法改錯模型

基本信息

申請?zhí)?/td> CN202010482641.0 申請日 -
公開(公告)號 CN111859927A 公開(公告)日 2020-10-30
申請公布號 CN111859927A 申請公布日 2020-10-30
分類號 G06F40/253(2020.01)I 分類 計算;推算;計數(shù);
發(fā)明人 徐書堯;陳進;秦龍 申請(專利權(quán))人 北京先聲智能科技有限公司
代理機構(gòu) 北京中企訊專利代理事務所(普通合伙) 代理人 北京先聲智能科技有限公司
地址 100000北京市海淀區(qū)上莊鄉(xiāng)上莊村北京市西郊農(nóng)場機關(guān)10幢平房1027
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及神經(jīng)翻譯的語法改錯模型技術(shù)領(lǐng)域,尤其是一種基于注意力共享Transformer的語法改錯模型,包括編碼器與解碼器,所述編碼器由多層結(jié)構(gòu)組成,每層結(jié)構(gòu)均包含自注意力層與前饋神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)輸入自注意力層,自注意力層進行計算后輸出處理數(shù)據(jù)至前饋神經(jīng)網(wǎng)絡(luò),前饋神經(jīng)網(wǎng)絡(luò)輸出處理結(jié)果至解碼器;所述解碼器由自注意力層、編碼器解碼器注意力層與前饋神經(jīng)網(wǎng)絡(luò)構(gòu)成,解碼器的前饋神經(jīng)網(wǎng)絡(luò)輸出計算數(shù)據(jù),并通過Softmax映射到詞匯表上的概率分布,本發(fā)明的語法改錯模型,注意力共享機制下,語法改錯模型的效果(F0.5)幾乎與基線系統(tǒng)相同,但卻可以減少計算量,加快推理速度。??