一種基于注意力共享Transformer的語法改錯(cuò)模型
基本信息
申請?zhí)?/td> | CN202010482641.0 | 申請日 | - |
公開(公告)號 | CN111859927A | 公開(公告)日 | 2020-10-30 |
申請公布號 | CN111859927A | 申請公布日 | 2020-10-30 |
分類號 | G06F40/253(2020.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 徐書堯;陳進(jìn);秦龍 | 申請(專利權(quán))人 | 北京先聲智能科技有限公司 |
代理機(jī)構(gòu) | 北京中企訊專利代理事務(wù)所(普通合伙) | 代理人 | 北京先聲智能科技有限公司 |
地址 | 100000北京市海淀區(qū)上莊鄉(xiāng)上莊村北京市西郊農(nóng)場機(jī)關(guān)10幢平房1027 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及神經(jīng)翻譯的語法改錯(cuò)模型技術(shù)領(lǐng)域,尤其是一種基于注意力共享Transformer的語法改錯(cuò)模型,包括編碼器與解碼器,所述編碼器由多層結(jié)構(gòu)組成,每層結(jié)構(gòu)均包含自注意力層與前饋神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)輸入自注意力層,自注意力層進(jìn)行計(jì)算后輸出處理數(shù)據(jù)至前饋神經(jīng)網(wǎng)絡(luò),前饋神經(jīng)網(wǎng)絡(luò)輸出處理結(jié)果至解碼器;所述解碼器由自注意力層、編碼器解碼器注意力層與前饋神經(jīng)網(wǎng)絡(luò)構(gòu)成,解碼器的前饋神經(jīng)網(wǎng)絡(luò)輸出計(jì)算數(shù)據(jù),并通過Softmax映射到詞匯表上的概率分布,本發(fā)明的語法改錯(cuò)模型,注意力共享機(jī)制下,語法改錯(cuò)模型的效果(F0.5)幾乎與基線系統(tǒng)相同,但卻可以減少計(jì)算量,加快推理速度。?? |
