一種基于預訓練模型的詞對齊性能提升方法

基本信息

申請?zhí)?/td> CN202110695209.4 申請日 -
公開(公告)號 CN113408267A 公開(公告)日 2021-09-17
申請公布號 CN113408267A 申請公布日 2021-09-17
分類號 G06F40/216(2020.01)I;G06K9/62(2006.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 徐萍;姜炎宏;畢東;寧義明 申請(專利權)人 沈陽雅譯網(wǎng)絡技術有限公司
代理機構 沈陽新科知識產(chǎn)權代理事務所(特殊普通合伙) 代理人 李曉光
地址 110004遼寧省沈陽市和平區(qū)三好街78號東軟電腦城C座11層
法律狀態(tài) -

摘要

摘要 本發(fā)明公開一種基于預訓練模型的詞對齊性能提升方法,步驟為:使用預訓練模型獲取句子中詞語的詞向量,構成互譯句對的詞向量矩陣X和Y;對詞向量矩陣X和Y進行短語和術語的抽取,把短語和術語中的詞的詞向量進行加和平均處理,獲得更新后的互譯句對詞向量矩陣X和Y;將詞語和詞語之間的詞向量余弦計算值作為兩個詞之間的相似度,獲得互譯句對的相似度矩陣Sim;對Sim進行卷積操作,使得詞對齊融入上下文詞的信息;使用不同的詞對齊抽取方法分別從更新后的互譯句對相似度矩陣中抽取對應的詞對齊信息。本發(fā)明通過基于預訓練方法解決了深度學習需要訓練數(shù)據(jù)大的問題,使用短語和術語表進行匹配,來解決預訓練中詞語之間相關度不大,而導致詞語之間對齊不統(tǒng)一的問題。