雙語篇章可比語料構(gòu)建方法

基本信息

申請?zhí)?/td> CN202111434929.1 申請日 -
公開(公告)號 CN114118096A 公開(公告)日 2022-03-01
申請公布號 CN114118096A 申請公布日 2022-03-01
分類號 G06F40/30(2020.01)I;G06F40/205(2020.01)I;G06F40/284(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 呂飛;朱澤德;王衛(wèi);陳曉虎;鄭守國 申請(專利權(quán))人 合肥技術(shù)創(chuàng)新工程院
代理機構(gòu) 北京中濟緯天專利代理有限公司 代理人 劉濤
地址 230088安徽省合肥市習友路2666號
法律狀態(tài) -

摘要

摘要 本發(fā)明特別涉及一種雙語篇章可比語料構(gòu)建方法,包括如下步驟:A、利用深度學習建立每種語言詞匯間的語義關(guān)系;B、利用現(xiàn)有有限雙語語料訓(xùn)練產(chǎn)生跨語言主題分布,對語料覆蓋的不同語言詞匯進行主題標注;C、利用未登陸詞匯與覆蓋詞匯之間的語義關(guān)系,通過知識遷移分析未登錄詞匯的主題分布,構(gòu)建多語言詞匯統(tǒng)一的語義空間;D、構(gòu)建具有較強泛化能力的跨語言主題向量;E、利用跨語言主題向量相似度篩選雙語篇章,構(gòu)建可比語料庫。通過將單語詞向量反映的語義關(guān)系、雙語詞匯對齊關(guān)系以及雙語詞向量融入跨語言主題,可提升跨語言主題模型對開放域文本信息的泛化能力,提高了可比語料構(gòu)建的準確性。