雙語篇章可比語料構(gòu)建方法
基本信息
申請?zhí)?/td> | CN202111434929.1 | 申請日 | - |
公開(公告)號 | CN114118096A | 公開(公告)日 | 2022-03-01 |
申請公布號 | CN114118096A | 申請公布日 | 2022-03-01 |
分類號 | G06F40/30(2020.01)I;G06F40/205(2020.01)I;G06F40/284(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 呂飛;朱澤德;王衛(wèi);陳曉虎;鄭守國 | 申請(專利權(quán))人 | 合肥技術(shù)創(chuàng)新工程院 |
代理機構(gòu) | 北京中濟緯天專利代理有限公司 | 代理人 | 劉濤 |
地址 | 230088安徽省合肥市習友路2666號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明特別涉及一種雙語篇章可比語料構(gòu)建方法,包括如下步驟:A、利用深度學習建立每種語言詞匯間的語義關(guān)系;B、利用現(xiàn)有有限雙語語料訓(xùn)練產(chǎn)生跨語言主題分布,對語料覆蓋的不同語言詞匯進行主題標注;C、利用未登陸詞匯與覆蓋詞匯之間的語義關(guān)系,通過知識遷移分析未登錄詞匯的主題分布,構(gòu)建多語言詞匯統(tǒng)一的語義空間;D、構(gòu)建具有較強泛化能力的跨語言主題向量;E、利用跨語言主題向量相似度篩選雙語篇章,構(gòu)建可比語料庫。通過將單語詞向量反映的語義關(guān)系、雙語詞匯對齊關(guān)系以及雙語詞向量融入跨語言主題,可提升跨語言主題模型對開放域文本信息的泛化能力,提高了可比語料構(gòu)建的準確性。 |
