一種基于平行語料訓(xùn)練的篇章級可比語料平行短語對的抽取方法

基本信息

申請?zhí)?/td> CN201410624648.6 申請日 -
公開(公告)號 CN104391885B 公開(公告)日 2017-07-28
申請公布號 CN104391885B 申請公布日 2017-07-28
分類號 G06F17/30(2006.01)I;G06F17/27(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 曹海龍;張捷鑫;趙鐵軍 申請(專利權(quán))人 哈爾濱工業(yè)大學(xué)高新技術(shù)開發(fā)總公司
代理機(jī)構(gòu) 哈爾濱市松花江專利商標(biāo)事務(wù)所 代理人 哈爾濱工業(yè)大學(xué);哈爾濱工業(yè)大學(xué)高新技術(shù)開發(fā)總公司
地址 150001 黑龍江省哈爾濱市南崗區(qū)西大直街92號
法律狀態(tài) -

摘要

摘要 一種基于平行語料訓(xùn)練的篇章級可比語料平行短語對的抽取方法,本發(fā)明涉及可比語料平行短語對的抽取方法。本發(fā)明是要解決獲取平行語料需要花費高、將最相近的上下文的兩個單詞或片段互為翻譯應(yīng)用到可比語料上存在對于雙語詞典依賴很嚴(yán)重的問題。該方法是通過1源語言句子集合S和目標(biāo)語言句子集合T;2得到平行語料的短語對集合;3得到平行語料的平行短語對;4得到平行語料的非平行短語對;5得到支持向量機(jī)二元分類器;6抽取候選平行短語對<s,t>;7獲得可比語料中包含噪聲的平行短語對;8得到可比語料的平行短語對;9得到擴(kuò)展解碼器等步驟實現(xiàn)的。本發(fā)明應(yīng)用于可比語料平行短語對的抽取領(lǐng)域。