一種基于平行語料訓(xùn)練的篇章級可比語料平行短語對的抽取方法
基本信息
申請?zhí)?/td> | CN201410624648.6 | 申請日 | - |
公開(公告)號 | CN104391885B | 公開(公告)日 | 2017-07-28 |
申請公布號 | CN104391885B | 申請公布日 | 2017-07-28 |
分類號 | G06F17/30(2006.01)I;G06F17/27(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 曹海龍;張捷鑫;趙鐵軍 | 申請(專利權(quán))人 | 哈爾濱工業(yè)大學(xué)高新技術(shù)開發(fā)總公司 |
代理機(jī)構(gòu) | 哈爾濱市松花江專利商標(biāo)事務(wù)所 | 代理人 | 哈爾濱工業(yè)大學(xué);哈爾濱工業(yè)大學(xué)高新技術(shù)開發(fā)總公司 |
地址 | 150001 黑龍江省哈爾濱市南崗區(qū)西大直街92號 | ||
法律狀態(tài) | - |
摘要
摘要 | 一種基于平行語料訓(xùn)練的篇章級可比語料平行短語對的抽取方法,本發(fā)明涉及可比語料平行短語對的抽取方法。本發(fā)明是要解決獲取平行語料需要花費高、將最相近的上下文的兩個單詞或片段互為翻譯應(yīng)用到可比語料上存在對于雙語詞典依賴很嚴(yán)重的問題。該方法是通過1源語言句子集合S和目標(biāo)語言句子集合T;2得到平行語料的短語對集合;3得到平行語料的平行短語對;4得到平行語料的非平行短語對;5得到支持向量機(jī)二元分類器;6抽取候選平行短語對<s,t>;7獲得可比語料中包含噪聲的平行短語對;8得到可比語料的平行短語對;9得到擴(kuò)展解碼器等步驟實現(xiàn)的。本發(fā)明應(yīng)用于可比語料平行短語對的抽取領(lǐng)域。 |
