一種跨領(lǐng)域的雙語(yǔ)篇章可比度量化方法

基本信息

申請(qǐng)?zhí)?/td> CN202111447702.0 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN114139559A 公開(kāi)(公告)日 2022-03-04
申請(qǐng)公布號(hào) CN114139559A 申請(qǐng)公布日 2022-03-04
分類號(hào) G06F40/58(2020.01)I;G06F40/216(2020.01)I;G06F40/289(2020.01)I;G06F40/44(2020.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 呂飛;朱澤德;王衛(wèi);陳曉虎;鄭守國(guó) 申請(qǐng)(專利權(quán))人 合肥技術(shù)創(chuàng)新工程院
代理機(jī)構(gòu) 合肥九道和專利代理事務(wù)所(特殊普通合伙) 代理人 胡發(fā)丁
地址 230088安徽省合肥市習(xí)友路2666號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明特別涉及一種跨領(lǐng)域的雙語(yǔ)篇章可比度量化方法,包括如下步驟:S100、對(duì)現(xiàn)有可比語(yǔ)料進(jìn)行中文分詞、英文詞性還原、過(guò)濾停用詞等預(yù)處理,訓(xùn)練雙語(yǔ)主題模型;S200、預(yù)測(cè)源語(yǔ)言篇章和目標(biāo)語(yǔ)言篇章的主題分布,計(jì)算不同語(yǔ)言篇章的相關(guān)性;S300、通過(guò)不同語(yǔ)言詞匯的主題分布,計(jì)算不同語(yǔ)言詞匯的相關(guān)性,擴(kuò)充雙語(yǔ)知識(shí)在不同領(lǐng)域的適應(yīng)性,利用詞匯計(jì)算不同語(yǔ)言篇章的相關(guān)性;S400、利用不同語(yǔ)言篇章主題和詞匯的相關(guān)性,進(jìn)行不同語(yǔ)言篇章可比度的量化。通過(guò)雙語(yǔ)主題進(jìn)行不同語(yǔ)言詞匯相關(guān)性計(jì)算,擴(kuò)充領(lǐng)域雙語(yǔ)知識(shí),提升篇章可比度量化對(duì)不同領(lǐng)域的自適應(yīng)能力,增強(qiáng)篇章可比度量化的效果。