一種利用主元分析計(jì)算漢語(yǔ)詞向量的方法
基本信息
申請(qǐng)?zhí)?/td> | CN202110942291.6 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN113627176A | 公開(公告)日 | 2021-11-09 |
申請(qǐng)公布號(hào) | CN113627176A | 申請(qǐng)公布日 | 2021-11-09 |
分類號(hào) | G06F40/284(2020.01)I;G06F17/16(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 蔣遂平;袁曉光;劉軒;王璐靜;臧小濱 | 申請(qǐng)(專利權(quán))人 | 北京航天愛(ài)威電子技術(shù)有限公司 |
代理機(jī)構(gòu) | 中國(guó)兵器工業(yè)集團(tuán)公司專利中心 | 代理人 | 辛海明 |
地址 | 100854北京市海淀區(qū)永定路51號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種利用主元分析計(jì)算漢語(yǔ)詞向量的方法,屬于語(yǔ)言處理領(lǐng)域。本發(fā)明選擇漢語(yǔ)中有代表性的詞語(yǔ),作為主元分析的基準(zhǔn);將漢字用數(shù)值組成的向量表示;用漢語(yǔ)詞中的漢字點(diǎn)陣向量組合成詞本身的合成向量,詞也變換成數(shù)值向量形式;計(jì)算基準(zhǔn)詞匯的全部詞的平均合成向量;基準(zhǔn)詞匯中各個(gè)詞的合成向量減去平均合成向量后,互乘,得到詞之間差異的協(xié)方差矩陣;得到協(xié)方差矩陣的特性;根據(jù)協(xié)方差矩陣特性,計(jì)算一個(gè)對(duì)詞的合成向量進(jìn)行變換的矩陣;對(duì)于任意漢語(yǔ)詞的合成向量,減去平均合成向量后,乘以投影矩陣,得到詞的詞向量。本發(fā)明計(jì)算簡(jiǎn)單,可以避免漢語(yǔ)詞向量化時(shí)常見(jiàn)的“未登錄詞”問(wèn)題,在漢語(yǔ)的自然語(yǔ)言處理中具有重要的應(yīng)用價(jià)值。 |
