一種利用正交變換計算漢語詞向量的方法

基本信息

申請?zhí)?/td> CN202110941722.7 申請日 -
公開(公告)號 CN113627175A 公開(公告)日 2021-11-09
申請公布號 CN113627175A 申請公布日 2021-11-09
分類號 G06F40/284(2020.01)I;G06F40/216(2020.01)I;G06F17/16(2006.01)I;G06F17/18(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 蔣遂平;袁曉光;王璐靜;劉軒;臧小濱 申請(專利權)人 北京航天愛威電子技術有限公司
代理機構 中國兵器工業(yè)集團公司專利中心 代理人 辛海明
地址 100854北京市海淀區(qū)永定路51號
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種利用正交變換計算漢語詞向量的方法,屬于語言處理領域。本發(fā)明將單個漢字用數(shù)值矩陣表示;用一個漢語詞中的漢字的數(shù)值矩陣合成這個漢語詞本身的數(shù)值矩陣;對單個漢語詞的數(shù)值矩陣進行正交變換,得到正交變換后的系數(shù)矩陣;將漢語詞正交變換系數(shù)矩陣歸一化,使得正交變換系數(shù)矩陣的元素平方和等于1.0;在經(jīng)過歸一化的正交變換系數(shù)矩陣的左上角子矩陣或整個矩陣的元素按行或按列的順序排列,得到漢語詞的詞向量。本發(fā)明先將漢語詞表示為數(shù)值矩陣,再進行正交變換和歸一化,最后截取低頻系數(shù)作為漢語詞的詞向量,計算簡單,可以避免漢語詞向量化時常見的“未登錄詞”問題,在漢語的自然語言處理中具有重要的應用價值。