一種利用正交變換計(jì)算漢語詞向量的方法

基本信息

申請(qǐng)?zhí)?/td> CN202110941722.7 申請(qǐng)日 -
公開(公告)號(hào) CN113627175A 公開(公告)日 2021-11-09
申請(qǐng)公布號(hào) CN113627175A 申請(qǐng)公布日 2021-11-09
分類號(hào) G06F40/284(2020.01)I;G06F40/216(2020.01)I;G06F17/16(2006.01)I;G06F17/18(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 蔣遂平;袁曉光;王璐靜;劉軒;臧小濱 申請(qǐng)(專利權(quán))人 北京航天愛威電子技術(shù)有限公司
代理機(jī)構(gòu) 中國(guó)兵器工業(yè)集團(tuán)公司專利中心 代理人 辛海明
地址 100854北京市海淀區(qū)永定路51號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種利用正交變換計(jì)算漢語詞向量的方法,屬于語言處理領(lǐng)域。本發(fā)明將單個(gè)漢字用數(shù)值矩陣表示;用一個(gè)漢語詞中的漢字的數(shù)值矩陣合成這個(gè)漢語詞本身的數(shù)值矩陣;對(duì)單個(gè)漢語詞的數(shù)值矩陣進(jìn)行正交變換,得到正交變換后的系數(shù)矩陣;將漢語詞正交變換系數(shù)矩陣歸一化,使得正交變換系數(shù)矩陣的元素平方和等于1.0;在經(jīng)過歸一化的正交變換系數(shù)矩陣的左上角子矩陣或整個(gè)矩陣的元素按行或按列的順序排列,得到漢語詞的詞向量。本發(fā)明先將漢語詞表示為數(shù)值矩陣,再進(jìn)行正交變換和歸一化,最后截取低頻系數(shù)作為漢語詞的詞向量,計(jì)算簡(jiǎn)單,可以避免漢語詞向量化時(shí)常見的“未登錄詞”問題,在漢語的自然語言處理中具有重要的應(yīng)用價(jià)值。