一種具有多種子模塊信息的中文詞向量生成方法

基本信息

申請?zhí)?/td> CN201911172979.X 申請日 -
公開(公告)號 CN111160020A 公開(公告)日 2020-05-15
申請公布號 CN111160020A 申請公布日 2020-05-15
分類號 G06F40/284;G06F40/211;G06N3/04;G06N3/08 分類 計算;推算;計數(shù);
發(fā)明人 朱鵬;程大偉;楊芳洲;羅軼鳳;錢衛(wèi)寧;周傲英 申請(專利權(quán))人 上海瞰點科技有限責(zé)任公司
代理機構(gòu) 上海藍迪專利商標(biāo)事務(wù)所(普通合伙) 代理人 上海瞰點科技有限責(zé)任公司;華東師范大學(xué)
地址 200241 上海市閔行區(qū)東川路500號
法律狀態(tài) -

摘要

摘要 本發(fā)明提出了一種具有多種子模塊信息的中文詞向量生成方法,其特點是采用包括單詞、字符、部首、成分、字形和拼音的六種子模塊信息與注意力機制融合方法,以學(xué)習(xí)改進的漢字嵌入表示形式,將其融合到具有適當(dāng)權(quán)重的詞嵌入中,生成高精度的詞向量。本發(fā)明與現(xiàn)有技術(shù)相比具有根據(jù)注意機制為每種子模塊信息分配適當(dāng)?shù)臋?quán)重,以減少語義含義較少的子模塊的權(quán)重,提高子模塊的權(quán)重,具有更豐富語義含義的模塊,改善了中文單詞嵌入,實現(xiàn)了可觀的性能提升。