一種具有多種子模塊信息的中文詞向量生成方法
基本信息
申請?zhí)?/td> | CN201911172979.X | 申請日 | - |
公開(公告)號 | CN111160020A | 公開(公告)日 | 2020-05-15 |
申請公布號 | CN111160020A | 申請公布日 | 2020-05-15 |
分類號 | G06F40/284;G06F40/211;G06N3/04;G06N3/08 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 朱鵬;程大偉;楊芳洲;羅軼鳳;錢衛(wèi)寧;周傲英 | 申請(專利權(quán))人 | 上海瞰點科技有限責(zé)任公司 |
代理機構(gòu) | 上海藍迪專利商標(biāo)事務(wù)所(普通合伙) | 代理人 | 上海瞰點科技有限責(zé)任公司;華東師范大學(xué) |
地址 | 200241 上海市閔行區(qū)東川路500號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提出了一種具有多種子模塊信息的中文詞向量生成方法,其特點是采用包括單詞、字符、部首、成分、字形和拼音的六種子模塊信息與注意力機制融合方法,以學(xué)習(xí)改進的漢字嵌入表示形式,將其融合到具有適當(dāng)權(quán)重的詞嵌入中,生成高精度的詞向量。本發(fā)明與現(xiàn)有技術(shù)相比具有根據(jù)注意機制為每種子模塊信息分配適當(dāng)?shù)臋?quán)重,以減少語義含義較少的子模塊的權(quán)重,提高子模塊的權(quán)重,具有更豐富語義含義的模塊,改善了中文單詞嵌入,實現(xiàn)了可觀的性能提升。 |
