一種具有多種子模塊信息的中文詞向量生成方法
基本信息
申請?zhí)?/td> | CN201911172979.X | 申請日 | - |
公開(公告)號 | CN111160020A | 公開(公告)日 | 2020-05-15 |
申請公布號 | CN111160020A | 申請公布日 | 2020-05-15 |
分類號 | G06F40/284;G06F40/211;G06N3/04;G06N3/08 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 朱鵬;程大偉;楊芳洲;羅軼鳳;錢衛(wèi)寧;周傲英 | 申請(專利權)人 | 上海瞰點科技有限責任公司 |
代理機構 | 上海藍迪專利商標事務所(普通合伙) | 代理人 | 上海瞰點科技有限責任公司;華東師范大學 |
地址 | 200241 上海市閔行區(qū)東川路500號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提出了一種具有多種子模塊信息的中文詞向量生成方法,其特點是采用包括單詞、字符、部首、成分、字形和拼音的六種子模塊信息與注意力機制融合方法,以學習改進的漢字嵌入表示形式,將其融合到具有適當權重的詞嵌入中,生成高精度的詞向量。本發(fā)明與現(xiàn)有技術相比具有根據(jù)注意機制為每種子模塊信息分配適當?shù)臋嘀兀詼p少語義含義較少的子模塊的權重,提高子模塊的權重,具有更豐富語義含義的模塊,改善了中文單詞嵌入,實現(xiàn)了可觀的性能提升。 |
