一種基于索引數(shù)據(jù)的自然語言處理方法和系統(tǒng)
基本信息
申請?zhí)?/td> | CN202010147917.X | 申請日 | - |
公開(公告)號 | CN111488423B | 公開(公告)日 | 2020-08-04 |
申請公布號 | CN111488423B | 申請公布日 | 2020-08-04 |
分類號 | G06F16/31(2019.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 劉占亮;錢泓錦;竇志成;劉家俊 | 申請(專利權(quán))人 | 北京一覽群智數(shù)據(jù)科技有限責(zé)任公司 |
代理機構(gòu) | 北京天方智力知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 北京一覽群智數(shù)據(jù)科技有限責(zé)任公司 |
地址 | 100080北京市海淀區(qū)丹棱街1號院1號樓25層2510室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種基于索引數(shù)據(jù)的自然語言處理方法和系統(tǒng),解決現(xiàn)有語言模型訓(xùn)練缺乏有效數(shù)據(jù)樣本無法形成中文詞匯特征準(zhǔn)確表達(dá)的技術(shù)問題。方法包括:建立漢語語料的字形索引,根據(jù)字形索引形成漢語語料的基本向量,利用基本向量形成漢語的語句訓(xùn)練集;通過語句訓(xùn)練集對循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練形成漢語語句模型;根據(jù)漢語語句模型獲取漢語字符的語義隱性特征向量形成詞向量。有利于形成與實際語義處理任務(wù)相適應(yīng)的向量維度空間,為具體語義處理任務(wù)提供良好的樣本衡量基礎(chǔ)。避免了現(xiàn)有循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)針對字符級別的漢語隱性相關(guān)性缺乏有效識別的嚴(yán)重缺陷。?? |
