一種基于深度學(xué)習(xí)的分詞器訓(xùn)練方法及其裝置
基本信息
申請?zhí)?/td> | CN201910312228.7 | 申請日 | - |
公開(公告)號 | CN110032619A | 公開(公告)日 | 2019-07-19 |
申請公布號 | CN110032619A | 申請公布日 | 2019-07-19 |
分類號 | G06F16/31;G06F16/35;G06F17/27;G06K9/62;G06N20/00 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 汪齊順 | 申請(專利權(quán))人 | 合肥天毅網(wǎng)絡(luò)傳媒有限公司 |
代理機(jī)構(gòu) | 上海精晟知識產(chǎn)權(quán)代理有限公司 | 代理人 | 馮子玲 |
地址 | 230000 安徽省合肥市高新區(qū)信息產(chǎn)業(yè)基地桑夏1#綜合樓323室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于深度學(xué)習(xí)的分詞器訓(xùn)練方法及其裝置,涉及數(shù)據(jù)處理領(lǐng)域。本發(fā)明包括如下步驟:步驟S1:利用網(wǎng)絡(luò)爬蟲技術(shù)獲取大量網(wǎng)頁文本語料;步驟S2:對獲取的文本語料進(jìn)行類型篩選;步驟S3:采用分詞器對篩選后的不同類型的文本語料進(jìn)行分詞處理和分句處理得到訓(xùn)練集;步驟S4:刪除訓(xùn)練集中具有歧義或錯(cuò)誤的訓(xùn)練子集;步驟S5:將訓(xùn)練子集輸入模型進(jìn)行訓(xùn)練;步驟S6:計(jì)算每次訓(xùn)練迭代的損失函數(shù),獲取各類型的最優(yōu)模型。本發(fā)明通過網(wǎng)絡(luò)爬蟲獲取大量文本語料,并對文本語料進(jìn)行類型不同篩選,根據(jù)類型對文本語料進(jìn)行分詞處理并作為訓(xùn)練集進(jìn)行模型訓(xùn)練,再通過損失函數(shù)獲取最優(yōu)模型,提高了分詞器的準(zhǔn)確率和效率。 |
