分詞處理方法、裝置、計(jì)算設(shè)備及存儲(chǔ)介質(zhì)
基本信息
申請(qǐng)?zhí)?/td> | CN202010163540.7 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN113378562A | 公開(kāi)(公告)日 | 2021-09-10 |
申請(qǐng)公布號(hào) | CN113378562A | 申請(qǐng)公布日 | 2021-09-10 |
分類號(hào) | G06F40/289(2020.01)I;G06F40/216(2020.01)I;G06F16/33(2019.01)I;G06F16/387(2019.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 姜榮鑫 | 申請(qǐng)(專利權(quán))人 | 中國(guó)移動(dòng)通信集團(tuán)遼寧有限公司 |
代理機(jī)構(gòu) | 北京市浩天知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 梁倩 |
地址 | 110000遼寧省沈陽(yáng)市渾南新區(qū)新隆街6號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)了一種分詞處理方法、裝置、計(jì)算設(shè)備及存儲(chǔ)介質(zhì),方法包括:基于平均感知器算法對(duì)語(yǔ)料庫(kù)中的語(yǔ)料樣本進(jìn)行訓(xùn)練,得到第一分詞統(tǒng)計(jì)模型;其中,將每一次訓(xùn)練后得到的參數(shù)權(quán)值求平均值,將平均值作為第一分詞統(tǒng)計(jì)模型中的參數(shù)權(quán)值;統(tǒng)計(jì)第一分詞統(tǒng)計(jì)模型中各個(gè)特征的權(quán)重,根據(jù)統(tǒng)計(jì)結(jié)果確定權(quán)重閾值,將權(quán)重小于權(quán)重閾值的特征從第一分詞統(tǒng)計(jì)模型中刪除,得到第二分詞統(tǒng)計(jì)模型;當(dāng)接收到待分詞文件數(shù)據(jù)時(shí),利用第二分詞統(tǒng)計(jì)模型對(duì)待分詞文件數(shù)據(jù)完成分詞匹配處理。通過(guò)上述方式,本發(fā)明能夠節(jié)省訓(xùn)練模型的時(shí)間和資源,同時(shí)在不影響模型的性能的情況下減小了模型文件的大小。 |
