分詞處理方法、裝置、計(jì)算設(shè)備及存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN202010163540.7 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN113378562A 公開(kāi)(公告)日 2021-09-10
申請(qǐng)公布號(hào) CN113378562A 申請(qǐng)公布日 2021-09-10
分類號(hào) G06F40/289(2020.01)I;G06F40/216(2020.01)I;G06F16/33(2019.01)I;G06F16/387(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 姜榮鑫 申請(qǐng)(專利權(quán))人 中國(guó)移動(dòng)通信集團(tuán)遼寧有限公司
代理機(jī)構(gòu) 北京市浩天知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 梁倩
地址 110000遼寧省沈陽(yáng)市渾南新區(qū)新隆街6號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種分詞處理方法、裝置、計(jì)算設(shè)備及存儲(chǔ)介質(zhì),方法包括:基于平均感知器算法對(duì)語(yǔ)料庫(kù)中的語(yǔ)料樣本進(jìn)行訓(xùn)練,得到第一分詞統(tǒng)計(jì)模型;其中,將每一次訓(xùn)練后得到的參數(shù)權(quán)值求平均值,將平均值作為第一分詞統(tǒng)計(jì)模型中的參數(shù)權(quán)值;統(tǒng)計(jì)第一分詞統(tǒng)計(jì)模型中各個(gè)特征的權(quán)重,根據(jù)統(tǒng)計(jì)結(jié)果確定權(quán)重閾值,將權(quán)重小于權(quán)重閾值的特征從第一分詞統(tǒng)計(jì)模型中刪除,得到第二分詞統(tǒng)計(jì)模型;當(dāng)接收到待分詞文件數(shù)據(jù)時(shí),利用第二分詞統(tǒng)計(jì)模型對(duì)待分詞文件數(shù)據(jù)完成分詞匹配處理。通過(guò)上述方式,本發(fā)明能夠節(jié)省訓(xùn)練模型的時(shí)間和資源,同時(shí)在不影響模型的性能的情況下減小了模型文件的大小。