一種中文分詞糾錯方法、離線訓(xùn)練裝置及在線處理裝置

基本信息

申請?zhí)?/td> CN201510526686.2 申請日 -
公開(公告)號 CN106484670B 公開(公告)日 2018-12-25
申請公布號 CN106484670B 申請公布日 2018-12-25
分類號 G06F17/27 分類 計算;推算;計數(shù);
發(fā)明人 吳尉林;許歡慶;郭永福;陳沛 申請(專利權(quán))人 北京中搜網(wǎng)絡(luò)技術(shù)股份有限公司
代理機構(gòu) 北京安博達知識產(chǎn)權(quán)代理有限公司 代理人 北京中搜云商網(wǎng)絡(luò)技術(shù)有限公司
地址 100086 北京市海淀區(qū)北三環(huán)西路43號院2號樓5層08-09號
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種中文分詞糾錯方法、離線訓(xùn)練裝置及在線處理裝置,方法包括:從語料庫上自動訓(xùn)練得到分詞糾錯器,比較當(dāng)前分詞結(jié)果集與正確的分詞結(jié)果集,對錯誤的分詞結(jié)果進行統(tǒng)計,自動總結(jié)出糾錯規(guī)則,并對每條糾錯規(guī)則計算統(tǒng)計指標(biāo),過濾不可靠的糾錯規(guī)則,這樣不停迭代計算,不斷發(fā)現(xiàn)新的糾錯規(guī)則從而構(gòu)建糾錯規(guī)則庫,再根據(jù)糾錯規(guī)則庫對在線句子進行分詞糾錯處理,本發(fā)明提供一種中文分詞糾錯方法、離線訓(xùn)練裝置及在線處理裝置能夠通過構(gòu)建糾錯規(guī)則庫有效的提高中文分詞的精準性,同時能夠不斷適應(yīng)新詞出現(xiàn)的需求。