一種未登錄詞的識別方法

基本信息

申請?zhí)?/td> CN200910265839.7 申請日 -
公開(公告)號 CN101751386A 公開(公告)日 2010-06-23
申請公布號 CN101751386A 申請公布日 2010-06-23
分類號 G06F17/27(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 黃河燕;史樹敏;張海軍 申請(專利權(quán))人 華建機器翻譯有限公司
代理機構(gòu) 北京理工大學專利中心 代理人 華建機器翻譯有限公司;北京理工大學
地址 100097 北京市海淀區(qū)北四環(huán)中路257號科群大廈
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種未登錄詞的識別方法,屬于計算機科學中的自然語言處理技術(shù)領(lǐng)域。在未登錄詞的檢測階段,先用多重規(guī)則過濾重復串集合,然后使用統(tǒng)計模型作為主體統(tǒng)計框架,將盡可能多的特征融入到框架內(nèi),確保未登錄詞檢測具有較高的準確率和召回率;在未登錄詞詞性猜測階段,基于統(tǒng)計模型框架,在通用特征的基礎(chǔ)上,通過引入有效的新特征,來提高未登錄詞詞性猜測的準確率。本方法對比現(xiàn)有技術(shù),不受內(nèi)存規(guī)模的限制,擴大了未登錄詞的檢測范圍,有效減少了未登錄詞檢測過程中的漏召問題,尤其適合用于大規(guī)模語料的未登錄詞的識別。