一種未登錄詞的識別方法
基本信息
申請?zhí)?/td> | CN200910265839.7 | 申請日 | - |
公開(公告)號 | CN101751386A | 公開(公告)日 | 2010-06-23 |
申請公布號 | CN101751386A | 申請公布日 | 2010-06-23 |
分類號 | G06F17/27(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 黃河燕;史樹敏;張海軍 | 申請(專利權(quán))人 | 華建機器翻譯有限公司 |
代理機構(gòu) | 北京理工大學專利中心 | 代理人 | 華建機器翻譯有限公司;北京理工大學 |
地址 | 100097 北京市海淀區(qū)北四環(huán)中路257號科群大廈 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種未登錄詞的識別方法,屬于計算機科學中的自然語言處理技術(shù)領(lǐng)域。在未登錄詞的檢測階段,先用多重規(guī)則過濾重復串集合,然后使用統(tǒng)計模型作為主體統(tǒng)計框架,將盡可能多的特征融入到框架內(nèi),確保未登錄詞檢測具有較高的準確率和召回率;在未登錄詞詞性猜測階段,基于統(tǒng)計模型框架,在通用特征的基礎(chǔ)上,通過引入有效的新特征,來提高未登錄詞詞性猜測的準確率。本方法對比現(xiàn)有技術(shù),不受內(nèi)存規(guī)模的限制,擴大了未登錄詞的檢測范圍,有效減少了未登錄詞檢測過程中的漏召問題,尤其適合用于大規(guī)模語料的未登錄詞的識別。 |
