一種未登錄詞的識別方法
基本信息
申請?zhí)?/td> | CN200910265839.7 | 申請日 | - |
公開(公告)號 | CN101751386B | 公開(公告)日 | 2012-05-23 |
申請公布號 | CN101751386B | 申請公布日 | 2012-05-23 |
分類號 | G06F17/27(2006.01)I | 分類 | 計算;推算;計數; |
發(fā)明人 | 黃河燕;史樹敏;張海軍 | 申請(專利權)人 | 華建機器翻譯有限公司 |
代理機構 | 北京理工大學專利中心 | 代理人 | 華建機器翻譯有限公司;北京理工大學 |
地址 | 100097 北京市海淀區(qū)北四環(huán)中路257號科群大廈 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種未登錄詞的識別方法,屬于計算機科學中的自然語言處理技術領域。在未登錄詞的檢測階段,先用多重規(guī)則過濾重復串集合,然后使用統(tǒng)計模型作為主體統(tǒng)計框架,將盡可能多的特征融入到框架內,確保未登錄詞檢測具有較高的準確率和召回率;在未登錄詞詞性猜測階段,基于統(tǒng)計模型框架,在通用特征的基礎上,通過引入有效的新特征,來提高未登錄詞詞性猜測的準確率。本方法對比現有技術,不受內存規(guī)模的限制,擴大了未登錄詞的檢測范圍,有效減少了未登錄詞檢測過程中的漏召問題,尤其適合用于大規(guī)模語料的未登錄詞的識別。 |
