基于音節(jié)驅(qū)動的音譯實體名的計算機自動識別方法
基本信息
申請?zhí)?/td> | CN200710166174.5 | 申請日 | - |
公開(公告)號 | CN101145166A | 公開(公告)日 | 2008-03-19 |
申請公布號 | CN101145166A | 申請公布日 | 2008-03-19 |
分類號 | G06F17/30(2006.01) | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 陳沛;郭永福;許歡慶 | 申請(專利權(quán))人 | 北京中搜在線軟件有限公司 |
代理機構(gòu) | - | 代理人 | - |
地址 | 100088北京市海淀區(qū)西直門北大街42號華星大廈A座13層 | ||
法律狀態(tài) | - |
摘要
摘要 | 一種基于音節(jié)驅(qū)動的音譯實體名的計算機自動識別方法,包括用于計算機檢索的音譯名,先獲原始可信音譯名庫;再構(gòu)建用于識別音譯實體名的音節(jié)信息庫;組成大容量的音譯名語料庫;以原始可信音譯名庫的音譯名為基礎統(tǒng)計識別音譯名出現(xiàn)的錯誤類別,修正該音譯名語料庫,利用該音譯名語料庫對音譯實體名進行自動識別。本發(fā)明充分利于音譯名用字的構(gòu)成規(guī)律,對計算機自動識別的對比音譯名語料庫進行漸進式整理,分析提高了識別精度,并通過音節(jié)的統(tǒng)計學習得到計算機識別精度更高的音譯名資料庫,從而建立大型的高精準度音譯名資料庫并提高搜索中音譯名識別精度的,大大降低的音譯名實體搜索工程中錯誤的觸發(fā)幾率和邊界識別錯誤的幾率。 |
