基于領(lǐng)域本體結(jié)合機器學習模型的漢語文本共指消解方法
基本信息
申請?zhí)?/td> | CN200810246639.2 | 申請日 | - |
公開(公告)號 | CN101770453A | 公開(公告)日 | 2010-07-07 |
申請公布號 | CN101770453A | 申請公布日 | 2010-07-07 |
分類號 | G06F17/27(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 黃河燕 | 申請(專利權(quán))人 | 華建機器翻譯有限公司 |
代理機構(gòu) | 北京北新智誠知識產(chǎn)權(quán)代理有限公司 | 代理人 | 華建機器翻譯有限公司 |
地址 | 100083 北京市海淀區(qū)北四環(huán)中路257號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于領(lǐng)域本體結(jié)合機器學習模型的漢語文本共指消解方法,包括如下步驟:(1)構(gòu)建完成領(lǐng)域本體;(2)輸入待處理的漢語文本;(3)對步驟(2)中的漢語文本進行分詞與詞性標注處理;(4)將漢語文本中的命名實體分為常規(guī)命名實體和領(lǐng)域命名實體兩類,利用步驟(1)中構(gòu)建的領(lǐng)域本體通過形式化實例獲取詞性規(guī)則模板,結(jié)合CRF模型,針對領(lǐng)域命名實體進行識別處理;(5)針對領(lǐng)域命名實體之外的普通名詞短語進行歸并處理;(6)利用步驟(1)中構(gòu)建的領(lǐng)域本體,獲取語義類特征,結(jié)合機器學習模型,針對領(lǐng)域命名實體及普通名詞短語進行共指消解處理。本漢語文本共指消解方法對人工成本要求較低,能夠在短時間內(nèi)獲取高準確率的共指消解處理結(jié)果。 |
