基于領(lǐng)域本體結(jié)合機器學習模型的漢語文本共指消解方法

基本信息

申請?zhí)?/td> CN200810246639.2 申請日 -
公開(公告)號 CN101770453A 公開(公告)日 2010-07-07
申請公布號 CN101770453A 申請公布日 2010-07-07
分類號 G06F17/27(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 黃河燕 申請(專利權(quán))人 華建機器翻譯有限公司
代理機構(gòu) 北京北新智誠知識產(chǎn)權(quán)代理有限公司 代理人 華建機器翻譯有限公司
地址 100083 北京市海淀區(qū)北四環(huán)中路257號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于領(lǐng)域本體結(jié)合機器學習模型的漢語文本共指消解方法,包括如下步驟:(1)構(gòu)建完成領(lǐng)域本體;(2)輸入待處理的漢語文本;(3)對步驟(2)中的漢語文本進行分詞與詞性標注處理;(4)將漢語文本中的命名實體分為常規(guī)命名實體和領(lǐng)域命名實體兩類,利用步驟(1)中構(gòu)建的領(lǐng)域本體通過形式化實例獲取詞性規(guī)則模板,結(jié)合CRF模型,針對領(lǐng)域命名實體進行識別處理;(5)針對領(lǐng)域命名實體之外的普通名詞短語進行歸并處理;(6)利用步驟(1)中構(gòu)建的領(lǐng)域本體,獲取語義類特征,結(jié)合機器學習模型,針對領(lǐng)域命名實體及普通名詞短語進行共指消解處理。本漢語文本共指消解方法對人工成本要求較低,能夠在短時間內(nèi)獲取高準確率的共指消解處理結(jié)果。