一種基于深度學(xué)習(xí)的非監(jiān)督命名實體語義消歧方法

基本信息

申請?zhí)?/td> CN201410488048.1 申請日 -
公開(公告)號 CN104268200A 公開(公告)日 2015-01-07
申請公布號 CN104268200A 申請公布日 2015-01-07
分類號 G06F17/30(2006.01)I;G06F17/27(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 余雷;鄧攀;閆碧瑩;袁偉;李玉成;萬安格 申請(專利權(quán))人 中科明遠(yuǎn)(北京)并行軟件有限公司
代理機構(gòu) 北京永創(chuàng)新實專利事務(wù)所 代理人 祗志潔
地址 100190 北京市海淀區(qū)中關(guān)村南四街4號
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種基于深度學(xué)習(xí)的非監(jiān)督命名實體語義消歧方法,針對某一特定領(lǐng)域,在垂直網(wǎng)站上抓取評論數(shù)據(jù)并進(jìn)行預(yù)處理;對評論數(shù)據(jù)中文分詞;利用主題模型對詞進(jìn)行主題聚類,生成包含主題信息的文檔主題詞分布;對詞集合中的所有詞,使用基于深度學(xué)習(xí)的詞聚類方法word2vec進(jìn)行關(guān)鍵詞聚類,提取和關(guān)鍵詞語義接近的詞;使用條件隨機場該模型識別評論數(shù)據(jù)中的命名實體;根據(jù)步驟4主題聚類的聚類結(jié)果,構(gòu)建不同主題下的詞集合,計算文檔和詞集合的相似度,選取文檔主題,得出文檔中命名實體的語境含義,從而消除語義岐義。本發(fā)明實現(xiàn)了以比較高的可解釋度和精確度來進(jìn)行命名實體消歧,滿足了特定領(lǐng)域且需要大量的知識庫的要求。