一種基于深度學(xué)習(xí)的非監(jiān)督命名實體語義消歧方法
基本信息
申請?zhí)?/td> | CN201410488048.1 | 申請日 | - |
公開(公告)號 | CN104268200A | 公開(公告)日 | 2015-01-07 |
申請公布號 | CN104268200A | 申請公布日 | 2015-01-07 |
分類號 | G06F17/30(2006.01)I;G06F17/27(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 余雷;鄧攀;閆碧瑩;袁偉;李玉成;萬安格 | 申請(專利權(quán))人 | 中科明遠(yuǎn)(北京)并行軟件有限公司 |
代理機構(gòu) | 北京永創(chuàng)新實專利事務(wù)所 | 代理人 | 祗志潔 |
地址 | 100190 北京市海淀區(qū)中關(guān)村南四街4號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種基于深度學(xué)習(xí)的非監(jiān)督命名實體語義消歧方法,針對某一特定領(lǐng)域,在垂直網(wǎng)站上抓取評論數(shù)據(jù)并進(jìn)行預(yù)處理;對評論數(shù)據(jù)中文分詞;利用主題模型對詞進(jìn)行主題聚類,生成包含主題信息的文檔主題詞分布;對詞集合中的所有詞,使用基于深度學(xué)習(xí)的詞聚類方法word2vec進(jìn)行關(guān)鍵詞聚類,提取和關(guān)鍵詞語義接近的詞;使用條件隨機場該模型識別評論數(shù)據(jù)中的命名實體;根據(jù)步驟4主題聚類的聚類結(jié)果,構(gòu)建不同主題下的詞集合,計算文檔和詞集合的相似度,選取文檔主題,得出文檔中命名實體的語境含義,從而消除語義岐義。本發(fā)明實現(xiàn)了以比較高的可解釋度和精確度來進(jìn)行命名實體消歧,滿足了特定領(lǐng)域且需要大量的知識庫的要求。 |
