一種基于雙向LSTM和CRF的命名實體識別方法

基本信息

申請?zhí)?/td> CN201710874154.7 申請日 -
公開(公告)號 CN107644014A 公開(公告)日 2018-01-30
申請公布號 CN107644014A 申請公布日 2018-01-30
分類號 G06F17/27;G06F17/21;G06N3/08 分類 計算;推算;計數(shù);
發(fā)明人 薛涵凜;顧孫炎 申請(專利權(quán))人 南京安鏈數(shù)據(jù)科技有限公司
代理機構(gòu) - 代理人 -
地址 210000 江蘇省南京市雨花臺區(qū)雨花經(jīng)濟開發(fā)區(qū)鳳華路18號1幢B315-6室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于雙向LSTM和CRF的命名實體識別方法,該方法是基于現(xiàn)有的傳統(tǒng)命名實體識別算法進行的改進優(yōu)化,具體步驟如下:(1)對文本進行預(yù)處理,提取文本詞組信息和字符信息。(2)利用雙向LSTM神經(jīng)網(wǎng)絡(luò)對文本字符信息進行編碼轉(zhuǎn)換成字符向量。(3)利用glove模型對文本詞組信息進行編碼轉(zhuǎn)換成詞向量。(4)將字符向量和詞向量組合成上下文信息向量,并放入雙向LSTM神經(jīng)網(wǎng)絡(luò)中。(5)利用線性鏈條件隨機場對雙向LSTM的輸出進行解碼,得到文本標(biāo)注實體。本發(fā)明利用深度神經(jīng)網(wǎng)絡(luò)提取文本特征,結(jié)合條件隨機場進行解碼,可以有效提取文本特征信息并且能夠在不同語言的實體識別任務(wù)上取得很好的效果。