一種基于雙向LSTM和CRF的命名實體識別方法
基本信息
申請?zhí)?/td> | CN201710874154.7 | 申請日 | - |
公開(公告)號 | CN107644014A | 公開(公告)日 | 2018-01-30 |
申請公布號 | CN107644014A | 申請公布日 | 2018-01-30 |
分類號 | G06F17/27;G06F17/21;G06N3/08 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 薛涵凜;顧孫炎 | 申請(專利權(quán))人 | 南京安鏈數(shù)據(jù)科技有限公司 |
代理機構(gòu) | - | 代理人 | - |
地址 | 210000 江蘇省南京市雨花臺區(qū)雨花經(jīng)濟開發(fā)區(qū)鳳華路18號1幢B315-6室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于雙向LSTM和CRF的命名實體識別方法,該方法是基于現(xiàn)有的傳統(tǒng)命名實體識別算法進行的改進優(yōu)化,具體步驟如下:(1)對文本進行預(yù)處理,提取文本詞組信息和字符信息。(2)利用雙向LSTM神經(jīng)網(wǎng)絡(luò)對文本字符信息進行編碼轉(zhuǎn)換成字符向量。(3)利用glove模型對文本詞組信息進行編碼轉(zhuǎn)換成詞向量。(4)將字符向量和詞向量組合成上下文信息向量,并放入雙向LSTM神經(jīng)網(wǎng)絡(luò)中。(5)利用線性鏈條件隨機場對雙向LSTM的輸出進行解碼,得到文本標(biāo)注實體。本發(fā)明利用深度神經(jīng)網(wǎng)絡(luò)提取文本特征,結(jié)合條件隨機場進行解碼,可以有效提取文本特征信息并且能夠在不同語言的實體識別任務(wù)上取得很好的效果。 |
