基于bert的命名實(shí)體識(shí)別方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
基本信息
申請(qǐng)?zhí)?/td> | CN202110364506.0 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN113177412A | 公開(公告)日 | 2021-07-27 |
申請(qǐng)公布號(hào) | CN113177412A | 申請(qǐng)公布日 | 2021-07-27 |
分類號(hào) | G06F40/295(2020.01)I;G06F40/242(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 鄭才松;李青龍 | 申請(qǐng)(專利權(quán))人 | 北京智慧星光信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 北京智宇正信知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 李明卓 |
地址 | 100080北京市海淀區(qū)海淀大街8號(hào)A座22層A區(qū) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于bert的命名實(shí)體識(shí)別方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì),該方法包括:根據(jù)識(shí)別需求確定命名實(shí)體標(biāo)簽;根據(jù)命名實(shí)體標(biāo)簽對(duì)訓(xùn)練集進(jìn)行標(biāo)注;分別將訓(xùn)練集中每一個(gè)訓(xùn)練文本進(jìn)行分詞,得到所對(duì)應(yīng)的詞序列;將詞序列輸入bert特征表示層中得到詞向量;將詞向量輸入至BiLSTM模型和CRF模型進(jìn)行訓(xùn)練,得到實(shí)體識(shí)別模型;獲取待識(shí)別文本;將待識(shí)別文本輸入實(shí)體識(shí)別模型中得到識(shí)別結(jié)果;獲取歸一化詞典;將識(shí)別結(jié)果與歸一化詞典進(jìn)行匹配,得到歸一化的識(shí)別結(jié)果。通過使用Bert數(shù)據(jù)訓(xùn)練出來的詞向量模型輸入,使模型能夠充分學(xué)習(xí)文本特征,大大提高了實(shí)體識(shí)別的效果;通過構(gòu)建歸一化詞典將識(shí)別結(jié)果進(jìn)行歸一化處理,去除重復(fù)和冗余,提高識(shí)別結(jié)果準(zhǔn)確度。 |
