一種基于預(yù)訓(xùn)練模型的級聯(lián)二進制中文實體關(guān)系提取方法

基本信息

申請?zhí)?/td> CN202110802863.0 申請日 -
公開(公告)號 CN113626553A 公開(公告)日 2021-11-09
申請公布號 CN113626553A 申請公布日 2021-11-09
分類號 G06F16/31(2019.01)I;G06F16/33(2019.01)I;G06F16/35(2019.01)I;G06F40/295(2020.01)I;G06F40/30(2020.01)I 分類 計算;推算;計數(shù);
發(fā)明人 劉曉明;朱皓宬;沈超;周亞東;郭俊波 申請(專利權(quán))人 人民網(wǎng)股份有限公司
代理機構(gòu) 西安智大知識產(chǎn)權(quán)代理事務(wù)所 代理人 段俊濤
地址 100035北京市西城區(qū)新街口外大街28號B座234號
法律狀態(tài) -

摘要

摘要 一種基于預(yù)訓(xùn)練模型的級聯(lián)二進制中文實體關(guān)系提取方法,包括:利用預(yù)訓(xùn)練模型Bert將文本的語義及位置信息提取聯(lián)合生成嵌入向量;將關(guān)系建模為主體到客體的一種函數(shù)映射,拋棄了以往主客體同時識別的方式,首先通過對每個字的嵌入向量進行二分類任務(wù)預(yù)測三元組中主體所在的位置,然后在提取關(guān)系及客體的過程中,將文本及主體的聯(lián)合嵌入信息作為輸入,在每種關(guān)系映射之下對每個字的嵌入向量進行二分類任務(wù)預(yù)測三元組中客體所在的位置。本發(fā)明能夠提取出非結(jié)構(gòu)化文本的人物,組織,事件等實體及其之間的多種關(guān)系并有效的解決了三元組之間的重疊問題,預(yù)測結(jié)果準確率高、誤差小,計算復(fù)雜度低,有很高的實用價值。