基于結(jié)合圖結(jié)構(gòu)信息和文本語義模型的實體對齊方法

基本信息

申請?zhí)?/td> CN202111616769.2 申請日 -
公開(公告)號 CN114417809A 公開(公告)日 2022-04-29
申請公布號 CN114417809A 申請公布日 2022-04-29
分類號 G06F40/189(2020.01)I;G06F40/279(2020.01)I 分類 計算;推算;計數(shù);
發(fā)明人 董嘉誠;楊磊 申請(專利權(quán))人 北京滴普科技有限公司
代理機構(gòu) 北京中政聯(lián)科專利代理事務(wù)所(普通合伙) 代理人 賴學能
地址 100000北京市海淀區(qū)彩和坊路8號4層406
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了基于結(jié)合圖結(jié)構(gòu)信息和文本語義模型的實體對齊方法,屬于計算機網(wǎng)絡(luò)技術(shù)領(lǐng)域,通過提取非結(jié)構(gòu)化文本數(shù)據(jù)實體信息、實體屬性信息和實體關(guān)系信息,并組成原始三元組數(shù)據(jù),生成基于圖結(jié)構(gòu)實體嵌入表示,并計算不同實體間余弦相似度,提取實體在原文中上下文關(guān)于機構(gòu)和人名信息,用作實體輔助描述信息,計算不同實體間描述信息是否有交集,計算不同實體名稱編輯距離、word2vec余弦相似度,基于預訓練模型計算不同實體名稱語義相似度,綜合相似度得分以判定兩個實體是否為同一實體,本發(fā)明綜合利用圖結(jié)構(gòu)信息、字符信息和語義信息來判定實體之間相似度,充分利用實體圖結(jié)構(gòu)信息和語義信息進行實體對齊,提高在共有信息稀疏時對齊的準確度。