基于結(jié)合圖結(jié)構(gòu)信息和文本語義模型的實體對齊方法
基本信息
申請?zhí)?/td> | CN202111616769.2 | 申請日 | - |
公開(公告)號 | CN114417809A | 公開(公告)日 | 2022-04-29 |
申請公布號 | CN114417809A | 申請公布日 | 2022-04-29 |
分類號 | G06F40/189(2020.01)I;G06F40/279(2020.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 董嘉誠;楊磊 | 申請(專利權(quán))人 | 北京滴普科技有限公司 |
代理機構(gòu) | 北京中政聯(lián)科專利代理事務(wù)所(普通合伙) | 代理人 | 賴學能 |
地址 | 100000北京市海淀區(qū)彩和坊路8號4層406 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了基于結(jié)合圖結(jié)構(gòu)信息和文本語義模型的實體對齊方法,屬于計算機網(wǎng)絡(luò)技術(shù)領(lǐng)域,通過提取非結(jié)構(gòu)化文本數(shù)據(jù)實體信息、實體屬性信息和實體關(guān)系信息,并組成原始三元組數(shù)據(jù),生成基于圖結(jié)構(gòu)實體嵌入表示,并計算不同實體間余弦相似度,提取實體在原文中上下文關(guān)于機構(gòu)和人名信息,用作實體輔助描述信息,計算不同實體間描述信息是否有交集,計算不同實體名稱編輯距離、word2vec余弦相似度,基于預訓練模型計算不同實體名稱語義相似度,綜合相似度得分以判定兩個實體是否為同一實體,本發(fā)明綜合利用圖結(jié)構(gòu)信息、字符信息和語義信息來判定實體之間相似度,充分利用實體圖結(jié)構(gòu)信息和語義信息進行實體對齊,提高在共有信息稀疏時對齊的準確度。 |
