一種基于多維度向量化編碼的文本相似度計算方法及裝置

基本信息

申請?zhí)?/td> CN201911224993.X 申請日 -
公開(公告)號 CN110956039A 公開(公告)日 2020-04-03
申請公布號 CN110956039A 申請公布日 2020-04-03
分類號 G06F40/289(2020.01)I 分類 計算;推算;計數(shù);
發(fā)明人 譚明;張建輝;袁亞洲;刁玉賢;余雯婧;高依舟 申請(專利權(quán))人 中國太平洋保險(集團)股份有限公司
代理機構(gòu) 上海寶鼎專利代理有限公司 代理人 張寶讓
地址 200010上海市黃浦區(qū)中山南路1號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于多維度向量化編碼的文本相似度計算方法,包括:a.對第一目標文本進行多維度語義特征處理構(gòu)建四種與第一目標文本相匹配的Embedding向量,所述Embedding向量包括S1、S2、S3以及S4;b.基于輸出向量U以及權(quán)重向量WeightingU確定用以評價四種Embedding向量加權(quán)關(guān)系的Attention向量SelfAttentionU;c.基于四種Embedding向量以及Attention向量SelfAttentionU確定第一目標文本的多維度向量X;d.對第二目標文本重復(fù)執(zhí)行步驟a至c,確定第二目標文本的多維度向量Y;e.基于皮爾森相關(guān)系數(shù)確定X與Y的相似性。本方法在相似度模型訓(xùn)練時,對多個向量進行加權(quán),權(quán)重作為模型需要學(xué)習(xí)的參數(shù),通過深度學(xué)習(xí)算法對文本進行編碼建模,從而尋找最優(yōu)參數(shù)。本發(fā)明使用方便,功能強大,計算精確,具有極高的商業(yè)價值。??