一種基于多維度向量化編碼的文本相似度計算方法及裝置
基本信息
申請?zhí)?/td> | CN201911224993.X | 申請日 | - |
公開(公告)號 | CN110956039A | 公開(公告)日 | 2020-04-03 |
申請公布號 | CN110956039A | 申請公布日 | 2020-04-03 |
分類號 | G06F40/289(2020.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 譚明;張建輝;袁亞洲;刁玉賢;余雯婧;高依舟 | 申請(專利權(quán))人 | 中國太平洋保險(集團)股份有限公司 |
代理機構(gòu) | 上海寶鼎專利代理有限公司 | 代理人 | 張寶讓 |
地址 | 200010上海市黃浦區(qū)中山南路1號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于多維度向量化編碼的文本相似度計算方法,包括:a.對第一目標文本進行多維度語義特征處理構(gòu)建四種與第一目標文本相匹配的Embedding向量,所述Embedding向量包括S1、S2、S3以及S4;b.基于輸出向量U以及權(quán)重向量WeightingU確定用以評價四種Embedding向量加權(quán)關(guān)系的Attention向量SelfAttentionU;c.基于四種Embedding向量以及Attention向量SelfAttentionU確定第一目標文本的多維度向量X;d.對第二目標文本重復(fù)執(zhí)行步驟a至c,確定第二目標文本的多維度向量Y;e.基于皮爾森相關(guān)系數(shù)確定X與Y的相似性。本方法在相似度模型訓(xùn)練時,對多個向量進行加權(quán),權(quán)重作為模型需要學(xué)習(xí)的參數(shù),通過深度學(xué)習(xí)算法對文本進行編碼建模,從而尋找最優(yōu)參數(shù)。本發(fā)明使用方便,功能強大,計算精確,具有極高的商業(yè)價值。?? |
