一種文本檢索方法、系統(tǒng)、設備及存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN202111609947.9 | 申請日 | - |
公開(公告)號 | CN114003698A | 公開(公告)日 | 2022-02-01 |
申請公布號 | CN114003698A | 申請公布日 | 2022-02-01 |
分類號 | G06F16/33(2019.01)I;G06K9/62(2022.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 郭湘;黃鵬;江嶺 | 申請(專利權)人 | 成都曉多科技有限公司 |
代理機構(gòu) | 成都睿道專利代理事務所(普通合伙) | 代理人 | 薛波 |
地址 | 610000四川省成都市天府新區(qū)興隆街道湖畔路西段123號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種文本檢索方法、系統(tǒng)、設備及存儲介質(zhì),步驟如下:利用預訓練語言模型作為編碼器,通過編碼器對一批標注過后的相似句對進行自注意力和掩碼處理;對最終編碼進行池化處理,根據(jù)交叉熵損失函數(shù)指導訓練;通過數(shù)據(jù)增強為輸入構(gòu)造正樣本,將及輸入編碼器,得到表示向量和;計算表示向量與批內(nèi)其他向量的相似度,根據(jù)相似度對候選文本排序,通過最終損失函數(shù)指導網(wǎng)絡參數(shù)的迭代訓練;基于訓練好的模型進行文本檢索。本申請通過加入有標注樣本的有監(jiān)督訓練,可增強模型的泛化能力;基于注意力掩碼機制,模型本身會有相似度文本推理能力;基于對比學習,用無監(jiān)督的方式使得模型具有文本檢索的能力。 |
