一種文本檢索方法、系統(tǒng)、設備及存儲介質(zhì)

基本信息

申請?zhí)?/td> CN202111609947.9 申請日 -
公開(公告)號 CN114003698A 公開(公告)日 2022-02-01
申請公布號 CN114003698A 申請公布日 2022-02-01
分類號 G06F16/33(2019.01)I;G06K9/62(2022.01)I 分類 計算;推算;計數(shù);
發(fā)明人 郭湘;黃鵬;江嶺 申請(專利權)人 成都曉多科技有限公司
代理機構(gòu) 成都睿道專利代理事務所(普通合伙) 代理人 薛波
地址 610000四川省成都市天府新區(qū)興隆街道湖畔路西段123號
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種文本檢索方法、系統(tǒng)、設備及存儲介質(zhì),步驟如下:利用預訓練語言模型作為編碼器,通過編碼器對一批標注過后的相似句對進行自注意力和掩碼處理;對最終編碼進行池化處理,根據(jù)交叉熵損失函數(shù)指導訓練;通過數(shù)據(jù)增強為輸入構(gòu)造正樣本,將及輸入編碼器,得到表示向量和;計算表示向量與批內(nèi)其他向量的相似度,根據(jù)相似度對候選文本排序,通過最終損失函數(shù)指導網(wǎng)絡參數(shù)的迭代訓練;基于訓練好的模型進行文本檢索。本申請通過加入有標注樣本的有監(jiān)督訓練,可增強模型的泛化能力;基于注意力掩碼機制,模型本身會有相似度文本推理能力;基于對比學習,用無監(jiān)督的方式使得模型具有文本檢索的能力。