一種文本檢索方法、系統(tǒng)、設(shè)備及存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN202111609947.9 | 申請日 | - |
公開(公告)號 | CN114003698A | 公開(公告)日 | 2022-02-01 |
申請公布號 | CN114003698A | 申請公布日 | 2022-02-01 |
分類號 | G06F16/33(2019.01)I;G06K9/62(2022.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 郭湘;黃鵬;江嶺 | 申請(專利權(quán))人 | 成都曉多科技有限公司 |
代理機(jī)構(gòu) | 成都睿道專利代理事務(wù)所(普通合伙) | 代理人 | 薛波 |
地址 | 610000四川省成都市天府新區(qū)興隆街道湖畔路西段123號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種文本檢索方法、系統(tǒng)、設(shè)備及存儲介質(zhì),步驟如下:利用預(yù)訓(xùn)練語言模型作為編碼器,通過編碼器對一批標(biāo)注過后的相似句對進(jìn)行自注意力和掩碼處理;對最終編碼進(jìn)行池化處理,根據(jù)交叉熵?fù)p失函數(shù)指導(dǎo)訓(xùn)練;通過數(shù)據(jù)增強(qiáng)為輸入構(gòu)造正樣本,將及輸入編碼器,得到表示向量和;計(jì)算表示向量與批內(nèi)其他向量的相似度,根據(jù)相似度對候選文本排序,通過最終損失函數(shù)指導(dǎo)網(wǎng)絡(luò)參數(shù)的迭代訓(xùn)練;基于訓(xùn)練好的模型進(jìn)行文本檢索。本申請通過加入有標(biāo)注樣本的有監(jiān)督訓(xùn)練,可增強(qiáng)模型的泛化能力;基于注意力掩碼機(jī)制,模型本身會有相似度文本推理能力;基于對比學(xué)習(xí),用無監(jiān)督的方式使得模型具有文本檢索的能力。 |
