一種基于對比學(xué)習(xí)的長文本檢索模型

基本信息

申請?zhí)?/td> CN202111436178.7 申請日 -
公開(公告)號 CN114201581A 公開(公告)日 2022-03-18
申請公布號 CN114201581A 申請公布日 2022-03-18
分類號 G06F16/33(2019.01)I;G06F16/338(2019.01)I;G06F16/35(2019.01)I;G06N3/08(2006.01)I;G06N3/04(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 鐘澤藝;楊敏;賀倩明 申請(專利權(quán))人 深圳得理科技有限公司
代理機(jī)構(gòu) 深圳市銘粵知識產(chǎn)權(quán)代理有限公司 代理人 孫偉峰;武岑飛
地址 518055廣東省深圳市南山區(qū)深圳大學(xué)城學(xué)苑大道1068號
法律狀態(tài) -

摘要

摘要 本申請?zhí)峁┝艘环N基于對比學(xué)習(xí)的長文本檢索模型,包括法律領(lǐng)域預(yù)訓(xùn)練模塊、對比學(xué)習(xí)模塊以及檢索模塊;其中,法律領(lǐng)域預(yù)訓(xùn)練模塊,用于構(gòu)建基礎(chǔ)的長文本編碼器,以及使用法律文書語料對長文本編碼器進(jìn)行領(lǐng)域預(yù)訓(xùn)練;對比學(xué)習(xí)模塊,用于從案例標(biāo)注數(shù)據(jù)集中構(gòu)造訓(xùn)練數(shù)據(jù),以及利用訓(xùn)練數(shù)據(jù)對所述長文本編碼器進(jìn)行文本向量訓(xùn)練,其中,訓(xùn)練數(shù)據(jù)包括查詢語句及其正樣本、負(fù)樣本;檢索模塊,用于采用訓(xùn)練好的長文本編碼器檢測長文本查詢語句對應(yīng)的案例。通過上述方式,本申請的長文本檢索模型能夠有效解決深度模型處理長文本的問題,結(jié)合類案檢索的特點(diǎn),使用領(lǐng)域預(yù)訓(xùn)練以及對比學(xué)習(xí)方法對文檔編碼器進(jìn)行調(diào)整,提高了檢索的準(zhǔn)確度和效率。