一種開(kāi)放域問(wèn)答下基于KL正則化的檢索器預(yù)訓(xùn)練方法

基本信息

申請(qǐng)?zhí)?/td> CN202210408155.3 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN114661884A 公開(kāi)(公告)日 2022-06-24
申請(qǐng)公布號(hào) CN114661884A 申請(qǐng)公布日 2022-06-24
分類號(hào) G06F16/332(2019.01)I;G06F16/33(2019.01)I;G06N20/00(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 殷昱煜;江藝璇;梁婷婷;陶志偉;胡海胖;李尤慧子;李玉 申請(qǐng)(專利權(quán))人 杭州核新軟件技術(shù)有限公司
代理機(jī)構(gòu) 杭州奧創(chuàng)知識(shí)產(chǎn)權(quán)代理有限公司 代理人 -
地址 310018浙江省杭州市下沙高教園區(qū)2號(hào)大街
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種開(kāi)放域問(wèn)答下基于KL正則化的檢索器預(yù)訓(xùn)練方法。本發(fā)明通過(guò)使用當(dāng)前問(wèn)題重寫以及歷史問(wèn)題(可包含答案)和當(dāng)前問(wèn)題的拼接這兩種形式進(jìn)行訓(xùn)練,利用KL散度來(lái)拉進(jìn)兩種問(wèn)題形式的檢索結(jié)果,不僅提高了訓(xùn)練的穩(wěn)定性,而且提升了問(wèn)題編碼器對(duì)問(wèn)題的語(yǔ)義理解能力。本發(fā)明通過(guò)引入了困難負(fù)樣本,即由TF?IDF檢索到但不包含正確答案的文章,提高了檢索器的訓(xùn)練效果,使得檢索器能在內(nèi)容相似的一批文章甄別出與當(dāng)前問(wèn)題關(guān)聯(lián)更強(qiáng)的文章。