一種基于適配器的遷移學(xué)習(xí)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN202111396195.2 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN114091452A 公開(kāi)(公告)日 2022-02-25
申請(qǐng)公布號(hào) CN114091452A 申請(qǐng)公布日 2022-02-25
分類號(hào) G06F40/289(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 王偉;黃勇其;于翠翠;張黔 申請(qǐng)(專利權(quán))人 華潤(rùn)數(shù)字科技有限公司
代理機(jī)構(gòu) 深圳市世聯(lián)合知識(shí)產(chǎn)權(quán)代理有限公司 代理人 劉暢
地址 518000廣東省深圳市福田區(qū)梅林街道梅都社區(qū)中康路136號(hào)深圳新一代產(chǎn)業(yè)園2棟801
法律狀態(tài) -

摘要

摘要 本申請(qǐng)公開(kāi)了一種基于適配器的遷移學(xué)習(xí)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),屬于人工智能技術(shù)領(lǐng)域。本申請(qǐng)基于全連接網(wǎng)絡(luò)和transformer模型的編碼器構(gòu)建初始遷移學(xué)習(xí)模型,其中,初始遷移學(xué)習(xí)模型包括若干個(gè)適配器,然后通過(guò)預(yù)處理后的訓(xùn)練樣本對(duì)初始遷移學(xué)習(xí)模型進(jìn)行預(yù)訓(xùn)練,并基于預(yù)訓(xùn)練結(jié)果計(jì)算每一個(gè)適配器的沙普利值,對(duì)每一個(gè)適配器的沙普利值進(jìn)行降序排列,得到適配器貢獻(xiàn)隊(duì)列,通過(guò)適配器貢獻(xiàn)隊(duì)列對(duì)初始遷移學(xué)習(xí)模型進(jìn)行調(diào)整和迭代,得到自注意力遷移學(xué)習(xí)模型。本申請(qǐng)采用適配器來(lái)進(jìn)行不同學(xué)習(xí)任務(wù)中的知識(shí)遷移,降低了訓(xùn)練開(kāi)銷。此外,本申請(qǐng)?jiān)谟?xùn)練過(guò)程中根據(jù)每個(gè)適配器的沙普利值,對(duì)適配器的數(shù)量進(jìn)行縮減,在遷移學(xué)習(xí)過(guò)程中進(jìn)一步減少了訓(xùn)練開(kāi)銷。