基于自注意力的知識蒸餾方法、裝置和計算機設備
基本信息
申請?zhí)?/td> | CN202110059942.7 | 申請日 | - |
公開(公告)號 | CN112365385B | 公開(公告)日 | 2021-06-01 |
申請公布號 | CN112365385B | 申請公布日 | 2021-06-01 |
分類號 | G06F17/16(2006.01)I;G06N3/04(2006.01)I;G06Q10/06(2012.01)I;G06N20/00(2019.01)I;G06Q50/20(2012.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 徐泓洋;王廣新;楊漢丹 | 申請(專利權)人 | 深圳市友杰智新科技有限公司 |
代理機構 | 深圳市明日今典知識產(chǎn)權代理事務所(普通合伙) | 代理人 | 王杰輝;曹勇 |
地址 | 518000廣東省深圳市南山區(qū)招商街道蛇口南海大道1079號花園城數(shù)碼大廈A座402 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請涉及人工智能領域,揭示了基于自注意力的知識蒸餾方法,包括:將輸入數(shù)據(jù)輸入第一模型得到第一模型的中間層輸出的第一特征矩陣,將輸入數(shù)據(jù)輸入第二模型得到第二模型的中間層輸出的第二特征矩陣,其中,第一模型為訓練好的老師模型,第二模型為待訓練的學生模型;根據(jù)第一特征矩陣計算老師模型對應的第一自注意力權重分布,根據(jù)第二特征矩陣計算學生模型對應的第二自注意力權重分布;計算第一自注意力權重分布和第二自注意力權重分布之間的分布差異;將分布差異,作為老師模型和學生模型之間的知識蒸餾損失函數(shù);根據(jù)知識蒸餾損失函數(shù),將老師模型的中間層的數(shù)據(jù)映射關系遷移至學生模型的中間層上,能滿足不同任務類型模型的知識蒸餾訓練。?? |
