一種面向卷積神經(jīng)網(wǎng)絡(luò)的多機(jī)多卡混合并行異步訓(xùn)練方法

基本信息

申請?zhí)?/td> CN201810295401.2 申請日 -
公開(公告)號 CN108460457A 公開(公告)日 2018-08-28
申請公布號 CN108460457A 申請公布日 2018-08-28
分類號 G06N3/04;G06N3/08 分類 計算;推算;計數(shù);
發(fā)明人 汪浩源;程誠;王旭光 申請(專利權(quán))人 蘇州納智天地智能科技有限公司
代理機(jī)構(gòu) 蘇州凱謙巨邦專利代理事務(wù)所(普通合伙) 代理人 蘇州納智天地智能科技有限公司
地址 215000 江蘇省蘇州市工業(yè)園區(qū)若水路398號中科院納米所A432室
法律狀態(tài) -

摘要

摘要 本發(fā)明提出了一種面向卷積神經(jīng)網(wǎng)絡(luò)的多機(jī)多卡混合并行異步訓(xùn)練方法,包括如下步驟:構(gòu)建CNN模型,并設(shè)置訓(xùn)練參數(shù);將Softmax層的數(shù)據(jù)并行改為模型并行,將完整模型劃分為若干分片,分別對應(yīng)若干個GPU進(jìn)行計算;改寫Softmax層的源代碼,不在計算結(jié)果之前交換參數(shù)數(shù)據(jù),而是將計算結(jié)果執(zhí)行Ring All?reduce通信算法操作;多機(jī)多卡之間選出一塊GPU作為參數(shù)服務(wù)器,其余所有的GPU都作為訓(xùn)練用;在Parameter Server模型中,各Server只負(fù)責(zé)分到的部分參數(shù)和處理任務(wù);各子節(jié)點維護(hù)自己的參數(shù),更新后,將結(jié)果傳回主節(jié)點進(jìn)行全局更新,主節(jié)點再向子節(jié)點傳送新參數(shù),依此完成訓(xùn)練。