一種神經(jīng)網(wǎng)絡訓練任務的排隊系統(tǒng)及其方法

基本信息

申請?zhí)?/td> CN201811301453.2 申請日 -
公開(公告)號 CN109828833B 公開(公告)日 2019-05-31
申請公布號 CN109828833B 申請公布日 2019-05-31
分類號 G06F9/48(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 任如意;康茂銀;樊晶;李磊;顧翊;黃義庭 申請(專利權)人 上海帆一尚行科技有限公司
代理機構 上海精晟知識產權代理有限公司 代理人 上海帆一尚行科技有限公司
地址 200131上海市浦東新區(qū)中國(上海)自由貿易試驗區(qū)富特東一路370號1幢4層407室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種神經(jīng)網(wǎng)絡訓練任務的排隊系統(tǒng)及其方法,Workquene為任務隊列,負責管理任務的優(yōu)先級策略;ResourceFactory負責任務隊列和資源集群的交互;Eventloop負責管理監(jiān)聽集群和任務的變化,匹配可運行的任務,并從任務隊列中取出相關任務放入集群執(zhí)行;ClusterInformer是集群的事件通知系統(tǒng),集群一旦有資源相關變化,可以執(zhí)行某個回調函數(shù)執(zhí)行相關邏輯。這個四個組件可以針對主流的集群管理系統(tǒng)提供用戶態(tài)任務管理機制。本發(fā)明提高了硬件特別是GPU資源的使用效率,并提供細粒度的任務管理機制。??