基于TORQUE的并行檢查點(diǎn)執(zhí)行方法
基本信息
申請(qǐng)?zhí)?/td> | CN201210367653.4 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN102915257B | 公開(公告)日 | 2017-02-08 |
申請(qǐng)公布號(hào) | CN102915257B | 申請(qǐng)公布日 | 2017-02-08 |
分類號(hào) | G06F11/00(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 林霞 | 申請(qǐng)(專利權(quán))人 | 曙光智算信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 北京安博達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 曙光信息產(chǎn)業(yè)(北京)有限公司 |
地址 | 100193 北京市海淀區(qū)東北旺西路8號(hào)中關(guān)村軟件園36號(hào)樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種基于TORQUE的并行檢查點(diǎn)執(zhí)行方法,在NFS文件共享存儲(chǔ)系統(tǒng)中對(duì)計(jì)算節(jié)點(diǎn)進(jìn)行檢查點(diǎn)操作,所述方法包括如下步驟:(1).用戶向TORQUE服務(wù)器守護(hù)進(jìn)程pbs_server提交作業(yè),提交命令加入檢查點(diǎn)請(qǐng)求,作業(yè)腳本中使用作業(yè)啟動(dòng)命令chkp_mpirun啟動(dòng)任務(wù);(2).TORQUE服務(wù)器守護(hù)進(jìn)程發(fā)送任務(wù)消息給TORQUE調(diào)度器pbs_sched,TORQUE調(diào)度器pbs_sched根據(jù)作業(yè)中指定的參數(shù)要求尋找計(jì)算節(jié)點(diǎn);(3).對(duì)計(jì)算節(jié)點(diǎn)進(jìn)行檢查點(diǎn)操作。本發(fā)明提供的基于TORQUE的并行檢查點(diǎn)執(zhí)行方法,運(yùn)用改進(jìn)的基于TORQUE的改進(jìn)檢查點(diǎn)技術(shù),使得原來只支持單進(jìn)程檢查點(diǎn)的TORQUE,現(xiàn)在也能夠支持多進(jìn)程檢查點(diǎn),并能夠?qū)?jié)點(diǎn)故障自動(dòng)處理,對(duì)進(jìn)程進(jìn)行遷移。 |
