基于TORQUE的并行檢查點執(zhí)行方法

基本信息

申請?zhí)?/td> CN201210367653.4 申請日 -
公開(公告)號 CN102915257A 公開(公告)日 2013-02-06
申請公布號 CN102915257A 申請公布日 2013-02-06
分類號 G06F11/00(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 林霞 申請(專利權(quán))人 曙光智算信息技術(shù)有限公司
代理機構(gòu) 北京安博達知識產(chǎn)權(quán)代理有限公司 代理人 曙光信息產(chǎn)業(yè)(北京)有限公司
地址 100193 北京市海淀區(qū)東北旺西路8號中關村軟件園36號樓
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種基于TORQUE的并行檢查點執(zhí)行方法,在NFS文件共享存儲系統(tǒng)中對計算節(jié)點進行檢查點操作,所述方法包括如下步驟:(1).用戶向TORQUE服務器守護進程pbs_server提交作業(yè),提交命令加入檢查點請求,作業(yè)腳本中使用作業(yè)啟動命令chkp_mpirun啟動任務;(2).TORQUE服務器守護進程發(fā)送任務消息給TORQUE調(diào)度器pbs_sched,TORQUE調(diào)度器pbs_sched根據(jù)作業(yè)中指定的參數(shù)要求尋找計算節(jié)點;(3).對計算節(jié)點進行檢查點操作。本發(fā)明提供的基于TORQUE的并行檢查點執(zhí)行方法,運用改進的基于TORQUE的改進檢查點技術(shù),使得原來只支持單進程檢查點的TORQUE,現(xiàn)在也能夠支持多進程檢查點,并能夠?qū)?jié)點故障自動處理,對進程進行遷移。