技術(shù)特征:
技術(shù)總結(jié)
本發(fā)明提供一種基于檢查點(diǎn)的計(jì)算機(jī)的容錯(cuò)方法。該方法包括:在判斷為執(zhí)行檢查點(diǎn)時(shí),暫停用戶(hù)進(jìn)程;利用計(jì)算機(jī)中空閑的計(jì)算資源對(duì)所述用戶(hù)進(jìn)程的進(jìn)程狀態(tài)數(shù)據(jù)進(jìn)行分塊并計(jì)算每個(gè)分塊的hash值,以確定需要保存的分塊;在計(jì)算分塊的hash值的過(guò)程中,將已經(jīng)確定的需要保存的分塊和相應(yīng)的hash值進(jìn)行保存,以形成用于恢復(fù)出錯(cuò)的用戶(hù)進(jìn)程的檢查點(diǎn)文件。利用本發(fā)明的方法能夠有效的利用超級(jí)計(jì)算機(jī)中空閑計(jì)算資源和并行文件系統(tǒng)的I/O帶寬,從而縮短執(zhí)行檢查點(diǎn)和檢查點(diǎn)卷回的時(shí)間。
技術(shù)研發(fā)人員:嚴(yán)明玉;張志敏;吳軍;龔健;張浩;孫凝暉
受保護(hù)的技術(shù)使用者:中國(guó)科學(xué)院計(jì)算技術(shù)研究所;北京控制工程研究所
技術(shù)研發(fā)日:2017.05.23
技術(shù)公布日:2017.09.22