一種自動恢復集群中意外宕機節(jié)點的方法
【專利摘要】本發(fā)明提供一種自動恢復集群中意外宕機節(jié)點的方法,方法如下:在集群使用過程中,根據(jù)集群規(guī)?;蛘呖慑礄C時間,設定自動檢測宕機的間隔;在管理節(jié)點上監(jiān)控pbs提取到的節(jié)點狀態(tài)down后,再通過ping命令確認節(jié)點宕機后,把監(jiān)測結(jié)果寫到log里,以備管理員查看宕機記錄;確認宕機后,管理節(jié)點通過ipmi對宕機節(jié)點發(fā)送reset命令,強制重啟宕機節(jié)點。本發(fā)明的一種自動恢復集群中意外宕機節(jié)點的方法和現(xiàn)有技術(shù)相比,我們可以通過網(wǎng)絡工具,監(jiān)控整個集群的使用情況,當發(fā)現(xiàn)有節(jié)點宕機時,通過ipmi自動重啟宕掉的節(jié)點;而且本發(fā)明還具有設計合理、結(jié)構(gòu)簡單、使用方便等特點,因而,具有很好的使用價值。
【專利說明】一種自動恢復集群中意外宕機節(jié)點的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機【技術(shù)領(lǐng)域】,具體地說是一種自動恢復集群中意外宕機節(jié)點的方法。
【背景技術(shù)】
[0002]目前在高性能計算集群中,在實際使用過程中,計算節(jié)點可能由于某種原因會意外宕機,由于集群一般由成百上千計算節(jié)點組成,意外宕機的節(jié)點不需要第一時間恢復,也不會影響整個集群的使用,我們可以利用ipmi工具,監(jiān)控集群節(jié)點狀態(tài),當發(fā)現(xiàn)有節(jié)點宕機后,通過ipmi的電源重啟功能,自動對巖機節(jié)點發(fā)送重啟命令,以達到自動恢復巖機節(jié)點的目的。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的是克服現(xiàn)有技術(shù)中存在的不足,提供一種自動恢復集群中意外宕機節(jié)點的方法。
[0004]本發(fā)明的技術(shù)方案是按以下方式實現(xiàn)的,方法如下:
在集群使用過程中,根據(jù)集群規(guī)模或者可宕機時間,設定自動檢測宕機的間隔;
在管理節(jié)點上監(jiān)控pbs提取到的節(jié)點狀態(tài)down后,再通過ping命令確認節(jié)點巖機后,把監(jiān)測結(jié)果寫到log里,以備管理員查看宕機記錄;
確認巖機后,管理節(jié)點通過ipmi對巖機節(jié)點發(fā)送reset命令,強制重啟巖機節(jié)點。
[0005]本發(fā)明的優(yōu)點是:
本發(fā)明的一種自動恢復集群中意外宕機節(jié)點的方法和現(xiàn)有技術(shù)相比,我們可以通過網(wǎng)絡工具,監(jiān)控整個集群的使用情況,當發(fā)現(xiàn)有節(jié)點宕機時,通過ipmi自動重啟宕掉的節(jié)點;而且本發(fā)明還具有設計合理、結(jié)構(gòu)簡單、使用方便等特點,因而,具有很好的使用價值。
【具體實施方式】
[0006]下面對本發(fā)明的一種自動恢復集群中意外宕機節(jié)點的方法作以下詳細說明。
[0007]本發(fā)明的一種自動恢復集群中意外宕機節(jié)點的方法,方法如下:
在集群使用過程中,根據(jù)集群規(guī)?;蛘呖慑礄C時間,設定自動檢測宕機的間隔;
在管理節(jié)點上監(jiān)控pbs提取到的節(jié)點狀態(tài)down后,再通過ping命令確認節(jié)點巖機后,把監(jiān)測結(jié)果寫到log里,以備管理員查看宕機記錄;
確認巖機后,管理節(jié)點通過ipmi對巖機節(jié)點發(fā)送reset命令,強制重啟巖機節(jié)點。
[0008]節(jié)點資源監(jiān)控:通過作業(yè)調(diào)度PBS來提取計算節(jié)點狀態(tài),監(jiān)控到的節(jié)點狀態(tài)down后,在通過ping命令,對巖掉節(jié)點進一步確認是否巖機。
[0009]巖機節(jié)點重啟:確認節(jié)點巖機后,通過IPMI協(xié)議命令對巖機節(jié)點發(fā)送reset命令,強制重啟宕機節(jié)點。
[0010]本發(fā)明的一種自動恢復集群中意外宕機節(jié)點的方法其加工制作非常簡單方便,按照說明書所示即可加工。
[00.Μ]除說明書所述的技術(shù)特征外,均為本專業(yè)技術(shù)人員的已知技術(shù)。
【權(quán)利要求】
1.一種自動恢復集群中意外宕機節(jié)點的方法,其特征在于方法如下: 在集群使用過程中,根據(jù)集群規(guī)?;蛘呖慑礄C時間,設定自動檢測宕機的間隔; 在管理節(jié)點上監(jiān)控pbs提取到的節(jié)點狀態(tài)down后,再通過ping命令確認節(jié)點巖機后,把監(jiān)測結(jié)果寫到log里,以備管理員查看宕機記錄; 確認巖機后,管理節(jié)點通過ipmi對巖機節(jié)點發(fā)送reset命令,強制重啟巖機節(jié)點。
【文檔編號】H04L29/08GK104461823SQ201410717147
【公開日】2015年3月25日 申請日期:2014年12月3日 優(yōu)先權(quán)日:2014年12月3日
【發(fā)明者】孫玉超 申請人:浪潮集團有限公司