一種高性能作業(yè)調(diào)度管理節(jié)點雙機加固方法及設(shè)備的制作方法
【專利摘要】提供一種高性能作業(yè)調(diào)度管理節(jié)點雙機加固方法,同時對主管理節(jié)點的心跳信息和作業(yè)系統(tǒng)資源進行監(jiān)控,當(dāng)發(fā)現(xiàn)主管理節(jié)點的心跳信息或者作業(yè)系統(tǒng)資源發(fā)生故障時,啟動管理節(jié)點切換。同時還提供相應(yīng)裝置。所述方法和裝置實現(xiàn)對作業(yè)調(diào)度管理節(jié)點的雙機加固,并能夠?qū)ψ鳂I(yè)系統(tǒng)資源進行監(jiān)控,有效的彌補了傳統(tǒng)方法的不足。
【專利說明】一種高性能作業(yè)調(diào)度管理節(jié)點雙機加固方法及設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機【技術(shù)領(lǐng)域】,具體涉及一種作業(yè)調(diào)度管理節(jié)點的雙機加固。
【背景技術(shù)】
[0002]當(dāng)前,基于網(wǎng)絡(luò)的計算機技術(shù),促進了集群系統(tǒng)的發(fā)展和廣泛應(yīng)用。用高速網(wǎng)絡(luò)將高性能工作站或個人電腦(PC)按某種結(jié)構(gòu)連接成集群,實現(xiàn)并行計算,只需要很小的花費就可以得到大型機和并行機的性能。然而,隨著高性能計算機集群應(yīng)用規(guī)模的不斷擴充,集群的管理問題也隨之而來。作業(yè)調(diào)度系統(tǒng)主要負責(zé)接收用戶提交的作業(yè)請求,并根據(jù)特定的調(diào)度規(guī)則以及用戶對作業(yè)的要求選擇合適的計算資源來完成用戶作業(yè)。在作業(yè)調(diào)度系統(tǒng)的幫助下,對用戶而言高性能計算集群系統(tǒng)就好像一臺具備很多CPU的大服務(wù)器,多個用戶可以同時使用這個系統(tǒng)。作業(yè)調(diào)度系統(tǒng)管理用戶提交的作業(yè),為各個作業(yè)合理地分配資源,從而確保充分利用集群系統(tǒng)的計算能力,并盡可能迅速地得到運算結(jié)果。因此作業(yè)調(diào)度系統(tǒng)的重要性也就不言而喻。
[0003]傳統(tǒng)的加固方法包括管理節(jié)點單機部署,或者使用心跳(heartbeat)方案進行雙機加固。這兩種方式都存在一定的缺陷漏洞,例如采用管理節(jié)點單機部署的方式,一旦該管理節(jié)點發(fā)生故障,便會導(dǎo)致整個集群的作業(yè)調(diào)度系統(tǒng)停止工作,整個集群的作業(yè)無法進行合理有效的調(diào)度,作業(yè)運行也就會出現(xiàn)停滯,嚴重影響系統(tǒng)運行效率;再如采用心跳方案進行雙機加固,由于心跳軟件自身的設(shè)計因素,并不能對作業(yè)調(diào)度系統(tǒng)實行資源級監(jiān)控,一旦監(jiān)控的資源出現(xiàn)故障,就不能有效的進行資源切換,同樣會導(dǎo)致整個集群作業(yè)無法進行合理有效的調(diào)度,嚴重影響系統(tǒng)運行效率。因上述兩種加固方式均存在致命缺點,故如何更加有效的對作業(yè)調(diào)度系統(tǒng)進行加固就成為一個亟待解決的技術(shù)問題。
【發(fā)明內(nèi)容】
[0004]本發(fā)明提出一種高性能作業(yè)調(diào)度管理節(jié)點雙機加固方法及設(shè)備,一方面避免了單機部署造成的單點故障問題,另一方面,提供了對作業(yè)系統(tǒng)資源的監(jiān)控,能夠有效的彌補傳統(tǒng)方法的不足。
[0005]一種高性能作業(yè)調(diào)度管理節(jié)點雙機加固方法,包括:
[0006]步驟1:將NFS服務(wù)器的共享目錄掛載到作業(yè)調(diào)度雙機管理節(jié)點上,啟動心跳監(jiān)控和資源監(jiān)控;
[0007]步驟2:心跳監(jiān)控和資源監(jiān)控分別對當(dāng)前主管理節(jié)點的心跳信息和作業(yè)系統(tǒng)資源進行監(jiān)控;
[0008]步驟3:判斷當(dāng)前主管理節(jié)點的所述心跳信息或作業(yè)系統(tǒng)資源是否發(fā)生故障,如果是則啟動管理節(jié)點切換。
[0009]一種高性能作業(yè)調(diào)度管理節(jié)點雙機加固裝置,包括:
[0010]心跳監(jiān)測模塊,配置用于對當(dāng)前主管理節(jié)點的心跳信息進行監(jiān)控,并向資源監(jiān)測模塊報告心跳故障消息;[0011]資源監(jiān)測模塊,配置用于對當(dāng)前主管理節(jié)點的作業(yè)系統(tǒng)資源進行監(jiān)控,并在接收到心跳故障消息或者判斷所述作業(yè)系統(tǒng)資源出現(xiàn)故障時,啟動管理節(jié)點切換。
[0012]本發(fā)明的有益效果是實現(xiàn)對作業(yè)調(diào)度管理節(jié)點的雙機加固,同時也實現(xiàn)了對作業(yè)系統(tǒng)資源的監(jiān)控,能夠有效的彌補傳統(tǒng)方法的不足。
【專利附圖】
【附圖說明】
[0013]圖1是本發(fā)明提出的一種高性能作業(yè)調(diào)度管理節(jié)點雙機加固方法的運行原理框圖。
[0014]圖2是本發(fā)明提出的一種高性能作業(yè)調(diào)度管理節(jié)點雙機加固方法的流程圖。
[0015]圖3是本發(fā)明提出的一種高性能作業(yè)調(diào)度管理節(jié)點雙機加固裝置的原理框圖。
【具體實施方式】
[0016]參照圖1,圖1示出了本發(fā)明提出的方法的運行原理框圖,在管理節(jié)點I (主管理節(jié)點)和管理節(jié)點2上運行本發(fā)明提出的方法,心跳監(jiān)測模塊實時監(jiān)測主管理節(jié)點的心跳信息,在發(fā)現(xiàn)主管理節(jié)點的心跳出現(xiàn)故障時,報告資源監(jiān)控模塊。資源監(jiān)控模塊實時監(jiān)控主管理節(jié)點上的作業(yè)系統(tǒng)資源,當(dāng)發(fā)現(xiàn)作業(yè)系統(tǒng)資源出現(xiàn)故障時或者接收到心跳監(jiān)測模塊報告的主管理節(jié)點心跳故障時,啟動管理節(jié)點切換過程,使得管理節(jié)點2變?yōu)橹鞴芾砉?jié)點。
[0017]參照附圖2,圖2示出了本發(fā)明提出的一種高性能作業(yè)調(diào)度管理節(jié)點雙機加固方法流程圖,包括:
[0018]步驟1:將NFS服務(wù)器的共享目錄掛載到作業(yè)調(diào)度雙機管理節(jié)點上,啟動心跳監(jiān)控(corosync)和資源監(jiān)控(pacemaker)。所述心跳監(jiān)控和資源監(jiān)控分別對管理節(jié)點I和管理節(jié)點2進行監(jiān)控,其中管理節(jié)點I作為主管理節(jié)點,管理節(jié)點2作為備節(jié)點,管理節(jié)點I和管理節(jié)點2構(gòu)成作業(yè)調(diào)度雙機節(jié)點。用戶可以事先對心跳監(jiān)控和資源監(jiān)控參數(shù)進行配置,例如配置資源的監(jiān)控時長timeout、監(jiān)控間隔interval、資源的分組以及啟動順序,同時需要配置ST0NITH,這樣可以最大限度的保障資源的可用性。
[0019]步驟2:心跳監(jiān)控和資源監(jiān)控分別對當(dāng)前主管理節(jié)點的心跳信息和作業(yè)系統(tǒng)資源進行監(jiān)控。
[0020]步驟3:判斷當(dāng)前主管理節(jié)點的所述心跳信息或作業(yè)系統(tǒng)資源是否發(fā)生故障,如果是則啟動管理節(jié)點切換。
[0021]參見圖3,圖3示出了本發(fā)明提出的一種高性能作業(yè)調(diào)度管理節(jié)點雙機加固裝置,所述裝置包括:
[0022]心跳監(jiān)測模塊,配置用于對當(dāng)前主管理節(jié)點的心跳信息進行監(jiān)控,并向資源監(jiān)測模塊報告心跳故障消息;
[0023]資源監(jiān)測模塊,配置用于對當(dāng)前主管理節(jié)點的作業(yè)系統(tǒng)資源進行監(jiān)控,并在接收到心跳故障消息或者判斷所述作業(yè)系統(tǒng)資源出現(xiàn)故障時,啟動管理節(jié)點切換。
[0024]當(dāng)然,本發(fā)明還可有其他多種實施例,在不背離本發(fā)明精神及其實質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明的權(quán)利要求的保護范圍。
【權(quán)利要求】
1.一種高性能作業(yè)調(diào)度管理節(jié)點雙機加固方法,其特征在于,包括: 步驟1:將NFS服務(wù)器的共享目錄掛載到作業(yè)調(diào)度雙機管理節(jié)點上,啟動心跳監(jiān)控和資源監(jiān)控; 步驟2:心跳監(jiān)控和資源監(jiān)控分別對當(dāng)前主管理節(jié)點的心跳信息和作業(yè)系統(tǒng)資源進行監(jiān)控; 步驟3:判斷當(dāng)前主管理節(jié)點的所述心跳信息或作業(yè)系統(tǒng)資源是否發(fā)生故障,如果是則啟動管理節(jié)點切換。
2.如權(quán)利要求1所述的方法,其特征在于: 用戶事先對心跳監(jiān)控和資源監(jiān)控參數(shù)進行配置,所述參數(shù)包括監(jiān)控時長timeout,監(jiān)控間隔 interval。
3.一種高性能作業(yè)調(diào)度管理節(jié)點雙機加固裝置,其特征在于:包括: 心跳監(jiān)測模塊,配置用于對當(dāng)前主管理節(jié)點的心跳信息進行監(jiān)控,并向資源監(jiān)測模塊報告心跳故障消息; 資源監(jiān)測模塊,配置用于對當(dāng)前主管理節(jié)點的作業(yè)系統(tǒng)資源進行監(jiān)控,并在接收到心跳故障消息或者判斷所述作業(yè)系統(tǒng)資源出現(xiàn)故障時,啟動管理節(jié)點切換。
【文檔編號】G06F11/16GK103713974SQ201410007013
【公開日】2014年4月9日 申請日期:2014年1月7日 優(yōu)先權(quán)日:2014年1月7日
【發(fā)明者】馬四騰 申請人:浪潮(北京)電子信息產(chǎn)業(yè)有限公司