本發(fā)明涉及一種集群系統(tǒng)的方法,具體涉及一種面向集群系統(tǒng)的監(jiān)控方法。
背景技術(shù):
集群系統(tǒng)是指一組相互獨(dú)立的計(jì)算機(jī),利用高速通信網(wǎng)絡(luò)組成一個(gè)計(jì)算機(jī)系統(tǒng),每個(gè)群集節(jié)點(diǎn),即集群中的每臺(tái)計(jì)算機(jī),都是運(yùn)行期自己進(jìn)程的一個(gè)獨(dú)立服務(wù)器。這些進(jìn)程可以彼此通信,對(duì)網(wǎng)絡(luò)客戶機(jī)來(lái)說(shuō)就像是形成了一個(gè)單一系統(tǒng),協(xié)同起來(lái)向用戶提供應(yīng)用程序、系統(tǒng)資源和數(shù)據(jù)處理,并以單一系統(tǒng)的模式加以管理。然而由于一個(gè)集群系統(tǒng)中,可能存在非常多的計(jì)算機(jī),這使得如果通過(guò)人力去管理、協(xié)調(diào)每個(gè)節(jié)點(diǎn)的工作以及節(jié)點(diǎn)之間的協(xié)同工作變得十分困難。首先不僅要求管理人員對(duì)集群系統(tǒng)有非常高的技術(shù)方面的能力,同時(shí)在集群系統(tǒng)運(yùn)行過(guò)程中也需要花費(fèi)大量人力去維護(hù),而且有時(shí)一個(gè)集群系統(tǒng)中多打數(shù)十個(gè)甚至上百個(gè)獨(dú)立計(jì)算機(jī),人力難以達(dá)到完全兼顧的狀態(tài),使得有時(shí)如果節(jié)點(diǎn)故障或者出錯(cuò),管理人員卻不能及時(shí)發(fā)現(xiàn),導(dǎo)致了進(jìn)程的滯后等問(wèn)題。這使得無(wú)形之中,增多了功應(yīng)用集群系統(tǒng)的公司的運(yùn)營(yíng)、維護(hù)成本,并且效率大大降低,不利于公司的長(zhǎng)期發(fā)展。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種面向集群系統(tǒng)的監(jiān)控方法,解決目前的集群系統(tǒng)存在的通過(guò)人力監(jiān)控中存在人力成本高、效率較低的問(wèn)題,達(dá)到通過(guò)該發(fā)明可以使得系統(tǒng)自己合理分配集群系統(tǒng)中的節(jié)點(diǎn)資源,降低成本、提高效率的目的。
本發(fā)明通過(guò)下述技術(shù)方案實(shí)現(xiàn):
一種面向集群系統(tǒng)的監(jiān)控方法,包括以下步驟:
步驟一、采集集群系統(tǒng)中各節(jié)點(diǎn)的詳細(xì)屬性和基本工作狀態(tài),生成各節(jié)點(diǎn)基本工作狀態(tài)的報(bào)告日志;
步驟二、根據(jù)步驟一中得到的各節(jié)點(diǎn)的基本工作狀態(tài),判斷是否有節(jié)點(diǎn)超過(guò)節(jié)點(diǎn)閾值或因故障而停止工作;若存在有節(jié)點(diǎn)的基本工作狀態(tài)超過(guò)系統(tǒng)設(shè)定的閾值或處于停止工作狀態(tài),則掃描統(tǒng)計(jì)整個(gè)集群系統(tǒng)的資源使用情況,并判斷集群系統(tǒng)的資源使用情況是否超過(guò)系統(tǒng)閾值,同時(shí)生成整個(gè)集群系統(tǒng)的資源使用情況報(bào)告日志;
步驟三、若步驟二中整個(gè)集群系統(tǒng)的資源情況未超過(guò)系統(tǒng)閾值,則掃描查找集群系統(tǒng)中處于空閑狀態(tài)的節(jié)點(diǎn),令處于空閑狀態(tài)的節(jié)點(diǎn)分流所述基本工作狀態(tài)超過(guò)節(jié)點(diǎn)閾值的節(jié)點(diǎn)的作業(yè);
步驟四、若步驟二中整個(gè)集群系統(tǒng)的資源情況超過(guò)系統(tǒng)閾值,則通過(guò)系統(tǒng)對(duì)各作業(yè)的優(yōu)先級(jí)判定,使優(yōu)先級(jí)最低的任務(wù)停止工作進(jìn)入隊(duì)列排隊(duì)等待。
進(jìn)一步的,步驟一中的詳細(xì)屬性包括CPU型號(hào)、內(nèi)存容量、磁盤容量、CPU核數(shù)、GPU型號(hào)、GPU核數(shù)、DSP型號(hào)、DSP核數(shù),基工作狀態(tài)包括物理機(jī)的主機(jī)名、內(nèi)部通信IP地址、內(nèi)部通信MAC地址、虛擬化平臺(tái)、操作系統(tǒng)、CPU負(fù)載情況、GPU負(fù)載情況、DSP負(fù)載情況、磁盤負(fù)載情況、內(nèi)存負(fù)載情況。
進(jìn)一步的,步驟二中的資源使用情況包括CPU總使用率、GPU總使用率、DSP總使用率、交換分區(qū)食用量、網(wǎng)絡(luò)流量、磁盤容量、網(wǎng)卡接收或發(fā)送數(shù)據(jù)包字節(jié)速度、內(nèi)存總量使用率、磁盤總量使用率、CPU總數(shù)、GPU總數(shù)、DSP總數(shù)。
進(jìn)一步的,監(jiān)控系統(tǒng)支持將所述步驟中采集到的集群系統(tǒng)的資源使用情況、各節(jié)點(diǎn)的基本工作狀態(tài)和詳細(xì)屬性所生成的報(bào)告存儲(chǔ)在系統(tǒng)日志中。
進(jìn)一步的,步驟四中的優(yōu)先級(jí)判定包括:
步驟a、統(tǒng)計(jì)任務(wù)的優(yōu)先級(jí)影響因子;
步驟b、根據(jù)步驟a中得到的優(yōu)先級(jí)影響因子計(jì)算該任務(wù)的優(yōu)先級(jí)。
進(jìn)一步的,所述優(yōu)先級(jí)影響因子包括:
任務(wù)來(lái)源:提交該任務(wù)的用戶的級(jí)別;
公平共享:提交該任務(wù)的用戶的資源使用歷史記錄;
任務(wù)申請(qǐng)資源:該任務(wù)所要占用的計(jì)算節(jié)點(diǎn)數(shù),包括CPU個(gè)數(shù)、GPU個(gè)數(shù)、DSP個(gè)數(shù)、內(nèi)存;
服務(wù)級(jí)別:包括任務(wù)已經(jīng)在隊(duì)列中排隊(duì)的時(shí)間、任務(wù)排隊(duì)等待的時(shí)間和任務(wù)所需時(shí)間的比值。
本發(fā)明與現(xiàn)有技術(shù)相比,具有如下的優(yōu)點(diǎn)和有益效果:
1、本發(fā)明一種面向集群系統(tǒng)的監(jiān)控方法,通過(guò)本發(fā)明實(shí)現(xiàn)使得系統(tǒng)自己合理分配集群系統(tǒng)中的節(jié)點(diǎn)資源,降低系統(tǒng)維護(hù)成本、提高系統(tǒng)效率與節(jié)點(diǎn)使用率的目的。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,下面結(jié)合實(shí)施例,對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明,本發(fā)明的示意性實(shí)施方式及其說(shuō)明僅用于解釋本發(fā)明,并不作為對(duì)本發(fā)明的限定。
實(shí)施例
一種面向集群系統(tǒng)的監(jiān)控方法,包括以下步驟:
步驟一、采集集群系統(tǒng)中各節(jié)點(diǎn)的詳細(xì)屬性和基本工作狀態(tài),生成各節(jié)點(diǎn)基本工作狀態(tài)的報(bào)告日志;
步驟二、根據(jù)步驟一中得到的各節(jié)點(diǎn)的基本工作狀態(tài),判斷是否有節(jié)點(diǎn)超過(guò)節(jié)點(diǎn)閾值或因故障而停止工作;若存在有節(jié)點(diǎn)的基本工作狀態(tài)超過(guò)系統(tǒng)設(shè)定的閾值或處于停止工作狀態(tài),則掃描統(tǒng)計(jì)整個(gè)集群系統(tǒng)的資源使用情況,并判斷集群系統(tǒng)的資源使用情況是否超過(guò)系統(tǒng)閾值,同時(shí)生成整個(gè)集群系統(tǒng)的資源使用情況報(bào)告日志;
步驟三、若步驟二中整個(gè)集群系統(tǒng)的資源情況未超過(guò)系統(tǒng)閾值,則掃描查找集群系統(tǒng)中處于空閑狀態(tài)的節(jié)點(diǎn),令處于空閑狀態(tài)的節(jié)點(diǎn)分流所述基本工作狀態(tài)超過(guò)節(jié)點(diǎn)閾值的節(jié)點(diǎn)的作業(yè);
步驟四、若步驟二中整個(gè)集群系統(tǒng)的資源情況超過(guò)系統(tǒng)閾值,則通過(guò)系統(tǒng)對(duì)各作業(yè)的優(yōu)先級(jí)判定,使優(yōu)先級(jí)最低的任務(wù)停止工作進(jìn)入隊(duì)列排隊(duì)等待。
進(jìn)一步的,步驟一中的詳細(xì)屬性包括CPU型號(hào)、內(nèi)存容量、磁盤容量、CPU核數(shù)、GPU型號(hào)、GPU核數(shù)、DSP型號(hào)、DSP核數(shù),基工作狀態(tài)包括物理機(jī)的主機(jī)名、內(nèi)部通信IP地址、內(nèi)部通信MAC地址、虛擬化平臺(tái)、操作系統(tǒng)、CPU負(fù)載情況、GPU負(fù)載情況、DSP負(fù)載情況、磁盤負(fù)載情況、內(nèi)存負(fù)載情況。
進(jìn)一步的,步驟二中的資源使用情況包括CPU總使用率、GPU總使用率、DSP總使用率、交換分區(qū)食用量、網(wǎng)絡(luò)流量、磁盤容量、網(wǎng)卡接收或發(fā)送數(shù)據(jù)包字節(jié)速度、內(nèi)存總量使用率、磁盤總量使用率、CPU總數(shù)、GPU總數(shù)、DSP總數(shù)。
進(jìn)一步的,監(jiān)控系統(tǒng)支持將所述步驟中采集到的集群系統(tǒng)的資源使用情況、各節(jié)點(diǎn)的基本工作狀態(tài)和詳細(xì)屬性所生成的報(bào)告存儲(chǔ)在系統(tǒng)日志中。當(dāng)管理人員登錄該系統(tǒng)時(shí),可通過(guò)查看系統(tǒng)日志,了解系統(tǒng)運(yùn)行時(shí)的各節(jié)點(diǎn)的詳細(xì)屬性和基本工作狀態(tài),以及整個(gè)集群系統(tǒng)的資源使用情況。
進(jìn)一步的,步驟四中的優(yōu)先級(jí)判定包括:
步驟a、統(tǒng)計(jì)任務(wù)的優(yōu)先級(jí)影響因子;
步驟b、根據(jù)步驟a中得到的優(yōu)先級(jí)影響因子計(jì)算該任務(wù)的優(yōu)先級(jí)。
進(jìn)一步的,所述優(yōu)先級(jí)影響因子包括:
任務(wù)來(lái)源:提交該任務(wù)的用戶的級(jí)別;
公平共享:提交該任務(wù)的用戶的資源使用歷史記錄;
任務(wù)申請(qǐng)資源:該任務(wù)所要占用的計(jì)算節(jié)點(diǎn)數(shù),包括CPU個(gè)數(shù)、GPU個(gè)數(shù)、DSP個(gè)數(shù)、內(nèi)存;
服務(wù)級(jí)別:包括任務(wù)已經(jīng)在隊(duì)列中排隊(duì)的時(shí)間、任務(wù)排隊(duì)等待的時(shí)間和任務(wù)所需時(shí)間的比值。
以上所述的具體實(shí)施方式,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說(shuō)明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施方式而已,并不用于限定本發(fā)明的保護(hù)范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。