本發(fā)明涉及一種管理系統(tǒng)及其管理方法,具體地,涉及一種計(jì)算環(huán)境資源管理系統(tǒng)及其管理方法。
背景技術(shù):
SLURM是一個(gè)可用于大型集群系統(tǒng)的高可用、可伸縮、可容錯(cuò)、可升級的集群資源管理器和任務(wù)調(diào)度系統(tǒng),主要具有三個(gè)功能:首先,將集群資源動態(tài)分配給任務(wù)。其次,提供一個(gè)完整的框架,對任務(wù)進(jìn)行啟動、執(zhí)行和監(jiān)控。最后,管理任務(wù)隊(duì)列,實(shí)現(xiàn)資源競爭的仲裁。該系統(tǒng)主要包括一個(gè)管理守護(hù)進(jìn)程和多個(gè)代理守護(hù)進(jìn)程,管理守護(hù)進(jìn)程運(yùn)行于管理節(jié)點(diǎn),接收集群狀態(tài)監(jiān)控?cái)?shù)據(jù)、對資源進(jìn)行調(diào)度分配,分發(fā)任務(wù)與回收結(jié)果。代理守護(hù)進(jìn)程運(yùn)行于計(jì)算節(jié)點(diǎn),等待、執(zhí)行并返回任務(wù)狀態(tài),同時(shí)對集群狀態(tài)、任務(wù)狀態(tài)等信息進(jìn)行統(tǒng)計(jì)、記錄,并上報(bào)給管理節(jié)點(diǎn)。兩者配合即實(shí)現(xiàn)了集群的管理功能。
申威平臺是由江南計(jì)算技術(shù)研究所研發(fā)的國產(chǎn)CPU平臺,其具有十六個(gè)核,分成四個(gè)核組,分別為一個(gè)主核組和三個(gè)從核組,每個(gè)核組安裝一個(gè)系統(tǒng),主核組運(yùn)行主系統(tǒng),從核組上運(yùn)行從系統(tǒng)。從系統(tǒng)依賴于主系統(tǒng),需要通過主系統(tǒng)獲取系統(tǒng)資源、訪問底層硬件設(shè)備。
因此,主系統(tǒng)上的代理進(jìn)程可以充分監(jiān)控四個(gè)核組的系統(tǒng)狀態(tài),真實(shí)反映四個(gè)核組的資源情況。而從系統(tǒng)上的代理進(jìn)程無法真實(shí)反映本系統(tǒng)的資源消耗,而只能監(jiān)控到從系統(tǒng)上的任務(wù)運(yùn)行狀態(tài),進(jìn)行任務(wù)的分發(fā)、監(jiān)控、回收等操作。
因此,如果按照SLURM的原有架構(gòu)進(jìn)行部署的話,從系統(tǒng)上的代理進(jìn)程只能獲取錯(cuò)誤信息,無法反映計(jì)算節(jié)點(diǎn)的真實(shí)情況;管理節(jié)點(diǎn)無法監(jiān)控到集群正確狀態(tài),導(dǎo)致資源消耗的誤判,最終集群無法正常運(yùn)行。
技術(shù)實(shí)現(xiàn)要素:
針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提供一種計(jì)算環(huán)境資源管理系統(tǒng)及其管理方法,其整合主從系統(tǒng)資源,將由一個(gè)主系統(tǒng)、三個(gè)從系統(tǒng)構(gòu)成的整個(gè)CPU平臺作為一個(gè)資源調(diào)度單位,真實(shí)反映系統(tǒng)狀態(tài),提高資源管理效率。
根據(jù)本發(fā)明的一個(gè)方面,提供一種計(jì)算環(huán)境資源管理系統(tǒng),其特征在于,所述計(jì)算環(huán)境資源管理系統(tǒng)包括相互連接的第一統(tǒng)計(jì)單元和第二統(tǒng)計(jì)單元,第一統(tǒng)計(jì)單元包括第一通信單元、第一任務(wù)管理單元、第一任務(wù)信息統(tǒng)計(jì)單元、第一操作系統(tǒng),第一通信單元、第一任務(wù)信息統(tǒng)計(jì)單元、第一操作系統(tǒng)都與第一任務(wù)管理單元練級;第二統(tǒng)計(jì)單元包括第二任務(wù)管理單元、第二通信單元、狀態(tài)信息整合單元、從系統(tǒng)信息接收單元、第二任務(wù)信息統(tǒng)計(jì)單元、系統(tǒng)狀態(tài)統(tǒng)計(jì)單元、第二操作系統(tǒng),第二任務(wù)管理單元、第二通信單元、從系統(tǒng)信息接收單元、第二任務(wù)信息統(tǒng)計(jì)單元、系統(tǒng)狀態(tài)統(tǒng)計(jì)單元都與狀態(tài)信息整合單元連接,第二任務(wù)管理單元、第二任務(wù)信息統(tǒng)計(jì)單元、系統(tǒng)狀態(tài)統(tǒng)計(jì)單元都與第二操作系統(tǒng)連接。
優(yōu)選地,所述計(jì)算環(huán)境資源管理系統(tǒng)對主系統(tǒng)、從系統(tǒng)做區(qū)分,運(yùn)行不同的代理守護(hù)進(jìn)程。
優(yōu)選地,所述主系統(tǒng)中的代理守護(hù)進(jìn)程進(jìn)行功能的修改、添加。
本發(fā)明還提供一種計(jì)算環(huán)境資源管理方法,其特征在于,包括任務(wù)分發(fā)流程和狀態(tài)信息上報(bào)流程;
任務(wù)分發(fā)流程如下:管理守護(hù)進(jìn)程接收系統(tǒng)管理員提交的計(jì)算任務(wù);根據(jù)管理員指定的任務(wù)優(yōu)先級、占用資源、運(yùn)行時(shí)長等參數(shù)以及資源調(diào)度策略,對任務(wù)進(jìn)行適當(dāng)?shù)膭澐?,并分配到恰?dāng)分區(qū)中的某個(gè)計(jì)算節(jié)點(diǎn)主系統(tǒng);狀態(tài)信息整合單元由從系統(tǒng)信息接收單元、第二任務(wù)信息統(tǒng)計(jì)單元、系統(tǒng)狀態(tài)統(tǒng)計(jì)單元這三個(gè)單元中分別取得從系統(tǒng)中的任務(wù)運(yùn)行狀態(tài)信息、主系統(tǒng)中的任務(wù)運(yùn)行狀態(tài)信息以及主系統(tǒng)的系統(tǒng)狀態(tài)、資源消耗信息,并將上述信息整合到一起,得到一主系統(tǒng)、三從系統(tǒng)的整體狀態(tài)信息;第二任務(wù)管理單元由第二通信單元取得分配的任務(wù),由狀態(tài)信息整合單元取得整體狀態(tài)信息,然后根據(jù)調(diào)度規(guī)則對任務(wù)進(jìn)行再次分解,在本主系統(tǒng)啟動部分任務(wù)、另一部分任務(wù)通過第二通信單元下發(fā)給從系統(tǒng);第二任務(wù)管理單元由第二通信單元取得分配的任務(wù),由第二任務(wù)信息統(tǒng)計(jì)單元取得任務(wù)運(yùn)行狀態(tài),在資源滿足要求時(shí)啟動任務(wù);
狀態(tài)信息上報(bào)流程如下:第一任務(wù)信息統(tǒng)計(jì)單元定期統(tǒng)計(jì)從系統(tǒng)中運(yùn)行的任務(wù)的狀態(tài)信息,并通過第一通信單元上報(bào)給主系統(tǒng);從系統(tǒng)信息接收單元負(fù)責(zé)接收三個(gè)從系統(tǒng)上報(bào)的任務(wù)信息;第二任務(wù)信息統(tǒng)計(jì)單元負(fù)責(zé)對主系統(tǒng)中的任務(wù)進(jìn)行監(jiān)控、統(tǒng)計(jì);系統(tǒng)狀態(tài)統(tǒng)計(jì)單元則監(jiān)控一個(gè)主系統(tǒng)、三個(gè)從系統(tǒng)的運(yùn)行狀況、資源消耗等信息;狀態(tài)信息整合單元對前述三種信息進(jìn)行整合,得到一個(gè)主系統(tǒng)、三個(gè)從系統(tǒng)的整體狀態(tài)信息,并通過第二通信單元將整體狀態(tài)信息上報(bào)給管理守護(hù)進(jìn)程。
與現(xiàn)有技術(shù)相比,本發(fā)明具有如下的有益效果:本發(fā)明減少了集群中需要管理的節(jié)點(diǎn)個(gè)數(shù),降低為原有個(gè)數(shù)的四分之一,這不僅簡化了集群結(jié)構(gòu),也減少了集群管理所需要的通信量。同時(shí),將管理守護(hù)進(jìn)程的部分功能轉(zhuǎn)移至主系統(tǒng)代理守護(hù)進(jìn)程,降低了管理節(jié)點(diǎn)的負(fù)載壓力,提高了集群系統(tǒng)的穩(wěn)定性。
附圖說明
通過閱讀參照以下附圖對非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會變得更明顯:
圖1為本發(fā)明計(jì)算環(huán)境資源管理系統(tǒng)的原理框圖。
具體實(shí)施方式
下面結(jié)合具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)說明。以下實(shí)施例將有助于本領(lǐng)域的技術(shù)人員進(jìn)一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應(yīng)當(dāng)指出的是,對本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn)。這些都屬于本發(fā)明的保護(hù)范圍。
如圖1所示,本發(fā)明計(jì)算環(huán)境資源管理系統(tǒng)包括相互連接的第一統(tǒng)計(jì)單元和第二統(tǒng)計(jì)單元,第一統(tǒng)計(jì)單元包括第一通信單元、第一任務(wù)管理單元、第一任務(wù)信息統(tǒng)計(jì)單元、第一操作系統(tǒng),第一通信單元、第一任務(wù)信息統(tǒng)計(jì)單元、第一操作系統(tǒng)都與第一任務(wù)管理單元練級;第二統(tǒng)計(jì)單元包括第二任務(wù)管理單元、第二通信單元、狀態(tài)信息整合單元、從系統(tǒng)信息接收單元、第二任務(wù)信息統(tǒng)計(jì)單元、系統(tǒng)狀態(tài)統(tǒng)計(jì)單元、第二操作系統(tǒng),第二任務(wù)管理單元、第二通信單元、從系統(tǒng)信息接收單元、第二任務(wù)信息統(tǒng)計(jì)單元、系統(tǒng)狀態(tài)統(tǒng)計(jì)單元都與狀態(tài)信息整合單元連接,第二任務(wù)管理單元、第二任務(wù)信息統(tǒng)計(jì)單元、系統(tǒng)狀態(tài)統(tǒng)計(jì)單元都與第二操作系統(tǒng)連接。
結(jié)合本發(fā)明的附圖,對本發(fā)明的技術(shù)方案進(jìn)行詳述。標(biāo)準(zhǔn)SLURM包括一個(gè)(或多個(gè),相互之間為熱備關(guān)系,同一時(shí)間只有一個(gè)生效)管理守護(hù)進(jìn)程和多個(gè)代理守護(hù)進(jìn)程,管理守護(hù)進(jìn)程運(yùn)行于管理節(jié)點(diǎn),接收集群狀態(tài)監(jiān)控?cái)?shù)據(jù)、對資源進(jìn)行調(diào)度分配,分發(fā)任務(wù)與回收結(jié)果。代理守護(hù)進(jìn)程運(yùn)行于計(jì)算節(jié)點(diǎn),等待、執(zhí)行并返回任務(wù)狀態(tài),同時(shí)對集群狀態(tài)、任務(wù)狀態(tài)等信息進(jìn)行統(tǒng)計(jì)、記錄,并上報(bào)給管理節(jié)點(diǎn)。
但由于申威平臺的十六個(gè)核分成一個(gè)主核組和三個(gè)從核組,每個(gè)核組安裝一個(gè)系統(tǒng)。從系統(tǒng)依賴于主系統(tǒng),需要通過主系統(tǒng)獲取系統(tǒng)資源、訪問底層硬件設(shè)備,導(dǎo)致從系統(tǒng)上的代理進(jìn)程無法真實(shí)反映本系統(tǒng)的資源消耗。因此,如果按照SLURM的原有架構(gòu)進(jìn)行部署的話,從系統(tǒng)上的代理進(jìn)程只能獲取錯(cuò)誤信息,無法反映計(jì)算節(jié)點(diǎn)的真實(shí)情況;管理節(jié)點(diǎn)無法監(jiān)控到集群正確狀態(tài),導(dǎo)致資源消耗的誤判,最終集群無法正常運(yùn)行。
為了解決這一問題,基于SLURM軟件,本發(fā)明提供一種申威平臺的計(jì)算環(huán)境資源管理系統(tǒng),對主系統(tǒng)、從系統(tǒng)做區(qū)分,運(yùn)行不同的代理守護(hù)進(jìn)程?;赟LURM代理進(jìn)程,從系統(tǒng)中的代理進(jìn)程進(jìn)行功能裁剪,去掉系統(tǒng)狀態(tài)監(jiān)控等功能,僅保留任務(wù)的管理功能。基于SLURM代理進(jìn)程,主系統(tǒng)中的代理守護(hù)進(jìn)程進(jìn)行功能的修改、添加,包括主、從系統(tǒng)的狀態(tài)信息整合功能,優(yōu)先級的再次分配功能以及任務(wù)管理功能等。
本發(fā)明計(jì)算環(huán)境資源管理方法包括任務(wù)分發(fā)流程和狀態(tài)信息上報(bào)流程。
本發(fā)明的任務(wù)分發(fā)流程如下:管理守護(hù)進(jìn)程接收系統(tǒng)管理員提交的計(jì)算任務(wù);根據(jù)管理員指定的任務(wù)優(yōu)先級、占用資源、運(yùn)行時(shí)長等參數(shù)以及資源調(diào)度策略,對任務(wù)進(jìn)行適當(dāng)?shù)膭澐?,并分配到恰?dāng)分區(qū)中的某個(gè)計(jì)算節(jié)點(diǎn)主系統(tǒng);狀態(tài)信息整合單元由從系統(tǒng)信息接收單元、第二任務(wù)信息統(tǒng)計(jì)單元、系統(tǒng)狀態(tài)統(tǒng)計(jì)單元這三個(gè)單元中分別取得從系統(tǒng)中的任務(wù)運(yùn)行狀態(tài)信息、主系統(tǒng)中的任務(wù)運(yùn)行狀態(tài)信息以及主系統(tǒng)的系統(tǒng)狀態(tài)、資源消耗信息,并將上述信息整合到一起,得到一主系統(tǒng)、三從系統(tǒng)的整體狀態(tài)信息;第二任務(wù)管理單元由第二通信單元取得分配的任務(wù),由狀態(tài)信息整合單元取得整體狀態(tài)信息,然后根據(jù)調(diào)度規(guī)則對任務(wù)進(jìn)行再次分解,在本主系統(tǒng)啟動部分任務(wù)、另一部分任務(wù)通過第二通信單元下發(fā)給從系統(tǒng)。第二任務(wù)管理單元由第二通信單元取得分配的任務(wù),由第二任務(wù)信息統(tǒng)計(jì)單元取得任務(wù)運(yùn)行狀態(tài),在資源滿足要求時(shí)啟動任務(wù)。
本發(fā)明的狀態(tài)信息上報(bào)流程如下:第一任務(wù)信息統(tǒng)計(jì)單元定期統(tǒng)計(jì)從系統(tǒng)中運(yùn)行的任務(wù)的狀態(tài)信息,并通過第一通信單元上報(bào)給主系統(tǒng);從系統(tǒng)信息接收單元負(fù)責(zé)接收三個(gè)從系統(tǒng)上報(bào)的任務(wù)信息;第二任務(wù)信息統(tǒng)計(jì)單元負(fù)責(zé)對主系統(tǒng)中的任務(wù)進(jìn)行監(jiān)控、統(tǒng)計(jì);系統(tǒng)狀態(tài)統(tǒng)計(jì)單元則監(jiān)控一個(gè)主系統(tǒng)、三個(gè)從系統(tǒng)的運(yùn)行狀況、資源消耗等信息;狀態(tài)信息整合單元對前述三種信息進(jìn)行整合,得到一個(gè)主系統(tǒng)、三個(gè)從系統(tǒng)的整體狀態(tài)信息,并通過第二通信單元將整體狀態(tài)信息上報(bào)給管理守護(hù)進(jìn)程。
以上對本發(fā)明的具體實(shí)施例進(jìn)行了描述。需要理解的是,本發(fā)明并不局限于上述特定實(shí)施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改,這并不影響本發(fā)明的實(shí)質(zhì)內(nèi)容。