一種基于異構(gòu)集群的作業(yè)調(diào)度系統(tǒng)及方法
【專利摘要】本發(fā)明特別涉及一種基于異構(gòu)集群的作業(yè)調(diào)度系統(tǒng)及方法。該基于異構(gòu)集群的作業(yè)調(diào)度系統(tǒng),包括2臺(tái)作業(yè)調(diào)度服務(wù)器、n臺(tái)CPU計(jì)算節(jié)點(diǎn)服務(wù)器、n臺(tái)GPU計(jì)算節(jié)點(diǎn)服務(wù)器和共享存儲(chǔ)設(shè)備;采用以太網(wǎng)做集群管理網(wǎng)絡(luò),使用infiniband高速網(wǎng)絡(luò)做計(jì)算網(wǎng)絡(luò),操作系統(tǒng)采用Redhatlinux。該基于異構(gòu)集群的作業(yè)調(diào)度系統(tǒng)及方法,該基于異構(gòu)集群的作業(yè)調(diào)度系統(tǒng)及方法,通過異構(gòu)作業(yè)調(diào)度,實(shí)現(xiàn)了異構(gòu)計(jì)算資源的充分利用,并在原有基礎(chǔ)上,計(jì)算能力提高了40%,從而進(jìn)一步保證HPC集群的穩(wěn)定運(yùn)行和計(jì)算資源的可用性。
【專利說明】一種基于異構(gòu)集群的作業(yè)調(diào)度系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明特別涉及一種基于異構(gòu)集群的作業(yè)調(diào)度系統(tǒng)及方法。
【背景技術(shù)】
[0002] 全球高性能計(jì)算T0P500的統(tǒng)計(jì),有90%以上采用的是基于X86架構(gòu)搭建的集群系 統(tǒng)。不過隨著高性能計(jì)算技術(shù)的發(fā)展和應(yīng)用的不斷擴(kuò)大,目前占據(jù)市場主流的高性能集群 系統(tǒng)在某些高性能計(jì)算領(lǐng)域的應(yīng)用將面臨CPU+GPU的強(qiáng)勁挑戰(zhàn)。
[0003] CPU+GPU異構(gòu)集群由于硬件產(chǎn)品成熟、實(shí)現(xiàn)多元,適用于計(jì)算密集型應(yīng)用,需要細(xì) 粒度并行算法,能極大提升應(yīng)用性能。隨著圖形處理器(GPU)作為一種通用的計(jì)算單元出 現(xiàn),越來越多的高性能計(jì)算(HPC)用戶正在向基于GPU的群集遷移,來運(yùn)行其科學(xué)和工程應(yīng) 用。這種模式允許用戶在一個(gè)異質(zhì)計(jì)算模型中同時(shí)使用CPU和GPU,其中,應(yīng)用的連續(xù)部分 在CPU上運(yùn)行,而計(jì)算密集的部分在GPU上運(yùn)行。通過挖掘GPU的大規(guī)模并行能力、用戶運(yùn) 行應(yīng)用程序的速度和傳統(tǒng)的基于CPU的模式相比,幾乎可以提高40%。
[0004] 對(duì)于在大型異構(gòu)集群環(huán)境中的作業(yè)調(diào)度,目前業(yè)界還沒有成熟的參考模型。本發(fā) 明將針對(duì)基于高性能異構(gòu)計(jì)算集群提出一種可實(shí)現(xiàn)的作業(yè)調(diào)度方法。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明為了彌補(bǔ)現(xiàn)有技術(shù)的缺陷,提供了一種能夠有效降低用戶成本的基于異構(gòu) 集群的作業(yè)調(diào)度系統(tǒng)及方法。
[0006] 本發(fā)明是通過如下技術(shù)方案實(shí)現(xiàn)的: 一種基于異構(gòu)集群的作業(yè)調(diào)度系統(tǒng),其特征在于:包括2臺(tái)作業(yè)調(diào)度服務(wù)器、η臺(tái)CPU 計(jì)算節(jié)點(diǎn)服務(wù)器、η臺(tái)GPU計(jì)算節(jié)點(diǎn)服務(wù)器和共享存儲(chǔ)設(shè)備;采用以太網(wǎng)做集群管理網(wǎng)絡(luò), 使用infiniband高速網(wǎng)絡(luò)做計(jì)算網(wǎng)絡(luò),操作系統(tǒng)采用Redhat linux。
[0007] 所述作業(yè)調(diào)度服務(wù)器采用開源PBS作業(yè)調(diào)度軟件(openpbs、torque等)。
[0008] 所述開源PBS作業(yè)調(diào)度軟件采用openpbs或者torque。
[0009] 本發(fā)明基于異構(gòu)集群的作業(yè)調(diào)度方法,其特征在于包括以下步驟: 第一步:建立CPU和GPU計(jì)算隊(duì)列,對(duì)應(yīng)后端計(jì)算節(jié)點(diǎn)服務(wù)器進(jìn)行計(jì)算資源的分配; 第二步:結(jié)合用戶需求,分別建立計(jì)算用戶,用戶計(jì)算目錄對(duì)應(yīng)到后端共享存儲(chǔ); 第三步:在用戶需要進(jìn)行CPU計(jì)算資源時(shí),對(duì)CPU資源進(jìn)行劃分,單節(jié)點(diǎn)CPU依據(jù)核心 數(shù)量進(jìn)行資源分配,保證CPU計(jì)算節(jié)點(diǎn)利用率達(dá)到100% ; 第四步:在GPU節(jié)點(diǎn)上安裝CUDA和OpenMPI環(huán)境,指定標(biāo)準(zhǔn)環(huán)境變量; 第五步:建立異構(gòu)作業(yè)標(biāo)準(zhǔn)PBS模板,可以手動(dòng)指定CPU和GPU計(jì)算資源需求數(shù)量; 第六步:異構(gòu)作業(yè)需求用戶可以自己編寫CUDA程序,編譯完成后,使用參考PBS腳本選 擇計(jì)算資源,并將作業(yè)提交到GPU隊(duì)列計(jì)算資源池; 第七步:GPU作業(yè)同時(shí)使用CPU和GPU計(jì)算資源進(jìn)行計(jì)算,運(yùn)行完成后,計(jì)算結(jié)果輸出 的共享存儲(chǔ)目錄。
[0010] 本發(fā)明的有益效果是:該基于異構(gòu)集群的作業(yè)調(diào)度系統(tǒng)及方法,通過異構(gòu)作業(yè)調(diào) 度,實(shí)現(xiàn)了異構(gòu)計(jì)算資源的充分利用,并在原有基礎(chǔ)上,計(jì)算能力提高了 40%,從而進(jìn)一步保 證HPC集群的穩(wěn)定運(yùn)行和計(jì)算資源的可用性。
【專利附圖】
【附圖說明】
[0011] 下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步的說明。
[0012] 附圖1為本發(fā)明結(jié)構(gòu)示意圖。
[0013] 附圖2為本發(fā)明方法示意圖。
【具體實(shí)施方式】
[0014] 附圖為本發(fā)明的一種具體實(shí)施例。該基于異構(gòu)集群的作業(yè)調(diào)度系統(tǒng),包括2臺(tái)作 業(yè)調(diào)度服務(wù)器、η臺(tái)CPU計(jì)算節(jié)點(diǎn)服務(wù)器、η臺(tái)GPU計(jì)算節(jié)點(diǎn)服務(wù)器和共享存儲(chǔ)設(shè)備;采用以 太網(wǎng)做集群管理網(wǎng)絡(luò),使用infiniband高速網(wǎng)絡(luò)做計(jì)算網(wǎng)絡(luò),操作系統(tǒng)采用Redhat linux。
[0015] 所述作業(yè)調(diào)度服務(wù)器采用開源PBS作業(yè)調(diào)度軟件(openpbs、torque等)。
[0016] 所述開源PBS作業(yè)調(diào)度軟件采用openpbs或者torque。
[0017] 本發(fā)明基于異構(gòu)集群的作業(yè)調(diào)度方法,其特征在于包括以下步驟: 第一步:建立CPU和GPU計(jì)算隊(duì)列,對(duì)應(yīng)后端計(jì)算節(jié)點(diǎn)服務(wù)器進(jìn)行計(jì)算資源的分配; 第二步:結(jié)合用戶需求,分別建立計(jì)算用戶,用戶計(jì)算目錄對(duì)應(yīng)到后端共享存儲(chǔ); 第三步:在用戶需要進(jìn)行CPU計(jì)算資源時(shí),對(duì)CPU資源進(jìn)行劃分,單節(jié)點(diǎn)CPU依據(jù)核心 數(shù)量進(jìn)行資源分配,保證CPU計(jì)算節(jié)點(diǎn)利用率達(dá)到100% ; 第四步:在GPU節(jié)點(diǎn)上安裝CUDA和OpenMPI環(huán)境,指定標(biāo)準(zhǔn)環(huán)境變量; 第五步:建立異構(gòu)作業(yè)標(biāo)準(zhǔn)PBS模板,可以手動(dòng)指定CPU和GPU計(jì)算資源需求數(shù)量; 第六步:異構(gòu)作業(yè)需求用戶可以自己編寫CUDA程序,編譯完成后,使用參考PBS腳本選 擇計(jì)算資源,并將作業(yè)提交到GPU隊(duì)列計(jì)算資源池; 第七步:GPU作業(yè)同時(shí)使用CPU和GPU計(jì)算資源進(jìn)行計(jì)算,運(yùn)行完成后,計(jì)算結(jié)果輸出 的共享存儲(chǔ)目錄。
【權(quán)利要求】
1. 一種基于異構(gòu)集群的作業(yè)調(diào)度系統(tǒng),其特征在于:包括2臺(tái)作業(yè)調(diào)度服務(wù)器、η臺(tái) CPU計(jì)算節(jié)點(diǎn)服務(wù)器、η臺(tái)GPU計(jì)算節(jié)點(diǎn)服務(wù)器和共享存儲(chǔ)設(shè)備;采用以太網(wǎng)做集群管理網(wǎng) 絡(luò),使用infiniband高速網(wǎng)絡(luò)做計(jì)算網(wǎng)絡(luò),操作系統(tǒng)采用Redhat linux。
2. 根據(jù)權(quán)利要求1所述的基于異構(gòu)集群的作業(yè)調(diào)度系統(tǒng),其特征在于:所述作業(yè)調(diào)度 服務(wù)器采用開源PBS作業(yè)調(diào)度軟件(openpbs、torque等)。
3. 根據(jù)權(quán)利要求2所述的基于異構(gòu)集群的作業(yè)調(diào)度系統(tǒng),其特征在于:所述開源PBS 作業(yè)調(diào)度軟件采用openpbs或者torque。
4. 根據(jù)權(quán)利要求1所述的基于異構(gòu)集群的作業(yè)調(diào)度方法,其特征在于包括以下步驟: 第一步:建立CPU和GPU計(jì)算隊(duì)列,對(duì)應(yīng)后端計(jì)算節(jié)點(diǎn)服務(wù)器進(jìn)行計(jì)算資源的分配; 第二步:結(jié)合用戶需求,分別建立計(jì)算用戶,用戶計(jì)算目錄對(duì)應(yīng)到后端共享存儲(chǔ); 第三步:在用戶需要進(jìn)行CPU計(jì)算資源時(shí),對(duì)CPU資源進(jìn)行劃分,單節(jié)點(diǎn)CPU依據(jù)核心 數(shù)量進(jìn)行資源分配,保證CPU計(jì)算節(jié)點(diǎn)利用率達(dá)到100% ; 第四步:在GPU節(jié)點(diǎn)上安裝CUDA和OpenMPI環(huán)境,指定標(biāo)準(zhǔn)環(huán)境變量; 第五步:建立異構(gòu)作業(yè)標(biāo)準(zhǔn)PBS模板,可以手動(dòng)指定CPU和GPU計(jì)算資源需求數(shù)量; 第六步:異構(gòu)作業(yè)需求用戶可以自己編寫CUDA程序,編譯完成后,使用參考PBS腳本選 擇計(jì)算資源,并將作業(yè)提交到GPU隊(duì)列計(jì)算資源池; 第七步:GPU作業(yè)同時(shí)使用CPU和GPU計(jì)算資源進(jìn)行計(jì)算,運(yùn)行完成后,計(jì)算結(jié)果輸出 的共享存儲(chǔ)目錄。
【文檔編號(hào)】H04L12/861GK104125165SQ201410405297
【公開日】2014年10月29日 申請(qǐng)日期:2014年8月18日 優(yōu)先權(quán)日:2014年8月18日
【發(fā)明者】陳良華 申請(qǐng)人:浪潮電子信息產(chǎn)業(yè)股份有限公司