亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種去中心化的跨集群資源管理與任務調度系統與調度方法

文檔序號:6385728閱讀:1040來源:國知局
專利名稱:一種去中心化的跨集群資源管理與任務調度系統與調度方法
技術領域
本發(fā)明涉及一種跨集群的資源管理與任務調度系統與調度方法,特別是涉及一種 去中心化的跨集群資源管理與任務調度系統與調度方法。
背景技術
單集群作業(yè)調度程序已經實現了單集群的作業(yè)調度及負載均衡,一旦作業(yè)過多, 所需計算資源大于集群的現有資源,將造成低優(yōu)先級作業(yè)的等待,勢必影響用戶的使用體 驗,因此,尋求一種跨集群資源管理與任務調度方法十分必要。跨集群資源管理和作業(yè)調度 分為中心化管理調度和去中心化作業(yè)管理調度,中心化管理調度存在中心失效導致系統整 體癱瘓的問題,而且中心集群的安全也直接影響系統中其他集群的安全,而去中心化管理 調度是一種網狀結構,單集群的問題不會影響整體系統,因此,需要尋找一種提高作業(yè)調度 的效率,節(jié)省數據傳輸時間的去中心化的跨集群資源管理與任務調度方法。發(fā)明內容
針對以上發(fā)明的目的在于提供一種去中心化的跨集群資源管理與任務調度系統 與調度方法,以解決作業(yè)所需資源大于集群已有資源時,作業(yè)的執(zhí)行效率問題。
每個集群系統都可成為一個自組織和自管理的子系統,同時多個集群又可聯合起 來構成一個網狀的系統進行統一管理和使用。此過程對用戶是透明的,用戶無需關心其任 務在哪臺主機或哪個集群中運行,只需通過Web頁面進行簡單的作業(yè)提交即可使用多個集 群中龐大的計算資源。系統分為三個模塊,分別為:個性化門戶、資源監(jiān)控器和任務管理器。 個性化門戶是一個web門戶頁面,提供給用戶一個提交任務的界面,負責與用戶交互。資源 監(jiān)控器負責本地集群及遠端集群的資源監(jiān)控,資源監(jiān)控為任務分發(fā)提供依據。任務管理器 負責任務執(zhí)行和任務分發(fā),在本地資源滿足任務要求的前提下,任務管理器優(yōu)先將任務調 度至本地集群執(zhí)行,在本地資源不足而外集群資源充足的情況下,任務管理器將任務分發(fā), 調度至別的集群執(zhí)行任務,并在任務完成后收回結果文件。系統運行過程分為以下三個部 分:
一、本地集群資源的管理和任務執(zhí)行
由于帶寬等因素的制約,用戶提交任務將優(yōu)先使用本地資源。本地集群中的資源 包括硬件資源、軟件資源和服務資源三類,由資源管理中心進行統一管理和使用。集群中的 資源可動態(tài)變化,即支持資源的隨時移入和移出。用戶提交的后,任務管理器向資源管理中 心提出查詢請求,資源管理中心收集集群內資源信息,并將結果返回給任務調度器。本地資 源可以滿足需求時,任務由任務管理器加入任務隊列,等待分配資源執(zhí)行,執(zhí)行完畢后通知 用戶并將結果返回。
二、本地資源不足時,跨集群使用遠程資源
當出現以下幾種情況,將使用跨集群的資源:1.本地集群沒有任務執(zhí)行所需的資源。如任務需要使用ansys軟件,本地資源沒有,而其它集群有此類軟件。2.本地負載過 重。如任務排隊現象過于嚴重。此時,資源管理中心則與其他集群的資源管理中心進行通 訊,收集其它集群的狀態(tài)信息,為任務的跨集群調度提供數據支持。
三、將任務調度至其他集群執(zhí)行并進行管理
本地集群的資源無法滿足任務的需求時,任務管理器將根據其它集群資源管理中 心反饋回的結果擇優(yōu)挑選目的集群,進行跨集群的任務調度。任務將由其他集群的任務管 理器加入其任務隊列。本地的任務管理器也可對其調度出的任務進行kill、結果取回等操 作。對于運行時間較長的任務,還可以隨時取回中間結果以方便用戶核對與使用。
跨集群作業(yè)調度模塊完成的任務是將本地集群排隊的作業(yè)合理地分配到其他集 群計算,待作業(yè)完成后,能夠快速及時地獲取作業(yè)結果。跨集群作業(yè)調度模塊遵循集群間負 載均衡的原理,實現跨集群作業(yè)調度策略。跨集群作業(yè)調度策略將綜合考慮集群間的物理 距離,網絡傳輸速度,各集群計算能力等因素。跨集群作業(yè)調度模塊的主要功能有:
(I)作業(yè)控制:支持用戶對其提交作業(yè)的控制,包括對作業(yè)的提交、刪除、修改和監(jiān) 視功能以及用戶對作業(yè)結果的取回。此外還支持管理員對用戶提交作業(yè)的全局管理功能。
(2)作業(yè)處理輔助:為作業(yè)處理提供前期準備和后續(xù)支持,包括建立批處理作業(yè), 將處理作業(yè)加入執(zhí)行隊列,定時記錄作業(yè)處理情況、將作業(yè)結果存放至指定位置,便于用戶 取回等功能。
(3)作業(yè)處理控制:根據用戶需求,對作業(yè)的處理進行控制,包括對作業(yè)計算時間、 占用CPU數目、占用內存大小、存儲數據大小等進行控制。
(4)高效的調度策略:由于計算能力、用戶需求不同,提供對作業(yè)優(yōu)先級、資源使用 優(yōu)先級、用戶份額控制,保證用戶滿意度和資源的使用效率。
(5)負載均衡:分布式和并行計算時,應考慮負載均衡問題,跨集群作業(yè)調度模塊 可以根據各集群的負載情況,綜合考慮數據傳輸效率,為等待作業(yè)分配計算資源,確保作業(yè) 的運行效率。
本發(fā)明的目的通過以下技術方案來實現:
一種去中心化的跨集群資源管理與任務調度系統,該調度系統包括:
提供管理與協調服務的子系統,收集其它子系統的信息,提供監(jiān)控、報表與計費、 資源共享協調工作,同時對高性能計算系統的管理、規(guī)劃提供決策參考;
提供計算服務的子系統,設置有高性能計算節(jié)點的數據中心,作為提供計算子系 統,同時收集本地和遠程的資源,以此為依據進行作業(yè)調度;
提供接入的子系統,為用戶提供本地化的作業(yè)提交、管理訪問服務。
進一步,所述提供管理與協調服務的子系統、提供計算服務的子系統和提供接入 的子系統分別包括:
個性化門戶,用于與客戶交互請求資源信息;
資源監(jiān)控器,用于對本地集群及遠端集群的資源監(jiān)控,為任務管理分發(fā)提供依 據;
任務管理器,用于對本地集群資源和外集群資源進行分析,對請求任務進行分配。
3進一步,所述提供管理與協調服務的子系統,提供計算服務的子系統和提供接入 的子系統之間的調用采用web service實現,保證接口的統一性和對防火墻的跨越性
—種去中心化的跨集群資源管理與任務調度方法,該方法包括:
I)個性化門戶提供用戶交互界面,提交任務至任務管理器;
2 )資源監(jiān)控器搜集本地集群或者跨集群搜集可用資源信息;
3)根據獲取的可用資源信息,任務管理器選擇任務分配的目的集群并由該集群執(zhí) 行分配任務。
進一步,所述步驟2中資源監(jiān)控器搜集本地集群資源的具體方法為:資源監(jiān)控器 每隔一定的時間收集本集群及其他集群的資源信息,當有任務通過門戶提交時,任務管理 器查看資源管理中心收集集群內資源信息,如是否有所需軟件、是否計算資源足夠、任務隊 列是否過長等,并對采集到的信息進行判斷,如果能夠滿足條件則將該任務加入到本地隊 列中,任務隊列按照優(yōu)先級與加入時間依次執(zhí)行,任務執(zhí)行完畢后將結果返回給個性化門 戶。
進一步,所述步驟2中資源監(jiān)控器跨集群搜集資源時的具體方法為:每個集群通 過本地的個性化門戶接受到任務后,資源監(jiān)控器查詢本地資源能否滿足計算需求,如能滿 足,則在集群內部完成任務,如果不能滿足計算需求,則遍歷配置文件中的集群,選取合適 的集群并將任務分配至該集群上。
進一步,所述步驟3中集群執(zhí)行分配任務的具體步驟包括:
(I)用戶登錄本地門戶,驗證通過后,提交任務;
(2)提交作業(yè)時,任務管理器根據本地資源管理中心提供的數據,判斷本地資源是 否滿足需求;
(3)如果本地資源滿足任務的需求則使用本地調度組件將任務提交至本地運行;
(4)如果本地資源無法滿足任務的需求,則跨集群收集信息,使用遠程調度組件將 任務轉發(fā)至適當的集群系統;
(5)遠程的集群系統要根據所需進行許可證license申請;申請成功后執(zhí)行計算 資源預留操作;預留成功后再發(fā)出數據文件的傳輸請求,用戶上傳至本地的數據文件將傳 輸至遠程集群系統中,傳輸完畢后立即執(zhí)行作業(yè)。當某個環(huán)節(jié)失敗后將對前面的步驟進行 回滾操作,如計算資源預留失敗將釋放license資源;
(6)作業(yè)完成后,將計算結果取回本地,提供用戶下載、在線瀏覽方式的使用,對于 運行時間較長的任務,還可以隨時取回中間結果以方便用戶核對與使用。
進一步,所述的步驟2中的資源信息根據信息的變換,分為靜態(tài)信息和動態(tài)信息, 所述靜態(tài)信息在首次資源收集時寫入資源配置文件時,不再重復采集;所述動態(tài)信息為資 源加入時隨時發(fā)生變動的數據,由系統周期性或接受請求時采集。
本發(fā)明的優(yōu)點在于:
去中心化的跨集群資源管理與任務調度方法整合單集群資源,一方面提高了作業(yè) 的執(zhí)行效率,提高了用戶體驗,另一方面也有效利用了現有資源,使資源得到最大化利用, 節(jié)省了購買硬件以擴充計算能力的成本。


圖1:本發(fā)明集群資源管理與任務調度系統結構圖2:跨集群資源調度方法流程圖。
具體實施方式
下面結合附圖對本發(fā)明進行詳細說明。
如圖1所示為本發(fā)明集群資源管理與任務調度系統結構圖,針對資源的分布與功 能特性,本發(fā)明將系統分為三類,分別是:提供計算管理與協調服務的子系統,提供計算服 務的子系統和提供接入的子系統。各子系統間的調用使用web service實現,保證了接口 的統一'丨生和對防火墻的跨越性。
(I)提供管理與協調服務的子系統
部分單位本身并不提供高性能計算服務,但提供管理與協調的功能。該子系統收 集其它子系統的信息,提供監(jiān)控、報表與計費、資源共享協調等工作。為高性能計算系統的 管理、規(guī)劃提供決策參考。
(2)提供計算服務的子系統
部署有高性能計算節(jié)點的數據中心,作為提供計算子系統,是任務運行與調度的 實體。它們通過資源管理模塊收集本地和遠程的資源,再以此為依據進行作業(yè)調度。
(3)提供接入的子系統
提供接入的子系統將建設在沒有配備高性能集群的單位,但可以為用戶提供本地 化的作業(yè)提交、管理等訪問體驗,并幫助單位快速地加入到跨集群高性能系統中。
該分類方式結合了傳統集群管理系統中慣用的“主-從式”與當前云計算流行的 “對等式”管理的優(yōu)缺點,每個系統各司其職,但一個子系統的故障不會對其它子系統造成 影響,從而達到了去中心化的目的,將星型的管理方式轉變?yōu)榫W狀的管理方式。
如圖2所示為跨集群資源調度方法流程圖,一種去中心化的跨集群資源管理與任 務調度方法的具體步驟為:
第一步、個性化門戶提交任務
此處個性化門戶可以為Web門戶網站,通過Web門戶網站,用戶將提交任務至高性 能集群執(zhí)行。門戶網站提供給用戶使用各種工具軟件的接口,如fluent任務,用戶根據網 頁的內容,填入運行軟件所需的參數,如fluent任務需給出后綴名為.cas的文件,并設定 迭代次數,用戶提交任務后,自動生成軟件調用命令,并傳入相應的參數,同時給出相關運 行文件的路徑地址。
第二步、資源監(jiān)控器收集資源信息
1、資源分類
針對任務調度的特點,將資源分為三類:計算資源、軟件資源和服務資源。根據信 息的變化性,又可細分為靜態(tài)信息和動態(tài)信息。靜態(tài)信息在資源加入時寫入,不再重復采 集。動態(tài)信息為資源的隨時會發(fā)生變動的數據,由系統周期性或接受請求時進行采集。
權利要求
1.一種去中心化的跨集群資源管理與任務調度系統,其特征在于,該調度系統包括:提供管理與協調服務的子系統,收集其它子系統的信息,提供監(jiān)控、報表與計費、資源共享協調工作,同時對高性能計算系統的管理、規(guī)劃提供決策參考;提供計算服務的子系統,設置有高性能計算節(jié)點的數據中心,作為提供計算子系統,同時收集本地和遠程的資源,以此為依據進行作業(yè)調度;提供接入的子系統,為用戶提供本地化的作業(yè)提交、管理訪問服務。
2.根據權利要求1所述的一種去中心化的跨集群資源管理與任務調度系統,其特征在于,所述提供管理與協調服務的子系統、提供計算服務的子系統和提供接入的子系統分別包括:個性化門戶,用于與客戶交互請求資源信息;資源監(jiān)控器,用于對本地集群及遠端集群的資源監(jiān)控,為任務管理分發(fā)提供依據;任務管理器,用于對本地集群資源和外集群資源進行分析,對請求任務進行分配。
3.根據權利要求1所述的一種去中心化的跨集群資源管理與任務調度系統,其特征在于,所述提供管理與協調服務的子系統,提供計算服務的子系統和提供接入的子系統之間的調用采用web service實現,保證接口的統一'I"生和對防火墻的跨越性。
4.一種去中心化的跨集群資源管理與任務調度方法,其特征在于,該方法包括:1)個性化門戶提供用戶交互界面,提交任務至任務管理器;2)資源監(jiān)控器搜集本地集群或者跨集群搜集可用資源信息;3)根據獲取的可用資源信息,任務管理器選擇任務分配的目的集群并由該集群執(zhí)行分配任務。
5.根據權利要求4所述的一種去中心化的跨集群資源管理與任務調度方法,其特征在于,所述步驟2中資源監(jiān)控器搜集本地集群資源的具體方法為:資源監(jiān)控器每隔一定的時間收集本集群及其他集群的資源信息,當有任務通過門戶提交時,任務管理器查看資源管理中心收集集群內資源信息,如是否有所需軟件、是否計算資源足夠、任務隊列是否過長等,并對采集到的信息進行判斷,如果能夠 滿足條件則將該任務加入到本地隊列中,任務隊列按照優(yōu)先級與加入時間依次執(zhí)行,任務執(zhí)行完畢后將結果返回給個性化門戶。
6.根據權利要求4所述的一種去中心化的跨集群資源管理與任務調度方法,其特征在于,所述步驟2中資源監(jiān)控器跨集群搜集資源時的具體方法為:每個集群通過本地的個性化門戶接受到任務后,資源監(jiān)控器查詢本地資源能否滿足計算需求,如能滿足,則在集群內部完成任務,如果不能滿足計算需求,則遍歷配置文件中的集群,選取合適的集群并將任務分配至該集群上。
7.根據權利要求4所述的一種去中心化的跨集群資源管理與任務調度方法,其特征在于,所述步驟3中集群執(zhí)行分配任務的具體步驟包括:(1)用戶登錄本地門戶,驗證通過后,提交任務;(2)提交作業(yè)時,任務管理器根據本地資源管理中心提供的數據,判斷本地資源是否滿足需求;(3)如果本地資源滿足任務的需求則使用本地調度組件將任務提交至本地運行;(4)如果本地資源無法滿足任務的需求,則跨集群收集信息,使用遠程調度組件將任務轉發(fā)至適當的集群系統;(5)遠程的集群系統要根據所需進行許可證license申請;申請成功后執(zhí)行計算資源預留操作;預留成功后再發(fā)出數據文件的傳輸請求,用戶上傳至本地的數據文件將傳輸至遠程集群系統中,傳輸完畢后立即執(zhí)行作業(yè)。當某個環(huán)節(jié)失敗后將對前面的步驟進行回滾操作,如計算資源預留失敗將釋放license資源;(6)作業(yè)完成后,將計算結果取回本地,提供用戶下載、在線瀏覽方式的使用,對于運行時間較長的任務,還可以隨時取回中間結果以方便用戶核對與使用。
8.根據權利要求4所述的一種去中心化的跨集群資源管理與任務調度方法,其特征在于,所述的步驟2中的資源信息根據信息的變換,分為靜態(tài)信息和動態(tài)信息,所述靜態(tài)信息在首次資源收集時寫入資源配置文件時,不再重復采集;所述動態(tài)信息為資源加入時隨時發(fā)生變 動的數據,由系統周期性或接受請求時采集。
全文摘要
本發(fā)明涉及一種去中心化的跨集群資源管理與任務調度系統與調度方法,該調度系統包括提供管理與協調服務的子系統,收集其它子系統的信息,提供監(jiān)控、報表與計費、資源共享協調工作,同時對高性能計算系統的管理、規(guī)劃提供決策參考;提供計算服務的子系統,設置有高性能計算節(jié)點的數據中心,作為提供計算子系統,同時收集本地和遠程的資源,以此為依據進行作業(yè)調度;提供接入的子系統,為用戶提供本地化的作業(yè)提交、管理訪問服務。本發(fā)明去中心化的跨集群資源管理與任務調度方法整合單集群資源,一方面提高了作業(yè)的執(zhí)行效率,提高了用戶體驗,另一方面也有效利用了現有資源,使資源得到最大化利用,節(jié)省了購買硬件以擴充計算能力的成本。
文檔編號G06F9/50GK103207814SQ20121058040
公開日2013年7月17日 申請日期2012年12月27日 優(yōu)先權日2012年12月27日
發(fā)明者吳增巍, 王琪 申請人:北京仿真中心
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1