一種云計算平臺作業(yè)調(diào)度方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機(jī)信息處理技術(shù)領(lǐng)域,尤其涉及一種云計算平臺作業(yè)調(diào)度方法及 裝直。
【背景技術(shù)】
[0002] 隨著用戶規(guī)模的不斷增長和精細(xì)化運(yùn)營管理要求的不斷提高,移動通信運(yùn)營商 內(nèi)部的分析系統(tǒng),如BASS、VGOP、F0S等系統(tǒng)都面臨大數(shù)據(jù)時代的沖擊,原有的系統(tǒng)架構(gòu)已 不能滿足業(yè)務(wù)的需求,普遍存在以下的問題:1、處理性能不足,無法滿足大數(shù)據(jù)和非結(jié)構(gòu)化 數(shù)據(jù)的處理性能要求;2、建設(shè)維護(hù)成本高,原有的"小型機(jī)+高端存儲+關(guān)系型數(shù)據(jù)庫"模 式,軟硬件采購及維護(hù)費(fèi)用都非常高;3、系統(tǒng)可靠性不高;4、擴(kuò)展性較差,無法快速線性擴(kuò) 展來滿足數(shù)據(jù)處理增長的要求;
[0003] 而以Hadoop為代表的云計算技術(shù)的出現(xiàn),較好的解決了這些問題,因此移動通信 運(yùn)營商的分析系統(tǒng)都逐步向云計算平臺實施轉(zhuǎn)型。但隨著云計算平臺的規(guī)模不斷擴(kuò)大,必 需考慮在一定資源限度下最有效承載各種業(yè)務(wù),因此,如何提高云計算平臺的資源利用率 成為了影響云計算平臺使用效果的關(guān)鍵因素,從而成為我們需要迫切解決的一個問題。
[0004] BASS (Business Analyse Support System)為移動運(yùn)營商經(jīng)營分析系統(tǒng),是指 以企業(yè)決策支持、市場經(jīng)營分析和一線營銷服務(wù)支撐為服務(wù)目標(biāo)的智能支撐信息系統(tǒng); VGOP(Value-added Service General Operation Platform)為移動運(yùn)營商增值業(yè)務(wù)綜 合運(yùn)營平臺,負(fù)責(zé)提供跨業(yè)務(wù)平臺統(tǒng)一運(yùn)營能力的數(shù)據(jù)業(yè)務(wù)支撐系統(tǒng);F0S(data Flow Operation Management System)為移動運(yùn)營商流量經(jīng)營綜合運(yùn)營管理系統(tǒng),提供分析挖 掘、精確營銷和管理能力的IT支撐系統(tǒng)。
[0005] 在現(xiàn)有架構(gòu)下,各業(yè)務(wù)系統(tǒng)獨(dú)立的提交作業(yè)給云計算平臺,并預(yù)先聲明資源需求。 云計算平臺接收作業(yè)并放入統(tǒng)一的作業(yè)隊列中,作業(yè)調(diào)度模塊按照一個簡單的先進(jìn)先出 (FIFO隊列)調(diào)度算法進(jìn)行作業(yè)調(diào)度,并按照各作業(yè)預(yù)先提出的資源需求進(jìn)行資源分配,先 到先得。所有作業(yè)的資源需求均需要提前確認(rèn),多任務(wù)之間的資源爭用及作業(yè)之間依賴關(guān) 系也需要在提交作業(yè)之前提前規(guī)劃。
[0006] 現(xiàn)有的架構(gòu)在單一的業(yè)務(wù)系統(tǒng)中使用時有較高的調(diào)度效率,但是在多系統(tǒng)的復(fù)雜 業(yè)務(wù)環(huán)境下,存在資源使用不均衡、無法反應(yīng)業(yè)務(wù)特性、缺乏動態(tài)調(diào)度機(jī)制等問題,具體如 下:
[0007](一)資源使用不均衡
[0008] 云計算平臺共有400個CPU內(nèi)核(CPU core)的物理資源。在某一時段,只有一個 作業(yè)ID為2. 1的BASS接口數(shù)據(jù)處理作業(yè)運(yùn)行,該作業(yè)的資源需求為100個CPU core,遠(yuǎn)小 于云計算平臺現(xiàn)有可用的資源,但云計算平臺只能按照該作業(yè)提交的資源需求分配100個 CPU core,無法分配更多的資源給該作業(yè),導(dǎo)致云計算平臺資源閑置,而該作業(yè)的運(yùn)行時間 也較長。如能自動增加分配該作業(yè)的資源,則可將作業(yè)運(yùn)行時間大幅度縮短。
[0009](二)無法根據(jù)作業(yè)優(yōu)先級調(diào)度
[0010] 云計算平臺共有400個CPU core的物理資源。在某一時段,已有ID為1. 3的FOS 系統(tǒng)匯總層數(shù)據(jù)處理作業(yè)開始運(yùn)行,該作業(yè)占用300個CPU core,預(yù)計作業(yè)執(zhí)行時間為2個 小時,優(yōu)先級別為低。若此時有一個ID為4. 1的多平臺數(shù)據(jù)統(tǒng)計的臨時作業(yè)提交,該作業(yè) 優(yōu)先級別為高,資源需求為200個CPUcore,預(yù)計運(yùn)行時間為10分鐘。按照云計算平臺現(xiàn)有 的管理方式,ID為4. 1的作業(yè)需要排隊等待ID為1. 3的作業(yè)全部完成后釋放資源才能開 始運(yùn)行,需等待2小時左右,不能滿足高優(yōu)先級作業(yè)的時間要求。如能暫停ID為1. 3的作 業(yè)優(yōu),優(yōu)先先執(zhí)行ID為4. 1的作業(yè),則僅需10余分鐘即可完成高優(yōu)先級作業(yè)。
[0011](三)無法根據(jù)業(yè)務(wù)特性和依賴性進(jìn)行調(diào)度
[0012] 云計算平臺的2個作業(yè)存在依賴關(guān)系,作業(yè)ID為2. 3的BASS系統(tǒng)匯總數(shù)據(jù)處理 作業(yè)依賴于作業(yè)ID為2. 2的BASS系統(tǒng)輕度匯總數(shù)據(jù)處理作業(yè)的結(jié)果。因某些原因(作業(yè) 提交時間延遲、作業(yè)異常中斷、資源爭用等)導(dǎo)致隊列中ID為2. 3的作業(yè)排在ID為2. 2的 作業(yè)之前時,現(xiàn)有的管理方式將首先運(yùn)行ID為2. 3的作業(yè),導(dǎo)致該作業(yè)數(shù)據(jù)處理結(jié)果異常。 在多個業(yè)務(wù)系統(tǒng)的復(fù)雜環(huán)境下,系統(tǒng)之間及系統(tǒng)內(nèi)部的作業(yè)存在依賴性和嚴(yán)格的串行處理 順序,現(xiàn)有架構(gòu)不能自動處理這些關(guān)系,更無法保證關(guān)鍵路徑作業(yè)的按時處理。
【發(fā)明內(nèi)容】
[0013] 為了解決現(xiàn)有技術(shù)中無法根據(jù)作業(yè)優(yōu)先級調(diào)度,無法根據(jù)業(yè)務(wù)特性和依賴性進(jìn)行 作業(yè)調(diào)度,云計算平臺資源使用不均衡的技術(shù)問題,本發(fā)明提出一種云計算平臺作業(yè)調(diào)度 方法及裝置。
[0014] 本發(fā)明的一個方面,提供一種云計算平臺作業(yè)調(diào)度方法,包括:
[0015] 對接收到的作業(yè)進(jìn)行解析,獲得所述作業(yè)的特征參數(shù);
[0016] 根據(jù)所述作業(yè)的特征參數(shù)計算所述作業(yè)的資源需求;
[0017] 根據(jù)所述作業(yè)的資源需求及云計算平臺資源剩余信息為所述作業(yè)分配資源;
[0018] 將資源分配結(jié)果發(fā)送到云計算平臺執(zhí)行作業(yè)。
[0019] 本發(fā)明的另一個方面,提供一種云計算平臺作業(yè)調(diào)度裝置,包括:
[0020] 作業(yè)解析模塊,用于對接收到的作業(yè)進(jìn)行解析,獲得所述作業(yè)的特征參數(shù);
[0021] 資源計算模塊,用于根據(jù)所述作業(yè)的特征參數(shù)計算所述作業(yè)的資源需求;
[0022] 資源分配模塊,用于根據(jù)所述作業(yè)的資源需求及云計算平臺資源剩余信息為所述 作業(yè)分配資源;
[0023] 作業(yè)發(fā)送模塊,用于將資源分配結(jié)果發(fā)送到云計算平臺執(zhí)行作業(yè)。
[0024] 本發(fā)明的云計算平臺作業(yè)調(diào)度方法及裝置,通過對作業(yè)所需資源的估算,結(jié)合云 計算平臺資源占用情況,對云計算平臺的作業(yè)進(jìn)行統(tǒng)一的實時動態(tài)調(diào)度,達(dá)到資源自動化 管理分配的目標(biāo),均衡云計算平臺負(fù)載,提高現(xiàn)有資源的利用率,保證業(yè)務(wù)處理的有序性, 實現(xiàn)自動合理的資源分配。
【附圖說明】
[0025] 圖1是本發(fā)明云計算平臺作業(yè)調(diào)度方法實施例的流程圖;
[0026] 圖2是本發(fā)明作業(yè)與系統(tǒng)的特性表的示意圖;
[0027] 圖3是本發(fā)明云計算平臺作業(yè)調(diào)度裝置實施例的結(jié)構(gòu)圖;
[0028] 圖4是本發(fā)明云計算平臺作業(yè)調(diào)度方法另一實施例的流程圖;
[0029] 圖5是本發(fā)明云計算平臺作業(yè)調(diào)度方法再一實施例的流程圖;
[0030] 圖6是本發(fā)明資源分配模塊從作業(yè)發(fā)送模塊獲取的作業(yè)隊列情況示意圖;
[0031] 圖7是本發(fā)明另一作業(yè)與系統(tǒng)