本發(fā)明涉及資源管理系統(tǒng)及其方法,特別涉及一種可用以管理多個(gè)臺(tái)服務(wù)器與虛擬機(jī)器的服務(wù)器資源的管理系統(tǒng)及其方法。
背景技術(shù):
近年來,隨著科技快速進(jìn)展,計(jì)算機(jī)系統(tǒng)的虛擬化技術(shù)已經(jīng)變得相當(dāng)盛行。虛擬化技術(shù)已經(jīng)成為云端運(yùn)算基礎(chǔ)建設(shè)服務(wù)(IaaS)的技術(shù)主流之一,各家廠商為提供不間斷的虛擬機(jī)器租用服務(wù)以達(dá)到高度服務(wù)層級協(xié)議(Service Level Agreement,SLA)的目標(biāo),為確保服務(wù)正常,大多數(shù)服務(wù)提供者會(huì)在機(jī)房安裝監(jiān)控軟件,除監(jiān)控運(yùn)行的效能是否正常,甚至預(yù)判異常情形的發(fā)生,并在問題發(fā)生前可在第一時(shí)間做出補(bǔ)救措施。監(jiān)控軟件的監(jiān)控范圍包含軟硬件的效能監(jiān)控、設(shè)備異常監(jiān)控或者是數(shù)據(jù)安全等。監(jiān)測項(xiàng)目可區(qū)分可分為單一監(jiān)控與多項(xiàng)目監(jiān)控,單一監(jiān)控軟件會(huì)有其專注的項(xiàng)目,如專注于監(jiān)控網(wǎng)絡(luò)流量分組分析或監(jiān)控與維護(hù)SAS接口的存儲(chǔ)設(shè)備,而多項(xiàng)目則提供常見的效能監(jiān)控,如虛擬機(jī)器CPU、存儲(chǔ)器與硬盤讀寫等效能。
一般采用免費(fèi)監(jiān)控軟件的目的以降低成本為考量,因整合性監(jiān)控軟件的費(fèi)用高昂,成本較高且企業(yè)監(jiān)控的目的不一,多數(shù)企業(yè)只使用到部分監(jiān)控項(xiàng)目,降低整合監(jiān)控的效益,若采用多套的免費(fèi)監(jiān)控軟件可滿足基本的監(jiān)控需求,則可能會(huì)偏向采取免費(fèi)監(jiān)控軟件。此外,為確保整體運(yùn)行正常而安裝多套監(jiān)控軟件,除互為備援外,亦提供更詳細(xì)的監(jiān)控信息。因此,不同監(jiān)控軟件間的整合就成為必須解決的課題,管理者必須進(jìn)行多套監(jiān)控軟件的安裝設(shè)定,再按時(shí)開啟多套監(jiān)控軟件進(jìn)行信息檢視與監(jiān)控,對此造成管理者監(jiān)控上需耗費(fèi)大量的時(shí)間與心力。此外,許多免費(fèi)監(jiān)控軟件提供強(qiáng)大監(jiān)控功能,但卻缺少告警或須再額外安裝主動(dòng)告警的功能,管理者無法在異常時(shí)及時(shí)發(fā)現(xiàn)并進(jìn)行后續(xù)緊急處置,往往造成異常處理的時(shí)間延宕。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明一實(shí)施例提供一種服務(wù)器資源的管理方法,用以管理多個(gè)服務(wù)器的資源,包括下列步驟:由一資源狀態(tài)監(jiān)測器,收集該等服務(wù)器內(nèi)各資源的各效能監(jiān)測數(shù)據(jù)及該等服務(wù)器內(nèi)多個(gè)虛擬機(jī)器的運(yùn)行狀態(tài)數(shù)據(jù);由一異常分析與判斷器,分析該等運(yùn)行狀態(tài)數(shù)據(jù)及該等效能監(jiān)測數(shù)據(jù),以在判斷該等虛擬機(jī)器內(nèi)有一效能異常的虛擬機(jī)器時(shí),自動(dòng)發(fā)出一觸發(fā)信號;以及由一資源調(diào)配器,相應(yīng)該觸發(fā)信號,自動(dòng)對該效能異常的虛擬機(jī)器執(zhí)行一處理,其中該處理包括對該效能異常的虛擬機(jī)器進(jìn)行一限制處理、一移轉(zhuǎn)處理以及一資源調(diào)配的至少其中一動(dòng)作。
本發(fā)明另一實(shí)施例提供一種服務(wù)器資源的管理系統(tǒng),包括多個(gè)服務(wù)器、多個(gè)虛擬機(jī)器以及一管理裝置。虛擬機(jī)器分別設(shè)置在服務(wù)器中。管理裝置通過一網(wǎng)絡(luò)耦接于服務(wù)器,包括一資源狀態(tài)監(jiān)測器、一異常分析與判斷器以及一資源調(diào)配器。資源狀態(tài)監(jiān)測器耦接服務(wù)器,用以收集服務(wù)器內(nèi)各資源的各效能監(jiān)測數(shù)據(jù)及虛擬機(jī)器內(nèi)的運(yùn)行狀態(tài)數(shù)據(jù)。異常分析與判斷器耦接資源狀態(tài)監(jiān)測器,用于分析收集的運(yùn)行狀態(tài)數(shù)據(jù)及效能監(jiān)測數(shù)據(jù),以判斷虛擬機(jī)器內(nèi)是否有效能異常的虛擬機(jī)器,并在判斷有效能異常的虛擬機(jī)器時(shí),自動(dòng)發(fā)出一觸發(fā)信號。資源調(diào)配器耦接異常分析與判斷器,相應(yīng)觸發(fā)信號,自動(dòng)對效能異常的虛擬機(jī)器執(zhí)行一處理,其中處理包括對效能異常的虛擬機(jī)器進(jìn)行一限制處理、一移轉(zhuǎn)處理以及一資源調(diào)配的至少其中一動(dòng)作。
本發(fā)明的方法可經(jīng)由本發(fā)明的系統(tǒng)來實(shí)作,其為可執(zhí)行特定功能的硬件或固件,也可以通過程序代碼方式收錄于一記錄介質(zhì)中,并結(jié)合特定硬件來實(shí)作。當(dāng)程序代碼被電子裝置、處理器、計(jì)算機(jī)或機(jī)器載入且執(zhí)行時(shí),電子裝置、處理器、計(jì)算機(jī)或機(jī)器變成用以實(shí)行本發(fā)明的裝置或系統(tǒng)。
附圖說明
圖1顯示本發(fā)明一實(shí)施例的服務(wù)器資源的管理動(dòng)態(tài)資源管理系統(tǒng)的示意圖。
圖2顯示本發(fā)明一實(shí)施例的服務(wù)器資源的管理方法的流程圖。
圖3顯示本發(fā)明一實(shí)施例的資源分區(qū)的示意圖。
圖4顯示本發(fā)明一實(shí)施例的移轉(zhuǎn)處理的示意圖。
圖5A與圖5B顯示本發(fā)明另一實(shí)施例的動(dòng)態(tài)資源管理方法的示意圖。
【符號說明】
10~服務(wù)器資源的管理系統(tǒng);
100~虛擬機(jī)器群組;
102、104、106、108、110~虛擬機(jī)器;
202、204、206、208~服務(wù)器;
300~網(wǎng)絡(luò);
400~管理裝置;
402~資源狀態(tài)監(jiān)測器;
404~異常分析與判斷器;
406~資源調(diào)配器;
408~數(shù)據(jù)庫;
S202、S204、S206~執(zhí)行步驟;
P1、P2、P3~資源分區(qū);以及
S502、S504、…、S532~執(zhí)行步驟。
具體實(shí)施方式
為使本發(fā)明的上述和其他目的、特征、和優(yōu)點(diǎn)能更明顯易懂,下文特舉出優(yōu)選實(shí)施例,并配合附圖,作詳細(xì)說明如下。注意的是,本章節(jié)所敘述的是實(shí)施本發(fā)明的最佳方式,目的在于說明本發(fā)明的精神而非用以限定本發(fā)明的保護(hù)范圍,應(yīng)理解下列實(shí)施例可經(jīng)由軟件、硬件、固件、或上述任意組合來實(shí)現(xiàn)。
本發(fā)明實(shí)施例提供一種服務(wù)器資源的管理系統(tǒng)及其服務(wù)器資源的管理方法,可通過監(jiān)測與處置方式,收集服務(wù)器與虛擬機(jī)器的各項(xiàng)數(shù)據(jù),當(dāng)出現(xiàn)異常時(shí),依照虛擬機(jī)器運(yùn)行服務(wù)與虛擬分區(qū)搭配運(yùn)行資源的比重為依據(jù),自動(dòng)完成后續(xù)自動(dòng)化處理例如限制與移轉(zhuǎn)等操作,以全自動(dòng)方式降低人為操作錯(cuò)誤排除或處理時(shí)間的延宕,可達(dá)到有效管理與有效降低處理過程延誤所造成的損失影響。
圖1顯示本發(fā)明一實(shí)施例的服務(wù)器資源的管理系統(tǒng)10的示意圖。如圖1所示,服務(wù)器資源的管理系統(tǒng)10(以下簡稱管理系統(tǒng)10)包括至少一虛擬機(jī)器群組100、多臺(tái)服務(wù)器202、204、206及208以及一管理裝置400。虛擬機(jī)器群組100包括多個(gè)虛擬機(jī)器102、104、106、108、110,其中每一虛擬機(jī)器可執(zhí)行一至數(shù)個(gè)運(yùn)算程序或應(yīng)用程序以運(yùn)行或提供特定的服務(wù)。其中,虛擬 機(jī)器102、104、106、108、110分別配置在服務(wù)器202、204、206及208之中且每一虛擬機(jī)器可分別對應(yīng)至其中一服務(wù)器來運(yùn)行,而每一服務(wù)器可包括一或多個(gè)虛擬機(jī)器。舉例來說,在一實(shí)施例中,虛擬機(jī)器102可配置在服務(wù)器202上,虛擬機(jī)器104可配置在服務(wù)器204上,虛擬機(jī)器106可配置在服務(wù)器206及虛擬機(jī)器108與110可配置在服務(wù)器208上,但本發(fā)明并不限于此。具體來說,虛擬機(jī)器102配置在服務(wù)器202上表示虛擬機(jī)器102會(huì)在服務(wù)器202上啟動(dòng)并利用服務(wù)器202上的各項(xiàng)系統(tǒng)資源如處理器、存儲(chǔ)器等運(yùn)行指定的服務(wù)或應(yīng)用程序。服務(wù)器202、204、206及208可通過一物理網(wǎng)絡(luò)300例如有線網(wǎng)絡(luò)如互聯(lián)網(wǎng)和/或無線網(wǎng)絡(luò)例如寬帶碼分多工接入系統(tǒng)(WCDMA)網(wǎng)絡(luò)、3G網(wǎng)絡(luò)、無線局域網(wǎng)絡(luò)(WLAN)、藍(lán)牙網(wǎng)絡(luò)等等各種無線網(wǎng)絡(luò)來連線至管理裝置400,用以與管理裝置400執(zhí)行彼此之間的通信與數(shù)據(jù)傳輸。
管理裝置400可用以通過網(wǎng)絡(luò)300對服務(wù)器202、204、206及208進(jìn)行各項(xiàng)管理,包括如收集各服務(wù)器內(nèi)的各項(xiàng)效能監(jiān)測數(shù)據(jù)以及各虛擬機(jī)器的運(yùn)行狀態(tài)、分配虛擬機(jī)器的位置等等。舉例來說,效能監(jiān)測數(shù)據(jù)可包括軟硬件的效能監(jiān)控、設(shè)備異常監(jiān)控或者是數(shù)據(jù)安全例如虛擬機(jī)器CPU、存儲(chǔ)器與硬盤讀寫等效能等,虛擬機(jī)器的運(yùn)行狀態(tài)則用以表示虛擬機(jī)器的運(yùn)作情形。詳細(xì)的效能監(jiān)測數(shù)據(jù)以及虛擬機(jī)器的運(yùn)行狀態(tài)與分配細(xì)節(jié)將在下進(jìn)行說明。管理裝置400包括至少一資源狀態(tài)監(jiān)測器402、一異常分析與判斷器404、一資源調(diào)配器406以及一數(shù)據(jù)庫408。資源狀態(tài)監(jiān)測器402耦接虛擬機(jī)器102-110,可用以收集所有服務(wù)器202-208內(nèi)與虛擬機(jī)器102-110內(nèi)的各項(xiàng)所需數(shù)據(jù)。異常分析與判斷器404耦接資源狀態(tài)監(jiān)測器402,可用于對資源狀態(tài)監(jiān)測器402所收集到的數(shù)據(jù)進(jìn)行分析并進(jìn)行異常判斷。資源調(diào)配器406耦接異常分析與判斷器404,可在異常分析與判斷器404判斷出有異常發(fā)生時(shí),自動(dòng)對異常的虛擬機(jī)器執(zhí)行指定的后續(xù)處理。數(shù)據(jù)庫408可用以存儲(chǔ)各項(xiàng)數(shù)據(jù),例如欲監(jiān)測的資源項(xiàng)目數(shù)據(jù)、產(chǎn)品知識(shí)數(shù)據(jù)以及包括異常的觸發(fā)條件定義的異常診斷規(guī)則數(shù)據(jù),用以提供作為數(shù)據(jù)收集與異常判斷的準(zhǔn)則,以供異常判斷與處理器404根據(jù)收集到的運(yùn)行狀態(tài)數(shù)據(jù)及效能監(jiān)測數(shù)據(jù)判斷虛擬機(jī)器內(nèi)是否有效能異常的虛擬機(jī)器。具體來說,管理裝置400可控制資源狀態(tài)監(jiān)測器402、一異常分析與判斷器404以及資源調(diào)配器406的運(yùn)作來執(zhí)行本申請的服務(wù)器資源的管理方法,其細(xì)節(jié)將在后進(jìn)行說明。
然而,本領(lǐng)域技術(shù)人員應(yīng)可理解本發(fā)明并不限于此。例如,管理系統(tǒng)10亦能包括多個(gè)虛擬機(jī)器群組,其中每一虛擬機(jī)器群組皆具有對應(yīng)的資源狀態(tài)監(jiān)測器以及多個(gè)虛擬機(jī)器,管理裝置也可設(shè)置在服務(wù)器202-208的其中一臺(tái)或設(shè)置為另一臺(tái)獨(dú)立的服務(wù)器。此外,服務(wù)器的數(shù)目與虛擬機(jī)器的數(shù)目也可依實(shí)際需求與架構(gòu)任意調(diào)整。本領(lǐng)域技術(shù)人員應(yīng)可理解本發(fā)明的管理裝置400、資源狀態(tài)監(jiān)測器402、異常分析與判斷器404以及資源調(diào)配器406等元件可具有足夠的硬件電路、元件和/或配合的軟件、固件及其組合來實(shí)現(xiàn)各項(xiàng)所需的功能。
圖2顯示一依據(jù)本發(fā)明實(shí)施例的服務(wù)器資源的管理方法的流程圖。請同時(shí)參照圖1與圖2。依據(jù)本發(fā)明實(shí)施例的服務(wù)器資源的管理方法可以適用于圖1的管理系統(tǒng)10,可用以藉由管理裝置400遠(yuǎn)端管理各服務(wù)器與各虛擬機(jī)器。
在步驟S202中,資源狀態(tài)監(jiān)測器402周期性地收集各服務(wù)器內(nèi)各資源的效能監(jiān)測數(shù)據(jù)及各虛擬機(jī)器的運(yùn)行狀態(tài)數(shù)據(jù)。舉例來說,資源狀態(tài)監(jiān)測器402可針對服務(wù)器內(nèi)各資源的效能及各虛擬機(jī)器的運(yùn)行狀態(tài)提供基本的監(jiān)控,例如:包含虛擬機(jī)器處理器的使用率(VM CPU Usage)、存儲(chǔ)器使用壓力(Memory Usage Pressure)、每秒硬盤讀寫的數(shù)據(jù)量(Disk Read/Write Data per Second)與網(wǎng)絡(luò)每秒發(fā)收的數(shù)據(jù)量(Network Sent/Received Data per Second)、特定應(yīng)用程序的存儲(chǔ)器使用空間監(jiān)控,如:MySQL DB的存儲(chǔ)器使用量等,通過資源監(jiān)控機(jī)制取得數(shù)據(jù)后存入數(shù)據(jù)庫408中,以完成監(jiān)控?cái)?shù)據(jù)的收集。在一實(shí)施例中,數(shù)據(jù)庫408可事先存儲(chǔ)有監(jiān)控?cái)?shù)據(jù),用以定義要監(jiān)控那些項(xiàng)目以及那些狀態(tài)等,資源狀態(tài)監(jiān)測器402則依據(jù)此資源狀態(tài)監(jiān)測器402可針對服務(wù)器內(nèi)各資源的效能及各虛擬機(jī)器的運(yùn)行狀態(tài)收集服務(wù)器內(nèi)的效能監(jiān)測數(shù)據(jù)及各虛擬機(jī)器內(nèi)的運(yùn)行狀態(tài)數(shù)據(jù)。在另一實(shí)施例中,為確保監(jiān)控軟件與其監(jiān)控項(xiàng)目的支持可進(jìn)行彈性擴(kuò)充,本發(fā)明更提供匯入產(chǎn)品知識(shí)程序庫的擴(kuò)充方式來提供監(jiān)控?cái)?shù)據(jù),通過簡易操作管理組件的匯入,可將監(jiān)控軟件的監(jiān)控項(xiàng)目、監(jiān)控目標(biāo)與數(shù)值單位如監(jiān)控虛擬機(jī)器心跳率(Heartbeat)、網(wǎng)絡(luò)異常分組與CPU溫度檢測等等數(shù)據(jù)提供給資源狀態(tài)監(jiān)測器402,使資源狀態(tài)監(jiān)測器依匯入的監(jiān)控信息進(jìn)行管理系統(tǒng)10中的監(jiān)控項(xiàng)目收集。
在步驟S204中,異常分析與判斷器404分析收集到的運(yùn)行狀態(tài)數(shù)據(jù)及效能監(jiān)測數(shù)據(jù),據(jù)此判斷虛擬機(jī)器內(nèi)是否有效能異常的虛擬機(jī)器,并在判斷有 效能異常的虛擬機(jī)器時(shí),自動(dòng)發(fā)出一觸發(fā)信號。具體來說,數(shù)據(jù)庫408中可預(yù)先設(shè)定有調(diào)節(jié)設(shè)定定義數(shù)據(jù),異常分析與判斷器404可依據(jù)調(diào)節(jié)設(shè)定定義數(shù)據(jù),得到異常的觸發(fā)條件以調(diào)節(jié)異常判斷。調(diào)節(jié)設(shè)定定義數(shù)據(jù)用以定義異常事件的觸發(fā)條件,可針對每個(gè)監(jiān)測項(xiàng)目設(shè)定一觸發(fā)條件,例如可對監(jiān)測的虛擬機(jī)器的基本效能包括虛擬機(jī)器CPU使用率(VM CPU Usage)、存儲(chǔ)器使用壓力(Memory Usage Pressure)、每秒硬盤讀寫的數(shù)據(jù)量(Disk Read/Write Data per Second)與網(wǎng)絡(luò)每秒發(fā)收的數(shù)據(jù)量(Network Sent/Received Data per Second)等設(shè)定一上限值,當(dāng)發(fā)現(xiàn)其中某一項(xiàng)目達(dá)到上限值,便表示發(fā)生效能異常。例如,當(dāng)虛擬機(jī)器的網(wǎng)絡(luò)發(fā)送流量超過多少M(fèi)bps并且持續(xù)幾分鐘時(shí)會(huì)占用服務(wù)器過多流量,進(jìn)而導(dǎo)致其他虛擬機(jī)器服務(wù)中斷時(shí)可判斷為效能異常。在一實(shí)施例中,假設(shè)效能監(jiān)測數(shù)據(jù)包括各服務(wù)器的整體與CPU溫度、硬盤空間與健康狀態(tài),則當(dāng)一服務(wù)器的CPU溫度高于一上限度數(shù)(例如:超過50度以上)或者硬盤健康狀態(tài)異常(例如:硬盤壞軌數(shù)超過10個(gè))時(shí),即判定異常,此時(shí)異常分析與判斷器404可認(rèn)定該服務(wù)器須進(jìn)行維修而不再運(yùn)行任何虛擬機(jī)器。當(dāng)某一虛擬機(jī)器運(yùn)行的資源不足夠或其觸發(fā)條件已符合時(shí),異常分析與判斷器404可判定其為效能異常的虛擬機(jī)器,并且在判定有效能異常的虛擬機(jī)器時(shí),自動(dòng)發(fā)出一觸發(fā)信號。此觸發(fā)信號將發(fā)送至資源調(diào)配器406。
當(dāng)收到異常分析與判斷器404所發(fā)出的觸發(fā)信號時(shí),在步驟S206中,資源調(diào)配器406相應(yīng)觸發(fā)信號,自動(dòng)執(zhí)行限制處理、移轉(zhuǎn)處理、資源調(diào)配的至少其中之一動(dòng)作。具體來說,資源調(diào)配器406可依據(jù)管理者預(yù)先定義的觸發(fā)資源調(diào)節(jié)的條件,提供主動(dòng)告警與虛擬機(jī)器移轉(zhuǎn)機(jī)制,依照現(xiàn)行資源使用與服務(wù)器效能配合資源使用權(quán)重的概念來進(jìn)行后續(xù)的處理,亦即,選擇性執(zhí)行限制處理、移轉(zhuǎn)處理、資源調(diào)配等動(dòng)作,以完成自動(dòng)化調(diào)節(jié)資源的目標(biāo)。其中,限制處理對該效能異常的虛擬機(jī)器進(jìn)行資源限制的動(dòng)作,移轉(zhuǎn)處理將效能異常的虛擬機(jī)器搬移至一移轉(zhuǎn)服務(wù)器運(yùn)行,資源調(diào)配對效能異常的虛擬機(jī)器進(jìn)行資源調(diào)配的動(dòng)作。
針對限制處理,資源調(diào)配器406會(huì)自動(dòng)判斷效能異常的虛擬機(jī)器的類型,并依據(jù)其類型,進(jìn)行資源的限制,設(shè)定資源使用的上限值。例如,若該虛擬機(jī)器屬于可限制流量的機(jī)器,當(dāng)異常發(fā)生時(shí),可對流量作上下限的設(shè)定,例如可針對硬盤設(shè)定每秒的讀寫次數(shù)(Input/Output Operations Per Second,IOPS)與網(wǎng)絡(luò)流量設(shè)定服務(wù)質(zhì)量參數(shù)(QoS),限制流量的上限值,確保不會(huì)影響到該 服務(wù)器上的其他虛擬機(jī)器。其中,IOPS表示計(jì)算機(jī)存儲(chǔ)裝置(如硬盤(HDD)、固態(tài)硬盤(SSD)或存儲(chǔ)局域網(wǎng)絡(luò)(SAN))的效能測試的測量方式,單位為每秒的讀寫次數(shù)。
在一實(shí)施例中,資源調(diào)配器406進(jìn)行移轉(zhuǎn)處理自效能異常的虛擬機(jī)器所在的服務(wù)器(例如:服務(wù)器202)以外的服務(wù)器中,找出一移轉(zhuǎn)服務(wù)器(例如:服務(wù)器204)以及將效能異常的虛擬機(jī)器移轉(zhuǎn)至移轉(zhuǎn)服務(wù)器上運(yùn)行。具體來說,資源調(diào)配器406可持續(xù)檢測觸發(fā)信號中所表示的異常項(xiàng)目,異常項(xiàng)目持續(xù)發(fā)生例如當(dāng)虛擬機(jī)器面對突發(fā)的效能需求持續(xù)的發(fā)生如CPU使用率持續(xù)超過80%會(huì)判定為異常,自動(dòng)觸發(fā)移轉(zhuǎn)機(jī)制,判定該虛擬機(jī)器運(yùn)行的服務(wù),依據(jù)該虛擬機(jī)器的運(yùn)算資源需求從剩余的服務(wù)器中找出一最佳的移轉(zhuǎn)服務(wù)器,以確保運(yùn)行效能。
在一實(shí)施例中,資源調(diào)配器406進(jìn)行資源調(diào)配針對效能異常的虛擬機(jī)器所在的服務(wù)器進(jìn)行資源調(diào)配的動(dòng)作。舉例來說,假設(shè)效能異常的虛擬機(jī)器在服務(wù)器202上運(yùn)行,則資源調(diào)配器406可重新分配服務(wù)器202上的其他虛擬機(jī)器的運(yùn)行資源,以使效能異常的虛擬機(jī)器重新獲得足夠的運(yùn)行資源。
在一些實(shí)施例中,為了使虛擬機(jī)器運(yùn)作效能與物理機(jī)器(例如:服務(wù)器)可運(yùn)作的虛擬機(jī)器數(shù)目上取得平衡,本發(fā)明更提供關(guān)于資源分區(qū)設(shè)定管理機(jī)制。資源分區(qū)設(shè)定管理依資源使用需求,建立數(shù)個(gè)資源分區(qū),再對每個(gè)資源分區(qū)分別設(shè)定不同的觸發(fā)條件。資源調(diào)配器406可參考資源分區(qū)設(shè)定管理,依據(jù)資源權(quán)重與效能需求,建立多個(gè)資源分區(qū),并依據(jù)效能異常的虛擬機(jī)器所在的資源分區(qū)信息進(jìn)行上述處理。資源分區(qū)信息會(huì)記錄每個(gè)虛擬機(jī)器是在那個(gè)資源分區(qū)中。
舉例來說,參見圖3,顯示本發(fā)明一實(shí)施例的資源分區(qū)的示意圖。如圖3,資源分區(qū)可分為高可用性資源區(qū)P1、標(biāo)準(zhǔn)可用性區(qū)P2與節(jié)能分區(qū)P3,其中,服務(wù)器202與虛擬機(jī)器102屬于高可用性資源區(qū)P1,服務(wù)器204、206與虛擬機(jī)器104與106屬于標(biāo)準(zhǔn)可用性區(qū)P2,服務(wù)器208與虛擬機(jī)器108與116則屬于節(jié)能分區(qū)P3。每分區(qū)P1-P3具有不同的資源調(diào)節(jié)設(shè)定,會(huì)對資源調(diào)節(jié)設(shè)定上下限,如網(wǎng)絡(luò)I/O讀取不超過10GB等,并且每個(gè)資源分區(qū)對異常事件觸發(fā)的定義都有不同的容忍范圍。舉例來說,高可用性資源區(qū)P1可用以提供一般虛擬機(jī)器運(yùn)行,其服務(wù)器的硬盤采用叢集的設(shè)定,并且要求資源(例如:CPU、存儲(chǔ)器與網(wǎng)絡(luò)讀寫流量)較為平均,但對于CPU與存儲(chǔ)器的要求會(huì)優(yōu) 于硬盤I/O效能。此外,若虛擬機(jī)器運(yùn)行網(wǎng)絡(luò)相關(guān)服務(wù),其網(wǎng)絡(luò)I/O特別要求,如運(yùn)行網(wǎng)頁、DHCP或Active Directory(AD)網(wǎng)域服務(wù)等,故像這類型的服務(wù)器在做數(shù)據(jù)調(diào)整時(shí),不能過于集中在同一服務(wù)器上,且服務(wù)器上運(yùn)行的虛擬機(jī)器不能過多。
標(biāo)準(zhǔn)可用性區(qū)P2的服務(wù)器的硬盤則不采用叢集的設(shè)定,每臺(tái)服務(wù)器彼此獨(dú)立運(yùn)行,因此服務(wù)器的硬盤I/O不會(huì)彼此影響,其較叢集區(qū)更適合硬盤I/O的效能優(yōu)先的服務(wù),尤其為運(yùn)行數(shù)據(jù)庫(Database)的虛擬機(jī)器的硬盤高I/O需求。
節(jié)能分區(qū)P3則依據(jù)一節(jié)能策略或節(jié)能規(guī)則,對節(jié)能分區(qū)P3中的服務(wù)器進(jìn)行節(jié)能控制。舉例來說,在一實(shí)施例中,節(jié)能策略可包括在一指定時(shí)間中(例如:晚上時(shí)),將節(jié)能分區(qū)P3中的虛擬機(jī)器集中至少數(shù)臺(tái)服務(wù)器中運(yùn)行,以達(dá)到節(jié)能目的。具體來說,資源調(diào)配器406可將對白天有特別的效能需求或其效能或運(yùn)算需求會(huì)較晚上高的虛擬機(jī)器,例如:虛擬機(jī)器服務(wù)的備援或提供虛擬桌面基礎(chǔ)(Virtual Desktop Infra-structure,VDI)服務(wù)的虛擬機(jī)器,將其通過移轉(zhuǎn)方式集中在節(jié)能分區(qū)P3,依管理者設(shè)定的固定時(shí)間,將未運(yùn)行虛擬機(jī)器的服務(wù)器進(jìn)行自動(dòng)暫?;驕p少流量與硬盤存取的數(shù)量,達(dá)到節(jié)能目的。舉例來說,在節(jié)能分區(qū)P3的服務(wù)器中運(yùn)行的虛擬機(jī)器對白天對運(yùn)算資源的需求較高,晚上對運(yùn)算資源的需求較低,因此在晚上的時(shí)候,資源調(diào)配器406可自動(dòng)將節(jié)能分區(qū)P3中的虛擬機(jī)器集中在某幾臺(tái)服務(wù)器上,讓該分區(qū)其它服務(wù)器進(jìn)入休眠狀態(tài),以節(jié)省電源。
異常分析與判斷器404可依數(shù)據(jù)庫408中的資源設(shè)定定義數(shù)據(jù)與資源分區(qū)管理設(shè)定數(shù)據(jù),例如:虛擬機(jī)器使用目的與安裝的虛擬機(jī)器內(nèi)的應(yīng)用程序類型,以及配合調(diào)節(jié)設(shè)定定義所判定的健康情況,判定各虛擬機(jī)器是否為異常,并自動(dòng)判斷異異常項(xiàng)目持續(xù)時(shí)間,當(dāng)異常發(fā)生,且重復(fù)次數(shù)與持續(xù)時(shí)間超出預(yù)期值時(shí),會(huì)自動(dòng)發(fā)出觸發(fā)信號或開啟告警通知。
資源調(diào)配器406會(huì)再依異常狀況,提供前述自動(dòng)處理方式。具體來說,資源調(diào)配器406會(huì)依據(jù)異常判斷結(jié)果,進(jìn)行三種處理模式。第一種處理為限制處理,在虛擬機(jī)器突然異常的情況下,有可能是受攻擊導(dǎo)致數(shù)據(jù)處理流量突然變多,即時(shí)的對數(shù)據(jù)流量設(shè)定限制,以保護(hù)其它虛擬機(jī)器可運(yùn)作正常。在一實(shí)施例中,資源調(diào)配器406可在同一資源分區(qū)進(jìn)行上述限制處理。第二種處理為移轉(zhuǎn)處理,針對持續(xù)發(fā)生的異?,F(xiàn)象,重新分配分區(qū)與選擇適當(dāng)?shù)? 服務(wù)器,相反地,針對不符合該分區(qū)要求的虛擬機(jī)器,重新分配到適合分區(qū)與適當(dāng)?shù)姆?wù)器。第三種處理為資源調(diào)配,可在同一分區(qū)內(nèi),進(jìn)行資源調(diào)整。
在一實(shí)施例中,資源調(diào)配器406進(jìn)行限制處理限制效能異常的虛擬機(jī)器的至少一資源使用并在再次檢測到該異常解除后,解除效能異常的虛擬機(jī)器的資源使用的限制。在一些實(shí)施例中,資源調(diào)配器406進(jìn)行限制處理將效能異常的虛擬機(jī)器的運(yùn)行參數(shù)自一第一運(yùn)行參數(shù)調(diào)整為一第二運(yùn)行參數(shù),并在再次檢測到異常解除后,還原效能異常的虛擬機(jī)器的運(yùn)行參數(shù)為第一運(yùn)行參數(shù)。藉由上述的運(yùn)行參數(shù)調(diào)整,可對效能異常的虛擬機(jī)器的服務(wù)器提供特定資源使用上的限制,以保護(hù)服務(wù)器,使其能正常運(yùn)行其他虛擬機(jī)器。舉例來說,資源調(diào)配器406可自動(dòng)判斷效能異常的虛擬機(jī)器的類型與所在的資源分區(qū)設(shè)定,若該虛擬機(jī)器屬于可限制流量的機(jī)器,當(dāng)異常發(fā)生時(shí),可依前述方式進(jìn)行限制處理,對其使用資源例如流量作上下限的設(shè)定,以確保不會(huì)影響到該服務(wù)器上的其他虛擬機(jī)器。藉此,當(dāng)運(yùn)行網(wǎng)絡(luò)服務(wù)的虛擬機(jī)器受到網(wǎng)絡(luò)攻擊造成突發(fā)性的大量網(wǎng)絡(luò)流量時(shí),可通過設(shè)定IOPS與QoS來限制網(wǎng)絡(luò)流量,等到預(yù)設(shè)的等待時(shí)間過后,若判斷已恢復(fù)正常再自動(dòng)恢復(fù)成原來的IOPS與QoS設(shè)定,可避免整個(gè)系統(tǒng)遭到惡意破壞或駭客攻擊。
在一實(shí)施例中,資源調(diào)配器406更在進(jìn)行移轉(zhuǎn)處理時(shí),依據(jù)效能異常的虛擬機(jī)器的運(yùn)行服務(wù)類型及運(yùn)行所需資源,決定優(yōu)先移轉(zhuǎn)至該等資源分區(qū)中的那個(gè)資源分區(qū)。舉例來說,針對移轉(zhuǎn)處理,資源調(diào)配器406可自動(dòng)依于虛擬機(jī)器面對突發(fā)的效能需求持續(xù)的發(fā)生,自動(dòng)觸發(fā)移轉(zhuǎn)機(jī)制。例如,當(dāng)某一虛擬機(jī)器的CPU使用率持續(xù)超過80%則判定為效能異常的虛擬機(jī)器,須做移轉(zhuǎn)以去確保運(yùn)行效能,代表該虛擬機(jī)有高運(yùn)算需求,則第一步可先判定該虛擬機(jī)器運(yùn)行的服務(wù),適合運(yùn)行于高可用性分區(qū)P1(亦即:網(wǎng)絡(luò)流量I/O優(yōu)先)或標(biāo)準(zhǔn)可用分區(qū)P2(亦即:硬盤I/O優(yōu)先),再依以下的運(yùn)算公式取得該分區(qū)整體分?jǐn)?shù)最高的服務(wù)器作為最佳的移轉(zhuǎn)服務(wù)器:
項(xiàng)目分?jǐn)?shù)=服務(wù)器資源權(quán)重*資源閾值*效能比例;
整體分?jǐn)?shù)=CPU項(xiàng)目分?jǐn)?shù)+存儲(chǔ)器項(xiàng)目分?jǐn)?shù)+硬盤項(xiàng)目分?jǐn)?shù)+網(wǎng)絡(luò)流量項(xiàng)目分?jǐn)?shù),
其中,服務(wù)器資源權(quán)重依據(jù)服務(wù)器各項(xiàng)資源(硬件設(shè)備)的效能事先設(shè)定一權(quán)重,效能越高的資源可設(shè)定更高的權(quán)重。舉例來說,以硬盤讀寫效能為例,SAS優(yōu)于SATA再優(yōu)于IDE,網(wǎng)絡(luò)流量為10Gbps網(wǎng)卡帶寬較1Gbps和100Mbps 可提供更快得網(wǎng)絡(luò)收發(fā)流量,故SAS的硬盤的權(quán)重會(huì)高于SATA的。資源閾值為虛擬機(jī)器異常的資源,例如:虛擬機(jī)器CPU使用率過高,故移轉(zhuǎn)的服務(wù)器在其余資源滿足運(yùn)行需求下,須能提供更好得CPU效能,若為服務(wù)器異常,則該項(xiàng)為1。效能比例為該服務(wù)器自身運(yùn)行的效能,其運(yùn)算公式為:
舉例來說,假設(shè)三臺(tái)服務(wù)器的CPU使用率分別為60%、70%與80%時(shí),則三臺(tái)服務(wù)器的效能比例為1+(80-60)/80=1.25、1+(80-70)/80=1.125、以及1+(80-80)/80=1。之后,資源調(diào)配器406可根據(jù)前述公式的運(yùn)算結(jié)果從剩余的服務(wù)器中找出一最佳的服務(wù)器作為移轉(zhuǎn)服務(wù)器,并將效能異常的虛擬機(jī)器搬移至該移轉(zhuǎn)服務(wù)器上執(zhí)行。關(guān)于移轉(zhuǎn)處理的例子請參見圖4。
圖4顯示一依據(jù)本發(fā)明實(shí)施例的移轉(zhuǎn)處理的示意圖。如圖4所示,一開始時(shí),虛擬機(jī)器102與104配置在服務(wù)器202上,虛擬機(jī)器108與110可配置在服務(wù)器204上。假設(shè)虛擬機(jī)器102的CPU使用率持續(xù)超過80%超過一段既定時(shí)間,則異常分析與判斷器404將判定虛擬機(jī)器102為效能異常的虛擬機(jī)器并發(fā)出觸發(fā)信號,使資源調(diào)配器406相應(yīng)觸發(fā)信號中的異常項(xiàng)目數(shù)據(jù)判定須做移轉(zhuǎn)以去確保運(yùn)行效能,因此資源調(diào)配器406便根據(jù)前述運(yùn)算公式找出適合進(jìn)行移轉(zhuǎn)的服務(wù)器,在此例中為服務(wù)器204,并且將虛擬機(jī)器102移轉(zhuǎn)至服務(wù)器204上。
在一實(shí)施例中,資源調(diào)配器406可在將效能異常的虛擬機(jī)器移轉(zhuǎn)至移轉(zhuǎn)服務(wù)器上運(yùn)行之后,等待一既定等待時(shí)間,并在既定等待時(shí)間過后,判斷效能異常的虛擬機(jī)器是否恢復(fù)正常。當(dāng)虛擬機(jī)器移轉(zhuǎn)完成之后,資源調(diào)配器406可更進(jìn)一步進(jìn)行一網(wǎng)絡(luò)確認(rèn)的機(jī)制與進(jìn)行停止處置的等待時(shí)間設(shè)定,例如:網(wǎng)絡(luò)確認(rèn)機(jī)制包括VLan、IP Ping與服務(wù)Port的確認(rèn),以確保移轉(zhuǎn)后的網(wǎng)絡(luò)正常,此外,為減少移轉(zhuǎn)后效能降至正常而造成再次運(yùn)算進(jìn)行移轉(zhuǎn),導(dǎo)致環(huán)境出現(xiàn)多余且無意義的移轉(zhuǎn)操作,反而影響服務(wù)器間整體效能,故等待自動(dòng)化移轉(zhuǎn)完成后則進(jìn)行停止處置的等待時(shí)間,例如:預(yù)設(shè)為1小時(shí),這段等待時(shí)間中將只做效能監(jiān)控而不執(zhí)行預(yù)先定義的異常處理機(jī)制。
圖5A及圖5B是以流程圖舉例說明管理系統(tǒng)10的服務(wù)器資源的管理方法。
首先,在步驟S502中,資源狀態(tài)監(jiān)測器402與異常分析與判斷器404分 別自數(shù)據(jù)庫408取得監(jiān)控?cái)?shù)據(jù)與觸發(fā)條件;接著,在步驟S504中,資源狀態(tài)監(jiān)測器402依據(jù)監(jiān)控?cái)?shù)據(jù)中所表示的欲監(jiān)測項(xiàng)目,收集各服務(wù)器內(nèi)各資源的效能監(jiān)測數(shù)據(jù)及各虛擬機(jī)器的運(yùn)行狀態(tài)數(shù)據(jù);在步驟S506中,異常分析與判斷器404分析資源狀態(tài)監(jiān)測器402所收集到的各項(xiàng)數(shù)據(jù)并與步驟S502中所取得的觸發(fā)條件進(jìn)行比較,判斷是否有符合的觸發(fā)條件。若是,發(fā)出觸發(fā)信號,進(jìn)入步驟S508;若否,回到步驟S504重新收集數(shù)據(jù)與后續(xù)比對。
在步驟S508中,資源調(diào)配器406準(zhǔn)備進(jìn)行異常處理,先判斷效能異常的虛擬機(jī)器運(yùn)行服務(wù),以得知其資源需求,包括虛擬機(jī)器所在的分區(qū)信息、運(yùn)行服務(wù)的類型與所需資源等等,接著,在步驟S510中,根據(jù)判斷結(jié)果或預(yù)設(shè)的處理機(jī)制,進(jìn)行限制處理或移轉(zhuǎn)處理。當(dāng)判斷結(jié)果為需執(zhí)行步驟S512的限制處理時(shí),進(jìn)入步驟S514至S518;當(dāng)判斷結(jié)果為需執(zhí)行步驟S520的移轉(zhuǎn)處理時(shí),進(jìn)入圖5B所示的步驟S522至S532。
在步驟S514的限制處理流程中,資源調(diào)配器406調(diào)整該效能異常的虛擬機(jī)器的設(shè)定數(shù)據(jù),對其使用資源例如流量作上下限的設(shè)定,例如:調(diào)整IOPS或QoS設(shè)定數(shù)據(jù)來限制網(wǎng)絡(luò)流量;之后,在步驟S516中,資源調(diào)配器406等待一預(yù)設(shè)的等待時(shí)間,例如:1小時(shí),并在等待時(shí)間過后,判斷該虛擬機(jī)器的效能是否已正常。若是,進(jìn)入步驟S518;若否,則回到步驟S514,繼續(xù)虛擬機(jī)器的設(shè)定數(shù)據(jù),重新設(shè)定流量。
在步驟S518中,資源調(diào)配器406判斷該虛擬機(jī)器的效能已恢復(fù)正常,表示異常已排除,便將其虛擬機(jī)器設(shè)定數(shù)據(jù)恢復(fù)為虛擬機(jī)器設(shè)定數(shù)據(jù)的原設(shè)定值,解除流量限制,流程結(jié)束。如此一來,通過對虛擬機(jī)器的使用資源例如流量作上下限的設(shè)定,可確保不會(huì)影響到該服務(wù)器上的其他虛擬機(jī)器的運(yùn)行,并可避免整個(gè)系統(tǒng)遭到惡意破壞或駭客攻擊。
如圖5B所示,在步驟S522的移轉(zhuǎn)處理流程中,資源調(diào)配器406可依據(jù)前述說明的運(yùn)算公式與計(jì)算方式先進(jìn)行權(quán)重與效能指標(biāo)運(yùn)算,計(jì)算出一最佳的移轉(zhuǎn)服務(wù)器。接著,在步驟S524中,資源調(diào)配器406是否有適合的移轉(zhuǎn)服務(wù)器。若是,進(jìn)入步驟S528,準(zhǔn)備進(jìn)行如前述圖4所示的移轉(zhuǎn);若否,進(jìn)入步驟S526,資源調(diào)配器406發(fā)出訊息或信件告警管理者有異常發(fā)生且無合適的服務(wù)器可進(jìn)行移轉(zhuǎn),以通知管理者即時(shí)進(jìn)行后續(xù)處理。
在步驟S528中,資源調(diào)配器406將效能異常的該虛擬機(jī)器轉(zhuǎn)移至最佳的移轉(zhuǎn)服務(wù)器上運(yùn)行。當(dāng)虛擬機(jī)器移轉(zhuǎn)完成之后,接著,在步驟S530中,資源 調(diào)配器406進(jìn)行一網(wǎng)絡(luò)確認(rèn)機(jī)制例如VLan、IP Ping與服務(wù)Port的確認(rèn),以確認(rèn)移轉(zhuǎn)后的網(wǎng)絡(luò)是否為正常。若是,進(jìn)入步驟S532;若否,回到步驟S522,重新從其他服務(wù)器中,依據(jù)權(quán)重與效能指標(biāo)運(yùn)算,計(jì)算出另一最佳的移轉(zhuǎn)服務(wù)器,再執(zhí)行后續(xù)的移轉(zhuǎn)。
在步驟S532中,資源調(diào)配器406進(jìn)行停止處置的等待時(shí)間,等待一預(yù)設(shè)的等待時(shí)間,例如:1小時(shí),這段等待時(shí)間中將只做效能監(jiān)控而不執(zhí)行預(yù)先定義的異常處理機(jī)制,并在等待時(shí)間過后,判斷該虛擬機(jī)器的異常是否已解除。若是,表示移轉(zhuǎn)后異常解除,流程結(jié)束;若否,表示移轉(zhuǎn)后異常仍未解除,回到步驟S522,重新從其他服務(wù)器中,依據(jù)權(quán)重與效能指標(biāo)運(yùn)算,計(jì)算出另一最佳的移轉(zhuǎn)服務(wù)器,再執(zhí)行后續(xù)的移轉(zhuǎn)。如此一來,可減少移轉(zhuǎn)后效能降至正常而造成再次運(yùn)算進(jìn)行移轉(zhuǎn),導(dǎo)致環(huán)境出現(xiàn)多余且無意義的移轉(zhuǎn)操作。
在一些實(shí)施例中,若資源調(diào)配器406分析取得的效能監(jiān)控?cái)?shù)據(jù),發(fā)現(xiàn)該虛擬機(jī)器在使用率較低的時(shí)段(如:白天比晚上有較高的運(yùn)算需求,晚上則是使用率較低的時(shí)段),則資源調(diào)配器406可將其分配至節(jié)能分區(qū)。在節(jié)能分區(qū)內(nèi),資源調(diào)配器406在使用率較低的時(shí)段,自動(dòng)調(diào)節(jié)分區(qū)內(nèi)每臺(tái)服務(wù)器的虛擬機(jī)器運(yùn)行數(shù)量,如:將虛擬機(jī)器集中在某幾臺(tái)服務(wù)器上,并將空閑的服務(wù)器進(jìn)入休眠,等待到使用率較高的時(shí)段,再將虛擬機(jī)器移回合適的服務(wù)器上。
因此,依據(jù)本發(fā)明的服務(wù)器資源的管理系統(tǒng)及其方法,可自動(dòng)收集服務(wù)器與虛擬機(jī)器的各項(xiàng)數(shù)據(jù),并依據(jù)預(yù)設(shè)的觸發(fā)條件進(jìn)行異常判斷,當(dāng)出現(xiàn)異常時(shí),依照虛擬機(jī)器運(yùn)行服務(wù)與虛擬分區(qū)搭配運(yùn)行資源的比重為依據(jù),自動(dòng)完成后續(xù)自動(dòng)化處理,可降低人為操作錯(cuò)誤排除或處理時(shí)間的延宕,達(dá)到有效管理的目的。
本發(fā)明的方法,或特定形態(tài)或其部分,可以以程序代碼的形態(tài)存在。程序代碼可以包含在物理介質(zhì),如軟盤、光盤、硬盤、或是任何其他機(jī)器可讀取(如計(jì)算機(jī)可讀取)存儲(chǔ)介質(zhì),亦或不限于外在形式的計(jì)算機(jī)程序產(chǎn)品,其中,當(dāng)程序代碼被機(jī)器,如計(jì)算機(jī)載入且執(zhí)行時(shí),此機(jī)器變成用以參與本發(fā)明的裝置。程序代碼也可通過一些傳送介質(zhì),如電線或電纜、光纖、或是任何傳輸形態(tài)進(jìn)行傳送,其中,當(dāng)程序代碼被機(jī)器,如計(jì)算機(jī)接收、載入且執(zhí)行時(shí),此機(jī)器變成用以參與本發(fā)明的裝置。當(dāng)在一般用途處理器實(shí)作時(shí),程序代碼結(jié)合處理器提供一操作類似于應(yīng)用特定邏輯電路的獨(dú)特裝置。
雖然本發(fā)明已以優(yōu)選實(shí)施例公開如上,然其并非用以限定本發(fā)明,本領(lǐng)域技術(shù)人員,在不脫離本發(fā)明的精神和范圍內(nèi),當(dāng)可做些許更動(dòng)與潤飾,因此本發(fā)明的保護(hù)范圍當(dāng)視所附權(quán)利要求書界定范圍為準(zhǔn)。