跨云管理和故障查找的制作方法
【專利摘要】本文描述了向應(yīng)用提供橫跨兩個(gè)或更多個(gè)云的能力的云管理系統(tǒng),同時(shí)允許將分布式應(yīng)用作為單個(gè)應(yīng)用來進(jìn)行操作、管理、以及故障查找。該系統(tǒng)提供跨各數(shù)據(jù)中心通信以執(zhí)行并對(duì)應(yīng)用的在不同的位置處運(yùn)行的各實(shí)例的知識(shí)進(jìn)行集中的基礎(chǔ)結(jié)構(gòu)。該系統(tǒng)所提供的基礎(chǔ)結(jié)構(gòu)監(jiān)視該應(yīng)用和各云之間的連接,具有知道問題是否處于應(yīng)用內(nèi)或是因?yàn)楦髟浦g的連接的智能。該系統(tǒng)協(xié)調(diào)跨多個(gè)云平臺(tái)/位置的管理功能。因而,該云管理系統(tǒng)創(chuàng)建跨多個(gè)云的單個(gè)監(jiān)視和故障查找接口和知識(shí)以及執(zhí)行結(jié)構(gòu),使得分布在多個(gè)云的各應(yīng)用可被更容易地監(jiān)視、管理以及調(diào)試。
【專利說明】跨云管理和故障查找
【背景技術(shù)】
[0001 ] 數(shù)據(jù)中心提供用于運(yùn)行大型應(yīng)用的服務(wù)器。企業(yè)通常使用數(shù)據(jù)中心來運(yùn)行核心業(yè)務(wù)功能,諸如銷售、營銷、人力資源、記賬、產(chǎn)品目錄等。數(shù)據(jù)中心還可以運(yùn)行諸如網(wǎng)站、web服務(wù)、電子郵件主機(jī)、數(shù)據(jù)庫等面向顧客的應(yīng)用,以及許多其他應(yīng)用。數(shù)據(jù)中心通常是通過確定預(yù)期峰值負(fù)載并提供服務(wù)器、網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu)、冷卻和其他資源以處理峰值負(fù)載水平來構(gòu)建的。數(shù)據(jù)中心非常昂貴且在非峰值時(shí)間未被充分利用是公知的。就用于監(jiān)視和執(zhí)行對(duì)數(shù)據(jù)中心的維護(hù)的裝備和人員兩者而言,數(shù)據(jù)中心還涉及相對(duì)高的管理費(fèi)用。由于幾乎每一公司都使用某種數(shù)據(jù)中心,因此存在跨世界的組織所執(zhí)行的許多冗余功能。
[0002]出現(xiàn)了云計(jì)算作為傳統(tǒng)數(shù)據(jù)中心的一種優(yōu)化。云被定義成通過網(wǎng)絡(luò)可用的、可針對(duì)企業(yè)的至少一些傳統(tǒng)數(shù)據(jù)中心功能提供服務(wù)的資源集(例如,處理、存儲(chǔ)或其他資源)。云通常涉及抽象層,使得云的應(yīng)用和用戶可能不知道在其中運(yùn)行應(yīng)用的具體硬件、該硬件位于何處等。這允許云運(yùn)營商在使資源交替進(jìn)出服務(wù)、維護(hù)等方面而言的某種附加的自由度。云可以包括公共云(諸如MICROSOFT TM Azure>Amazon Web Services及其他),以及私有云(諸如由Eucalyptus Systems'MICROSOFT TM及其他所提供的那些云)。公司已開始供應(yīng)企業(yè)可放置在其自己的數(shù)據(jù)中心中的設(shè)備(例如,MICROSOFT TM Azure設(shè)備)以連接具有變化的云功能級(jí)別的數(shù)據(jù)中心。
[0003]即使當(dāng)基于云的資源被利用時(shí),具有數(shù)據(jù)中心的企業(yè)在增建大型數(shù)據(jù)中心時(shí)也招致巨大的成本。企業(yè)通常仍然計(jì)劃了 “最差情況”的峰值情形并由此包括許多硬件,其中至少一些硬件在額外處理容量、額外存儲(chǔ)空間等方面很少被使用或未被充分利用。該額外資源量為很少的回報(bào)招致高成本。使用場(chǎng)所內(nèi)基于云的計(jì)算的顧客期望能夠針對(duì)峰值容量時(shí)間、針對(duì)災(zāi)難恢復(fù)情形或僅針對(duì)容量管理而使用另一兼容云(例如,其自身在另一位置的第二實(shí)例、微軟的公共云等)中的容量。與為最差情況的情形而增建然后為冗余而翻倍相比,這樣做便宜得多。另外,他們期望能夠管理(例如,故障查找、操作)分散在多個(gè)云的應(yīng)用。當(dāng)前,應(yīng)用、云管理、以及故障查找沒有跨各個(gè)云或其他數(shù)據(jù)中心來操作。
【發(fā)明內(nèi)容】
[0004]本文描述了向應(yīng)用提供跨兩個(gè)或更多個(gè)云(它可跨很大距離)的能力的云管理系統(tǒng),同時(shí)允許將分布式應(yīng)用作為單個(gè)應(yīng)用來進(jìn)行操作、管理、以及故障查找。該系統(tǒng)提供跨各數(shù)據(jù)中心通信以執(zhí)行并對(duì)應(yīng)用的在不同的位置處運(yùn)行的各實(shí)例的知識(shí)進(jìn)行集中的基礎(chǔ)結(jié)構(gòu)。在一些情況下,該系統(tǒng)提供企業(yè)可將其置于它自己的私有數(shù)據(jù)中心中的計(jì)算設(shè)備,同時(shí)經(jīng)由該計(jì)算設(shè)備提供統(tǒng)一管理,該私有數(shù)據(jù)中心允許管理員將至少一些應(yīng)用負(fù)載分布在公共云或其他分開的位置。該系統(tǒng)所提供的基礎(chǔ)結(jié)構(gòu)監(jiān)視該應(yīng)用和各云之間的連接兩者,具有知道問題是處于應(yīng)用內(nèi)還是因?yàn)楦髟浦g的連接的智能。該系統(tǒng)協(xié)調(diào)跨多個(gè)云平臺(tái)/位置的管理功能。如果管理員想要調(diào)試該應(yīng)用,則該系統(tǒng)允許通過無縫的統(tǒng)一接口來在正確的位置處進(jìn)行實(shí)況調(diào)試。因而,該云管理系統(tǒng)創(chuàng)建跨多個(gè)云的單個(gè)監(jiān)視和故障查找接口和知識(shí)以及執(zhí)行“結(jié)構(gòu)”,使得跨多個(gè)云分布的各應(yīng)用可被更容易地監(jiān)視、管理以及調(diào)試。[0005]提供本概述以便以簡化形式介紹將在以下詳細(xì)描述中進(jìn)一步描述的一些概念。本概述并不旨在標(biāo)識(shí)所要求保護(hù)主題的關(guān)鍵特征或必要特征,也不旨在用于限制所要求保護(hù)主題的范圍。
【專利附圖】
【附圖說明】
[0006]圖1示出在一個(gè)實(shí)施例中在與管理基礎(chǔ)結(jié)構(gòu)相關(guān)聯(lián)的兩個(gè)云中運(yùn)行的應(yīng)用。
[0007]圖2是示出在一個(gè)實(shí)施例中的云管理系統(tǒng)的各組件的框圖。
[0008]圖3是示出在一個(gè)實(shí)施例中云管理系統(tǒng)的用于處理來自管理工具的訪問來自分布式應(yīng)用實(shí)例的數(shù)據(jù)的請(qǐng)求的處理的流程圖。
[0009]圖4是示出在一個(gè)實(shí)施例中云管理系統(tǒng)的用于從遠(yuǎn)程應(yīng)用實(shí)例的位置處報(bào)告回?cái)?shù)據(jù)并在遠(yuǎn)程應(yīng)用實(shí)例的位置處處理故障查找請(qǐng)求的處理的流程圖。
【具體實(shí)施方式】
[0010]本文描述了向應(yīng)用提供跨兩個(gè)或更多個(gè)云(它可跨很大距離)的能力的云管理系統(tǒng),同時(shí)允許將分布式應(yīng)用作為單個(gè)應(yīng)用來進(jìn)行操作、管理、以及故障查找。該系統(tǒng)提供跨各數(shù)據(jù)中心通信以執(zhí)行并對(duì)應(yīng)用的在不同的位置處運(yùn)行的各實(shí)例的知識(shí)進(jìn)行集中的基礎(chǔ)結(jié)構(gòu)。例如,該系統(tǒng)可以集中日志記錄、性能跟蹤以及其他管理功能,而不管該應(yīng)用在何處運(yùn)行。在一些情況下,該系統(tǒng)提供企業(yè)可將其置于它自己的私有數(shù)據(jù)中心中的計(jì)算設(shè)備,同時(shí)經(jīng)由該計(jì)算設(shè)備提供統(tǒng)一管理,該私有數(shù)據(jù)中心允許管理員將至少一些應(yīng)用負(fù)載分布在公共云或其他分開的位置。
[0011]該云管理系統(tǒng)所提供的基礎(chǔ)結(jié)構(gòu)監(jiān)視該應(yīng)用和各云之間的連接兩者,具有知道問題是否處于應(yīng)用內(nèi)或是因?yàn)楦髟浦g的連接的智能。該系統(tǒng)協(xié)調(diào)跨多個(gè)云平臺(tái)/位置的管理功能(從一個(gè)云的基礎(chǔ)結(jié)構(gòu),任務(wù)被協(xié)調(diào)以跨兩個(gè)或更多個(gè)云執(zhí)行)。如果管理員想要調(diào)試該應(yīng)用,則該系統(tǒng)允許通過無縫的統(tǒng)一接口來在正確的位置處進(jìn)行實(shí)況調(diào)試。因而,該云管理系統(tǒng)創(chuàng)建跨多個(gè)云的單個(gè)監(jiān)視和故障查找接口和知識(shí)以及執(zhí)行“結(jié)構(gòu)”,使得分布在多個(gè)云的各應(yīng)用可被更容易地監(jiān)視、管理以及調(diào)試。
[0012]圖1示出在一個(gè)實(shí)施例中在與管理基礎(chǔ)結(jié)構(gòu)相關(guān)聯(lián)的兩個(gè)云中運(yùn)行的應(yīng)用。在一些實(shí)施例中,云管理系統(tǒng)使用一個(gè)云中的基礎(chǔ)結(jié)構(gòu)來影響應(yīng)用(和/或管理員),該云具有所有位置處的數(shù)據(jù)/訪問所有位置處的數(shù)據(jù)以能夠完全對(duì)該應(yīng)用進(jìn)行監(jiān)視/故障查找。作為示例,考慮具有在兩個(gè)云(在圖1中示為云110和云150)中運(yùn)行的實(shí)例的應(yīng)用。云110包括包含基礎(chǔ)結(jié)構(gòu)130的微軟TMAzure設(shè)備實(shí)例120。設(shè)備實(shí)例120包括運(yùn)行角色140和角色145的應(yīng)用實(shí)例125。第二云150包括運(yùn)行角色160和角色170的應(yīng)用實(shí)例155。第二云150還包括基礎(chǔ)結(jié)構(gòu)180。應(yīng)用實(shí)例120知道這些角色中的每一個(gè)并且知道它們是同一應(yīng)用的一部分。每一位置處的基礎(chǔ)結(jié)構(gòu)管道允許設(shè)備實(shí)例120檢索與在第二云150處執(zhí)行的角色160和角色170有關(guān)的信息。該系統(tǒng)可分布任一單獨(dú)的角色、整個(gè)應(yīng)用、或這兩者。有了所有管理數(shù)據(jù)(例如,來自應(yīng)用、機(jī)器、以及基礎(chǔ)結(jié)構(gòu)的日志),該系統(tǒng)可通過應(yīng)用預(yù)定義的健康規(guī)則來評(píng)估該應(yīng)用的健康,如同所有角色在本地一樣。該系統(tǒng)還可查看跨這些位置的基礎(chǔ)結(jié)構(gòu)健康以及其間的連接190,以評(píng)估該應(yīng)用或基礎(chǔ)結(jié)構(gòu)/網(wǎng)絡(luò)是否發(fā)生了問題。
[0013]類似地,在需要自動(dòng)或手動(dòng)故障查找或補(bǔ)救步驟時(shí),云110中的基礎(chǔ)結(jié)構(gòu)130可與z? 150中的基礎(chǔ)結(jié)構(gòu)180進(jìn)彳丁協(xié)調(diào)以提供故障查找和調(diào)試支持。例如,該系統(tǒng)結(jié)構(gòu)可以達(dá)到各個(gè)位置以執(zhí)行應(yīng)用范圍的更新、關(guān)閉等。本領(lǐng)域普通技術(shù)人員將明白執(zhí)行跨位置控制的多種方式。例如,基礎(chǔ)結(jié)構(gòu)130可直接控制基礎(chǔ)結(jié)構(gòu)180,基礎(chǔ)結(jié)構(gòu)130可請(qǐng)求基礎(chǔ)結(jié)構(gòu)180代表基礎(chǔ)結(jié)構(gòu)130來執(zhí)行,等等。同樣,有了操作員/管理員故障查找工具(例如,監(jiān)視可視化、警報(bào)、日志以及配置數(shù)據(jù)查看,等等),應(yīng)用和基礎(chǔ)結(jié)構(gòu)的位置是可用的并且在邏輯上被顯示,但不涉及分開的工具和來自管理員的腦力體操來合在一起。例如,在對(duì)所有角色的數(shù)據(jù)進(jìn)行故障查找和查看時(shí),如果管理員105的下一步是使用一個(gè)或多個(gè)工具195來查看應(yīng)用的日志或開始與角色實(shí)例的遠(yuǎn)程會(huì)話,則該系統(tǒng)直接連接管理員105,而不管該角色處于何處。
[0014]該云管理系統(tǒng)的設(shè)計(jì)提供了服務(wù)跨多個(gè)云/位置的簡化且一致的運(yùn)行。該系統(tǒng)將“計(jì)算資源”的定義從服務(wù)器(數(shù)據(jù)中心以外)移至因特網(wǎng)的一部分(數(shù)據(jù)中心和它們之間的連接)。這允許在服務(wù)層定義、監(jiān)視以及管理服務(wù)層協(xié)定(SLA)——這是服務(wù)所有者通常最關(guān)心的。
[0015]在一些實(shí)施例中,云管理系統(tǒng)與云遷移系統(tǒng)協(xié)作,在需要時(shí)云遷移系統(tǒng)將應(yīng)用從一個(gè)位置無縫地遷移到另一位置,稱為爆發(fā)(bursting)。云遷移系統(tǒng)通過檢測(cè)峰值負(fù)載條件并且自動(dòng)地將計(jì)算移至另一資源(并移回)以及通過跨兩個(gè)或更多云提供計(jì)算并且在一個(gè)站點(diǎn)處發(fā)生災(zāi)難的情況下完全移至一個(gè)站點(diǎn)來提供容量管理和災(zāi)難恢復(fù)。這允許企業(yè)為持續(xù)的負(fù)載水平而計(jì)劃本地資源,并且針對(duì)峰值或其他不常見的負(fù)載利用基于云的資源。在許多情況下,企業(yè)的業(yè)務(wù)是這樣的:一年的特定時(shí)間較忙碌,并且僅在那些時(shí)間需要額外資源。例如,稅務(wù)規(guī)劃企業(yè)在四月中旬特別忙碌,電子商務(wù)站點(diǎn)在感恩節(jié)和圣誕節(jié)前后經(jīng)歷假日高峰。云遷移系統(tǒng)監(jiān)視數(shù)據(jù)中心內(nèi)的負(fù)載,并且檢測(cè)指示當(dāng)前負(fù)載正接近該數(shù)據(jù)中心的容量的閾值。例如,系統(tǒng)可以監(jiān)視中央處理單元(CPU )使用、存儲(chǔ)器使用、存儲(chǔ)使用、網(wǎng)絡(luò)帶寬以及其他度量,以確定數(shù)據(jù)中心對(duì)當(dāng)前負(fù)載處理得有多好。系統(tǒng)還可以觀察趨勢(shì)(例如,資源使用的加速度速率)以確定是否已經(jīng)達(dá)到或即將達(dá)到閾值。
[0016]在檢測(cè)到該閾值將被達(dá)到時(shí),云遷移系統(tǒng)促進(jìn)至少某一數(shù)據(jù)中心負(fù)載至另一數(shù)據(jù)中心或基于云的資源的有序移動(dòng)。例如,系統(tǒng)可以將某一峰值負(fù)載遷移至公共云。由于云定價(jià)模型可能變化,因此系統(tǒng)可以在決策中考慮成本因素。例如,系統(tǒng)可以偏好在企業(yè)數(shù)據(jù)中心處托管盡可能多的負(fù)載以降低成本,而僅將云資源利用到滿足客戶機(jī)請(qǐng)求所需的程度。系統(tǒng)還可以提供管理和監(jiān)視工具,這些管理和監(jiān)視工具為信息技術(shù)(IT)人員提供一致的體驗(yàn),而不管特定負(fù)載在哪里運(yùn)行(例如,在企業(yè)內(nèi)本地地運(yùn)行或使用云公開地運(yùn)行)。該系統(tǒng)還可以提供規(guī)劃工具以幫助決定供高負(fù)載期間移至其他資源的適當(dāng)工作負(fù)載或應(yīng)用。例如,應(yīng)用可以具有使其較適于或較不適于遷移的各種順應(yīng)性/規(guī)章或聯(lián)網(wǎng)/設(shè)計(jì)限制。該系統(tǒng)還可在數(shù)據(jù)中心/網(wǎng)絡(luò)級(jí)處作為災(zāi)難恢復(fù)體系結(jié)構(gòu)而被用于在災(zāi)難情況下管理快速的工作負(fù)載轉(zhuǎn)移。如果數(shù)據(jù)中心資源持久地發(fā)生故障,則系統(tǒng)可以迅速且高效地將附加負(fù)載遷移至云或其他資源,以使得數(shù)據(jù)中心的客戶機(jī)不受或少受該故障的影響。由此,云遷移系統(tǒng)允許企業(yè)構(gòu)建針對(duì)稀有額外負(fù)載利用其他資源的、更小且更高效的數(shù)據(jù)中心。
[0017]在應(yīng)用被從一個(gè)位置遷移到另一位置時(shí),該云管理系統(tǒng)與云遷移系統(tǒng)一起工作來提供無縫管理和故障查找。如上所述,云遷移系統(tǒng)可以在臨時(shí)(即,爆發(fā))或永久(即,災(zāi)難恢復(fù))的基礎(chǔ)上在數(shù)據(jù)中心與云之間移動(dòng)資源。臨時(shí)移動(dòng)包括在短的一段時(shí)間內(nèi)爆發(fā)應(yīng)用或其他負(fù)載,以處理超出數(shù)據(jù)中心容量的峰值或其他高負(fù)載。臨時(shí)移動(dòng)可以包括爆發(fā)整個(gè)應(yīng)用、或?qū)?yīng)用的負(fù)載拆分到兩個(gè)或更多個(gè)位置。永久移動(dòng)包括因數(shù)據(jù)中心中的硬件故障、更持久的容量需求增長、使用動(dòng)態(tài)負(fù)載平衡全局地分發(fā)應(yīng)用的希望等而導(dǎo)致的較長期的遷移。以下是其中系統(tǒng)可被企業(yè)使用的若干示例情形。
[0018]在第一示例中,企業(yè)將應(yīng)用負(fù)載爆發(fā)至公共云以管理容量。公司決策者(B卩,CEO、CFO、或營銷/銷售副總)和數(shù)據(jù)中心系統(tǒng)管理員決定以下方式將更加成本高效且提供更好的客戶體驗(yàn):在他們每年使用/通信量的排名前三的峰值天水平將一些工作爆發(fā)到公共云,并且使他們自己的數(shù)據(jù)中心(可能具有云設(shè)備)維持在他們的每月峰值使用水平。他們與云提供者簽署關(guān)于將工作爆發(fā)至云以及何時(shí)及會(huì)有多少工作的項(xiàng)目估計(jì)的業(yè)務(wù)協(xié)議。其帳戶被建立并且信息被輸入至云設(shè)備。在規(guī)劃階段期間,管理員使用來自云提供者的確保連接正確地工作的測(cè)試應(yīng)用來運(yùn)行測(cè)試。管理員然后在容量管理工具中設(shè)置將容量保持在指定級(jí)別的各容量值(例如,閾值)以啟動(dòng)對(duì)各應(yīng)用的爆發(fā)。管理員進(jìn)入該工具以進(jìn)一步指定在這一情況下那些有資格移動(dòng)的應(yīng)用(例如,臨時(shí)移動(dòng)沒有規(guī)章問題,良好的技術(shù)配合)。
[0019]某一天,使用超出限制并且系統(tǒng)自動(dòng)地將各應(yīng)用移至公共云。在監(jiān)視/使用系統(tǒng)中拋出以下警告:容量何時(shí)在所啟動(dòng)的5%的爆發(fā)內(nèi),系統(tǒng)何時(shí)爆發(fā),系統(tǒng)爆發(fā)了什么,以及系統(tǒng)何時(shí)拿回應(yīng)用。保留所移動(dòng)的全部計(jì)算資源和/或存儲(chǔ)的顯式日志,并且警告管理員進(jìn)入其公共云帳戶進(jìn)行記賬。在企業(yè)數(shù)據(jù)中心組和管理中的定期容量規(guī)劃會(huì)議上審閱對(duì)被標(biāo)記為可移動(dòng)的爆發(fā)參數(shù)和應(yīng)用的審閱。
[0020]在第二示例中,企業(yè)將各應(yīng)用拆分到各個(gè)云以管理容量。這一情形類似于上述情形,除了所移動(dòng)的應(yīng)用的類型更復(fù)雜而因此被拆分出以進(jìn)行不同的優(yōu)先級(jí)區(qū)分以外。公司決定與云提供者具有關(guān)系以將各應(yīng)用拆分至云(一種形式的爆發(fā))。在這一情況下,大型應(yīng)用被預(yù)標(biāo)識(shí)成猝發(fā)候選。當(dāng)容量達(dá)到閾值時(shí),100個(gè)工作者實(shí)例中的50個(gè)被自動(dòng)地移至公共云。該應(yīng)用現(xiàn)在拆分到兩個(gè)設(shè)備實(shí)例(即,云實(shí)例),而全部監(jiān)視和記賬數(shù)據(jù)被發(fā)送至起始實(shí)例以使其能被集中管理。企業(yè)自身數(shù)據(jù)中心中的云設(shè)備具有用于幫助調(diào)試拆分應(yīng)用的可能問題(例如,聯(lián)網(wǎng)問題、網(wǎng)絡(luò)帶寬/等待時(shí)間問題、結(jié)構(gòu)通信等)的故障查找工具。當(dāng)容量情形在設(shè)備上平息下來時(shí),則50個(gè)工作者實(shí)例被移回設(shè)備并且再次作為正常運(yùn)作的應(yīng)用。
[0021]在另一示例中,云提供者決定從一個(gè)群集暴發(fā)至另一群集。公共云容量規(guī)劃團(tuán)隊(duì)決定芝加哥數(shù)據(jù)中心中的群集臨界充滿,但想要維持高利用率。當(dāng)利用率到達(dá)90%時(shí),他們?cè)O(shè)置爆發(fā)至西海岸數(shù)據(jù)中心中未被充分利用的群集。管理員進(jìn)入容量管理工具并且將適當(dāng)?shù)念櫩?應(yīng)用(例如,具有低的數(shù)據(jù)使用)選作移動(dòng)候選。某一天,芝加哥群集的使用達(dá)到閾值,并且系統(tǒng)自動(dòng)地將所選擇的應(yīng)用(例如,群集的應(yīng)用中的10%)移至西海岸數(shù)據(jù)中心一天。隨著使用返回該閾值以下,系統(tǒng)將應(yīng)用移回芝加哥。該系統(tǒng)搶先向指定監(jiān)視團(tuán)隊(duì)通知該暴發(fā)以使其能夠回答顧客的問題。
[0022]在另一示例中,該系統(tǒng)被用于跨云的公文包管理。企業(yè)決定在其云設(shè)備上高效地管理容量,他們想要將全部需求可變的應(yīng)用放在公共云中而將其需求恒定的應(yīng)用放在該設(shè)備或本地?cái)?shù)據(jù)中心資源上(并且由此能夠以更高利用率運(yùn)行該設(shè)備)。盡管他們想要拆分其計(jì)算資源,但他們?nèi)匀幌胍缙淙繎?yīng)用的健康的全局視圖、使其應(yīng)用開發(fā)者以相同方式管理各應(yīng)用、并且跨這兩者維持部門級(jí)記賬的單個(gè)視圖(例如,向顧客銷售組、內(nèi)部IT、B2B銷售等分配什么成本)。企業(yè)能夠針對(duì)公共云設(shè)置聚集帳戶(其中相同組作為設(shè)備),并且取得記賬數(shù)據(jù)以在他們一側(cè)進(jìn)行集成。類似地,他們能夠取得訪問在其中運(yùn)行其應(yīng)用的平臺(tái)的公共云監(jiān)視數(shù)據(jù)的應(yīng)用編程接口(API)以及應(yīng)用級(jí)監(jiān)視,使得其網(wǎng)絡(luò)操作中心(NOC)對(duì)企業(yè)的計(jì)算活動(dòng)狀態(tài)具有完整且一致的視圖。
[0023]在另一示例中,企業(yè)使用動(dòng)態(tài)負(fù)載平衡來設(shè)置全局分布的應(yīng)用。企業(yè)顧客想要跨兩個(gè)或更多個(gè)云實(shí)例管理容量,并且使他們的大量負(fù)載處于獨(dú)立的但地理上分布的各實(shí)例中(例如,具有都服務(wù)德國查詢的美國和英國數(shù)據(jù)中心的Bing (必應(yīng))搜索)。在正常環(huán)境下,全局通信量管理者向每一位置發(fā)送50%的通信量。當(dāng)負(fù)載在主要位置處變高時(shí),該系統(tǒng)指示負(fù)載平衡器向英國系統(tǒng)發(fā)送75%的通信量,由此從美國云實(shí)例中釋放容量,從而將其帶到可接受級(jí)。當(dāng)容量返回正常時(shí),系統(tǒng)告訴負(fù)載平衡器返回50/50的拆分。對(duì)此的變體是公共云被用作輔助數(shù)據(jù)中心(比如說,顧客站點(diǎn)的負(fù)載為1%而設(shè)備為其余99%)。在災(zāi)難或因其他原因移動(dòng)來自顧客站點(diǎn)的負(fù)載的情況下,100%的通信量被轉(zhuǎn)移至公共云。
[0024]在另一示例中,企業(yè)已達(dá)到其數(shù)據(jù)中心的容量并且需要額外計(jì)算資源,但尚不具有用于花費(fèi)在擴(kuò)展該數(shù)據(jù)中心的可用資產(chǎn)。在該情況下,公司可以使用公共云供溢出,直到它們能夠完成硬件購買。
[0025]圖2是示出在一個(gè)實(shí)施例中的云管理系統(tǒng)的各組件的框圖。系統(tǒng)200包括位置管理組件210、位置數(shù)據(jù)存儲(chǔ)220、工具接口組件230、一個(gè)或多個(gè)管理工具240、數(shù)據(jù)遷移組件250、故障查找組件260、以及記賬組件270。這些組件中的每個(gè)都在此予以更詳細(xì)討論。
[0026]位置管理組件210管理與應(yīng)用的各實(shí)例在其中運(yùn)行的多個(gè)數(shù)據(jù)中心位置有關(guān)的信息。組件210包括描述如何達(dá)到每一位置的信息、可用于檢索管理信息的連接、具有相關(guān)聯(lián)的安全證書的用于每一位置的用戶賬戶、從中收集故障查找信息并發(fā)送故障查找命令的應(yīng)用和數(shù)據(jù)中心組件,等等。位置管理組件210接收描述應(yīng)用負(fù)載的任何遷移或從一個(gè)數(shù)據(jù)中心/云到另一個(gè)的爆發(fā)的信息,并更新所管理的信息使得組件210具有該應(yīng)用在其中運(yùn)行的所有位置的完整畫面。這允許系統(tǒng)200呈現(xiàn)該完整畫面并使得應(yīng)用的管理統(tǒng)一,而不管應(yīng)用在何處運(yùn)行或在多少位置處運(yùn)行。在條件改變和分發(fā)各應(yīng)用時(shí),位置管理組件210可以呈現(xiàn)具有全面的一組管理數(shù)據(jù)的管理工具。
[0027]位置數(shù)據(jù)存儲(chǔ)220存儲(chǔ)描述應(yīng)用的各實(shí)例在其中運(yùn)行的各位置的信息。數(shù)據(jù)存儲(chǔ)220可以包括一個(gè)或多個(gè)文件、文件系統(tǒng)、硬盤驅(qū)動(dòng)器、數(shù)據(jù)庫、基于云的存儲(chǔ)服務(wù)、或用于持久存儲(chǔ)與系統(tǒng)200的各會(huì)話之間的信息的其他設(shè)施。所存儲(chǔ)的信息可包括連接信息、用戶角色、管理數(shù)據(jù)的源、可用日志文件、以及與分布到多個(gè)位置的應(yīng)用的管理或故障查找有關(guān)的任何其他信息。
[0028]工具接口組件230向系統(tǒng)200提供接口,一個(gè)或多個(gè)工具通過該接口可訪問應(yīng)用的管理和故障查找信息。該接口可以包括一個(gè)或多個(gè)網(wǎng)頁、web服務(wù)、應(yīng)用編程接口(API)、或管理員或工具通過其可以直接地或通過程序來訪問系統(tǒng)200的管理和故障查找信息的其他接口。在一些實(shí)施例中,工具接口組件230提供初始連接點(diǎn)以供工具訪問與位于企業(yè)的私有數(shù)據(jù)中心內(nèi)的云計(jì)算設(shè)備處的應(yīng)用有關(guān)的信息。該設(shè)備可以管理應(yīng)用負(fù)載到公共云或其他數(shù)據(jù)中心的遷移和分布,并向收集管理信息或提供應(yīng)用故障查找的工具提供中心聯(lián)系點(diǎn)。
[0029]一個(gè)或多個(gè)管理工具240連接到工具接口組件230以訪問管理信息或執(zhí)行應(yīng)用故障查找。工具可包括日志查看器、報(bào)告工具、調(diào)試工具、或顯示與正在運(yùn)行的應(yīng)用有關(guān)的信息或者幫助解決正在運(yùn)行的應(yīng)用的問題的其他工具。管理工具240可包括被設(shè)計(jì)成與本地應(yīng)用一起工作的工具,且系統(tǒng)200向該工具提供描述在多個(gè)位置處運(yùn)行的不具有該工具的知識(shí)的分布式應(yīng)用的信息。這允許使用管理員所依賴的現(xiàn)有工具,即使在將自動(dòng)應(yīng)用負(fù)載遷移引入數(shù)據(jù)中心或云中時(shí)。在其他情況下,工具可被專門編寫成理解分布式應(yīng)用,并提供與多個(gè)位置有關(guān)的特定管理信息或故障查找。工具接口組件230可以提供多個(gè)接口,管理工具240通過這些接口使用每一工具所理解的范例來連接到系統(tǒng)200。
[0030]數(shù)據(jù)遷移組件250將應(yīng)用在其中運(yùn)行的一個(gè)或多個(gè)遠(yuǎn)程位置處的管理信息遷移回該應(yīng)用的本地(home)位置。本地位置可包括私有數(shù)據(jù)中心、位置或云計(jì)算設(shè)備、或該應(yīng)用在穩(wěn)定條件下在其中正常運(yùn)行的其他位置。在達(dá)到特定負(fù)載水平(例如,峰值或周期性爆發(fā))時(shí),該應(yīng)用可將一些負(fù)載遷移到一個(gè)或多個(gè)其他數(shù)據(jù)中心或公共云以幫助滿足客戶機(jī)請(qǐng)求。這些其他位置如本地位置一樣生成管理數(shù)據(jù),如日志文件、事務(wù)數(shù)據(jù)等,并且數(shù)據(jù)遷移組件250將這一數(shù)據(jù)遷移回本地位置或提供從本地位置對(duì)該數(shù)據(jù)的訪問,使得管理工具240能夠向管理員提供該應(yīng)用的活動(dòng)的全面畫面。
[0031]故障查找組件260在一個(gè)或多個(gè)位置處對(duì)該應(yīng)用執(zhí)行故障查找任務(wù)。故障查找可包括調(diào)試、處理測(cè)試數(shù)據(jù)、或其他形式的確定應(yīng)用是否正確地操作。故障查找一般在本地位置處很好理解,但隨著應(yīng)用開始橫跨多個(gè)數(shù)據(jù)中心或云而變得更加復(fù)雜。云管理系統(tǒng)200通過提供統(tǒng)一接口來使管理工具240和管理員與這一復(fù)雜性隔離開,其中工具和管理員通過該統(tǒng)一接口訪問管理信息并執(zhí)行多個(gè)位置處的故障查找。因而,如果管理工具允許管理員在本地位置處的應(yīng)用代碼的特定片段處放置斷點(diǎn)或從該特定片段處接收跟蹤信息,則故障查找組件260使得在該應(yīng)用的基于遠(yuǎn)程云的實(shí)例處也一樣容易地這樣做。工具和管理員甚至可不知道該應(yīng)用在其中運(yùn)行的所有位置,而仍然可執(zhí)行管理任務(wù),如同該應(yīng)用只在本地位置處執(zhí)行一樣。
[0032]記賬組件270報(bào)告與應(yīng)用在其中運(yùn)行的一個(gè)或多個(gè)位置有關(guān)的記賬信息。一個(gè)常見的管理任務(wù)是管理計(jì)算成本,并且公共云通常基于與工作負(fù)載有關(guān)的度量(例如,計(jì)算時(shí)間、所使用的存儲(chǔ)空間,等等)來收費(fèi)。對(duì)管理員而言,收集各應(yīng)用實(shí)例在各位置處造成的成本的畫面可能是有用的,并且云管理系統(tǒng)200可任選地提供記賬組件270以收集這一類型的信息,使得該信息可通過管理工具和報(bào)告來被報(bào)告。
[0033]在其中面實(shí)現(xiàn)了云管理系統(tǒng)的計(jì)算設(shè)備可包括中央處理單元、存儲(chǔ)器、輸入設(shè)備(例如,鍵盤和指示設(shè)備)、輸出設(shè)備(例如,顯示設(shè)備),以及存儲(chǔ)設(shè)備(例如,磁盤驅(qū)動(dòng)器或其他非易失性存儲(chǔ)介質(zhì))。存儲(chǔ)器和存儲(chǔ)設(shè)備是可以是編碼有實(shí)現(xiàn)或啟用該系統(tǒng)的計(jì)算機(jī)可執(zhí)行指令(如軟件)的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。此外,數(shù)據(jù)結(jié)構(gòu)和消息結(jié)構(gòu)可被存儲(chǔ)或經(jīng)由諸如通信鏈路上的信號(hào)等數(shù)據(jù)傳輸介質(zhì)傳送。可以使用各種通信鏈路,諸如因特網(wǎng)、局域網(wǎng)、廣域網(wǎng)、點(diǎn)對(duì)點(diǎn)撥號(hào)連接、蜂窩電話網(wǎng)絡(luò)等。
[0034]該系統(tǒng)的實(shí)施例可以在各種操作環(huán)境中實(shí)現(xiàn),這些操作環(huán)境包括個(gè)人計(jì)算機(jī)、月艮務(wù)器計(jì)算機(jī)、手持式或膝上型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、可編程消費(fèi)電子產(chǎn)品、數(shù)碼相機(jī)、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、包括上述系統(tǒng)或設(shè)備等中任一種的分布式計(jì)算環(huán)境、機(jī)頂盒、片上系統(tǒng)(SOC)等。計(jì)算機(jī)系統(tǒng)可以是蜂窩電話、個(gè)人數(shù)字助理、智能電話、個(gè)人計(jì)算機(jī)、可編程消費(fèi)電子設(shè)備、數(shù)碼相機(jī)等。
[0035]該系統(tǒng)可以在由一個(gè)或多個(gè)計(jì)算機(jī)或其他設(shè)備執(zhí)行的諸如程序模塊等計(jì)算機(jī)可執(zhí)行指令的通用上下文中描述。一般而言,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等。通常,程序模塊的功能可在各個(gè)實(shí)施例中按需進(jìn)行組合或分布。
[0036]圖3是示出在一個(gè)實(shí)施例中云管理系統(tǒng)的用于處理來自管理工具的訪問來自分布式應(yīng)用實(shí)例的數(shù)據(jù)的請(qǐng)求的處理的流程圖。在框310中開始,該系統(tǒng)從管理工具接收訪問與在一個(gè)或多個(gè)數(shù)據(jù)中心中運(yùn)行各實(shí)例的應(yīng)用有關(guān)的管理數(shù)據(jù)的請(qǐng)求。例如,性能監(jiān)視工具可以請(qǐng)求描述該應(yīng)用正在處理多少客戶機(jī)請(qǐng)求、該應(yīng)用的資源使用的狀態(tài)信息,或者來自該應(yīng)用的其他信息。該系統(tǒng)可通過該系統(tǒng)展示給各工具的用于請(qǐng)求管理數(shù)據(jù)的API來接收工具請(qǐng)求。該API可包括用于訪問管理數(shù)據(jù)的統(tǒng)一接口,而不管各應(yīng)用實(shí)例在何處運(yùn)行或在多少位置處運(yùn)行。
[0037]在框320中繼續(xù),該系統(tǒng)標(biāo)識(shí)滿足接收到的請(qǐng)求的一個(gè)或多個(gè)類型的管理數(shù)據(jù)。例如,該系統(tǒng)可以確定該請(qǐng)求要求該應(yīng)用的每一實(shí)例所產(chǎn)生的日志信息。標(biāo)識(shí)所請(qǐng)求的數(shù)據(jù)允許該系統(tǒng)確定從每一應(yīng)用實(shí)例收集哪些信息或該數(shù)據(jù)是否已經(jīng)在本地從由每一應(yīng)用實(shí)例推送到中心位置的數(shù)據(jù)中進(jìn)行了收集。
[0038]在框330中繼續(xù),該系統(tǒng)確定包括所述應(yīng)用的兩個(gè)或更多個(gè)實(shí)例的應(yīng)用分布。該分布確定該應(yīng)用在何處運(yùn)行以及該系統(tǒng)將在何處找到用于滿足該請(qǐng)求的管理數(shù)據(jù)。該系統(tǒng)可包括跟蹤描述應(yīng)用負(fù)載去往/始自其他數(shù)據(jù)中心的每一爆發(fā)或其他遷移的信息的數(shù)據(jù)存儲(chǔ),使得該系統(tǒng)知道各應(yīng)用實(shí)例在其中運(yùn)行的每一位置。在接收到管理工具請(qǐng)求后,這一信息運(yùn)行該系統(tǒng)確定從何處收集管理數(shù)據(jù)。
[0039]在框340中繼續(xù),該系統(tǒng)從每一分布式應(yīng)用實(shí)例收集用于滿足該請(qǐng)求的管理數(shù)據(jù)。各實(shí)例可包括本地私有數(shù)據(jù)中心、遠(yuǎn)程私有數(shù)據(jù)中心、私有云計(jì)算設(shè)施、公共云計(jì)算設(shè)施、其他私有數(shù)據(jù)中心所提供的備用資源等中的實(shí)例。該系統(tǒng)聯(lián)系該應(yīng)用的每一實(shí)例或訪問先前從每一實(shí)例發(fā)送的包含用于滿足接收到的管理工具請(qǐng)求的信息(如性能數(shù)據(jù)、故障,等等)的信息。
[0040]在框350中繼續(xù),該系統(tǒng)可任選地向一個(gè)或多個(gè)遠(yuǎn)程應(yīng)用實(shí)例發(fā)送一個(gè)或多個(gè)故障查找命令。例如,如果一個(gè)位置正經(jīng)歷故障,則管理員可使用管理工具來請(qǐng)求附加跟蹤信息、發(fā)送一個(gè)或多個(gè)測(cè)試請(qǐng)求、或執(zhí)行其他類型的調(diào)試。遠(yuǎn)程應(yīng)用實(shí)例實(shí)現(xiàn)故障查找命令并將所請(qǐng)求的數(shù)據(jù)報(bào)告回管理工具可訪問該信息的中心位置。
[0041]在框360中繼續(xù),該系統(tǒng)統(tǒng)一所收集的數(shù)據(jù)以提供對(duì)接收到的管理工具請(qǐng)求的統(tǒng)一響應(yīng)。以此方式,管理工具不必被編寫成包括對(duì)該工具所管理的應(yīng)用的各種可能分布的理解。該系統(tǒng)因而可按需將應(yīng)用從一個(gè)位置自由地遷移到一個(gè)或多個(gè)位置以處理應(yīng)用負(fù)載,同時(shí)仍然向管理員提供直截了當(dāng)?shù)墓芾砗凸收喜檎殷w驗(yàn)。
[0042]在框370中繼續(xù),該系統(tǒng)響應(yīng)于接收到的管理工具請(qǐng)求來報(bào)告所收集的和經(jīng)統(tǒng)一的管理數(shù)據(jù)。該系統(tǒng)可通過從中接收到請(qǐng)求的接口或通過通知接口或用于向工具提供數(shù)據(jù)的其他設(shè)施,來發(fā)送該數(shù)據(jù)。在框370之后,這些步驟結(jié)束。
[0043]圖4是示出在一個(gè)實(shí)施例中云管理系統(tǒng)的用于從遠(yuǎn)程應(yīng)用實(shí)例的位置處報(bào)告回?cái)?shù)據(jù)并在遠(yuǎn)程應(yīng)用實(shí)例的位置處處理故障查找請(qǐng)求的處理的流程圖。在框410中開始,該系統(tǒng)接收對(duì)來自應(yīng)用的客戶機(jī)的請(qǐng)求所生成的負(fù)載的一部分進(jìn)行處理的遠(yuǎn)程應(yīng)用實(shí)例處的管理數(shù)據(jù)。管理數(shù)據(jù)可包括性能數(shù)據(jù)、日志信息、出錯(cuò)詳細(xì)信息、統(tǒng)計(jì)信息、銷售歷史、或?qū)芾碓搼?yīng)用有用的應(yīng)用操作的其他指示。
[0044]在框420中繼續(xù),該系統(tǒng)確定該應(yīng)用的在其中管理員可訪問該應(yīng)用的在各分布式遠(yuǎn)程位置處運(yùn)行的多個(gè)實(shí)例所報(bào)告的管理數(shù)據(jù)的本地位置。在應(yīng)用實(shí)例創(chuàng)建后,該實(shí)例可從本地位置接收指定可在何處聯(lián)系本地位置以及該應(yīng)用實(shí)例是該應(yīng)用的遠(yuǎn)程實(shí)例的配置信息。該系統(tǒng)可將各應(yīng)用遷移到多個(gè)位置以處理峰值負(fù)載、在處理離開峰值并且因而較便宜的位置處執(zhí)行低優(yōu)先級(jí)任務(wù),或出于管理員所確定的其他原因。該應(yīng)用可具有該應(yīng)用在其中正常運(yùn)行的本地位置,并且可在一個(gè)或多個(gè)分布式遠(yuǎn)程位置處處理峰值或其他負(fù)載。
[0045]在框430中繼續(xù),該系統(tǒng)將接收到的管理數(shù)據(jù)從遠(yuǎn)程應(yīng)用實(shí)例發(fā)送到該應(yīng)用的所確定的本地位置。該系統(tǒng)可將在各分布式實(shí)例處生成的數(shù)據(jù)周期性地遷移回本地位置,使得管理數(shù)據(jù)在該本地位置處一個(gè)位置中可用,以方便管理員和管理工具。該系統(tǒng)還可按需或在各工具請(qǐng)求時(shí)(參見例如圖3)遷移數(shù)據(jù)。在一些情況下,該系統(tǒng)可在短期內(nèi)將應(yīng)用負(fù)載爆發(fā)到遠(yuǎn)程位置,并隨后在負(fù)載被遷移回本地位置并且遠(yuǎn)程實(shí)例結(jié)束時(shí)收集與該應(yīng)用的執(zhí)行有關(guān)的信息。
[0046]在框440中繼續(xù),該系統(tǒng)可任選地從在本地位置處運(yùn)行的管理工具接收故障查找請(qǐng)求以對(duì)遠(yuǎn)程應(yīng)用實(shí)例進(jìn)行故障查找。故障查找請(qǐng)求可包括調(diào)試斷點(diǎn)、對(duì)詳細(xì)跟蹤信息的請(qǐng)求、或者用于執(zhí)行故障查找動(dòng)作的其他命令或請(qǐng)求。
[0047]在框450中繼續(xù),該系統(tǒng)響應(yīng)于接收到的故障查找請(qǐng)求來執(zhí)行一個(gè)或多個(gè)故障查找動(dòng)作。該動(dòng)作可包括設(shè)置調(diào)試斷點(diǎn)、上調(diào)日志水平、向該應(yīng)用發(fā)送測(cè)試數(shù)據(jù)、或執(zhí)行該請(qǐng)求所指定的用于確定該應(yīng)用是否正確地操作的任何其他動(dòng)作。
[0048]在框460中繼續(xù),該系統(tǒng)響應(yīng)于接收到的故障查找請(qǐng)求來將故障查找結(jié)果發(fā)送到本地位置。通過提供用于遠(yuǎn)程地執(zhí)行故障查找命令的設(shè)施,該系統(tǒng)允許在本地位置處操作的故障查找工具對(duì)各應(yīng)用實(shí)例進(jìn)行故障查找而不管各實(shí)例在何處運(yùn)行,并且允許該系統(tǒng)將該應(yīng)用的各實(shí)例無縫地遷移到各位置而不中斷管理員對(duì)該應(yīng)用進(jìn)行管理和故障查找的能力。在框460之后,這些步驟結(jié)束。
[0049]在一些實(shí)施例中,云管理系統(tǒng)通過修改域名服務(wù)(DNS)記錄來來遷移應(yīng)用負(fù)載。該系統(tǒng)可以修改DNS服務(wù)器以將傳入客戶機(jī)請(qǐng)求指向一個(gè)或多個(gè)新目的地網(wǎng)際協(xié)議(IP)地址,以便引導(dǎo)負(fù)載從源數(shù)據(jù)中心離開而到達(dá)目標(biāo)數(shù)據(jù)中心/云。全局流量管理器(GTM)通常將客戶機(jī)指向最近的服務(wù)器以處理其請(qǐng)求,并且這些方案可被修改以基于負(fù)載或其他條件來重定向流量。由此,當(dāng)一個(gè)數(shù)據(jù)中心變得過載或接近容量時(shí),該系統(tǒng)可以通知GTM將至少一些客戶機(jī)請(qǐng)求引導(dǎo)至可處理該過量負(fù)載的新位置。類似地,該系統(tǒng)可以提供管理工具可向其寄送管理請(qǐng)求的且連接到各應(yīng)用實(shí)例(而不管它們位于何處)的DNS或其他地址。
[0050]在一些實(shí)施例中,在遷移條件減輕之后,云管理系統(tǒng)將日志和其他數(shù)據(jù)從目標(biāo)計(jì)算資源遷回。例如,在一段峰值負(fù)載之后,該系統(tǒng)可以將所有的應(yīng)用負(fù)載遷回原始數(shù)據(jù)中心,并且將目標(biāo)數(shù)據(jù)中心處所生成的信息(諸如,應(yīng)用日志)拉回原始數(shù)據(jù)中心以供稍后分析。對(duì)于一些應(yīng)用,跟蹤客戶機(jī)請(qǐng)求可能是規(guī)章順應(yīng)性問題或僅對(duì)調(diào)試和報(bào)告有用。在任一種情況下,在源位置處合并這些日志可能是成功遷回源位置的一部分。
[0051]在一些實(shí)施例中,云管理系統(tǒng)在源計(jì)算資源與一個(gè)或多個(gè)目標(biāo)計(jì)算資源之間動(dòng)態(tài)地分配可變的應(yīng)用負(fù)載量。例如,該系統(tǒng)可以動(dòng)態(tài)地路由請(qǐng)求以使源計(jì)算資源保持在全容量或接近全容量,而僅將源計(jì)算資源不能成功地處理的請(qǐng)求發(fā)送至外部計(jì)算資源。這樣的決定可以是成本、數(shù)據(jù)安全或其他考慮的問題,以遷出僅僅所需的應(yīng)用負(fù)載或者將應(yīng)用負(fù)載放置在能最便宜地或最高效地執(zhí)行它們的地方。在一些情況下,決定可以基于各應(yīng)用的規(guī)章要求。例如,服從保健或其他記錄法律的應(yīng)用可具有與它們可在其中操作的數(shù)據(jù)中心/ Z?有關(guān)的約束。
[0052]在一些實(shí)施例中,云管理系統(tǒng)提供災(zāi)難恢復(fù)的各種選項(xiàng)。在一些情況下,該系統(tǒng)可以使外部數(shù)據(jù)中心處的資源加入,以監(jiān)視主數(shù)據(jù)中心斷供。如果外部數(shù)據(jù)中心變得不能聯(lián)系到主數(shù)據(jù)中心,則外部數(shù)據(jù)中心可以確定發(fā)生了災(zāi)難并且將應(yīng)用負(fù)載移至外部數(shù)據(jù)中心。在過去的系統(tǒng)中,組織維護(hù)200%的所需容量(以大量花費(fèi))以便成功地處理災(zāi)難是典型的。使用該云管理系統(tǒng),組織可以將較少量的可用容量維持在第二位置處(例如,10%),并且在發(fā)生故障的情況下可以按需迅速地請(qǐng)求更多。與保險(xiǎn)很相似,云提供者的所有客戶機(jī)同時(shí)發(fā)生故障并且請(qǐng)求高容量備用的可能性是低的,使得多個(gè)客戶機(jī)可以共享要在主要資源發(fā)生故障的情況下使用的一組冗余的輔助資源。該系統(tǒng)還可在災(zāi)難恢復(fù)之后重新確定管理工具和故障查找資源的本地位置以指向新位置,使得管理繼續(xù)是未中斷的。
[0053]從前面的描述中將明白,云管理系統(tǒng)的各特定實(shí)施例在本文中只是為了說明的目的進(jìn)行了描述,但是在不偏離本發(fā)明的精神和范圍的情況下,可以進(jìn)行各種修改。因此,本發(fā)明只受所附權(quán)利要求限制。
【權(quán)利要求】
1.一種計(jì)算機(jī)實(shí)現(xiàn)的用于處理來自管理工具的訪問來自各分布式應(yīng)用實(shí)例的應(yīng)用管理數(shù)據(jù)的請(qǐng)求的方法,所述方法包括: 從應(yīng)用管理工具接收訪問與在一個(gè)或多個(gè)數(shù)據(jù)中心中運(yùn)行各實(shí)例的應(yīng)用有關(guān)的管理數(shù)據(jù)的請(qǐng)求; 標(biāo)識(shí)滿足所接收到的請(qǐng)求的一個(gè)或多個(gè)類型的管理數(shù)據(jù); 確定包括所述應(yīng)用的兩個(gè)或更多個(gè)實(shí)例的應(yīng)用分布; 從每一分布式應(yīng)用實(shí)例收集用于滿足所述請(qǐng)求的管理數(shù)據(jù); 統(tǒng)一所收集的數(shù)據(jù)以提供對(duì)接收到的管理工具請(qǐng)求的統(tǒng)一響應(yīng);以及 響應(yīng)于所接收到的管理工具請(qǐng)求來報(bào)告所收集的和經(jīng)統(tǒng)一的管理數(shù)據(jù), 其中前述步驟由至少一個(gè)處理器來執(zhí)行。
2.如權(quán)利要求1所述的方法,其特征在于,接收所述管理請(qǐng)求包括通過展示給工具的用于請(qǐng)求管理數(shù)據(jù)的程序性應(yīng)用編程接口(API)來接收所述工具請(qǐng)求。
3.如權(quán)利要求1所述的方法,其特征在于,所述API包括用于訪問管理數(shù)據(jù)而無需工具理解各應(yīng)用實(shí)例在何處運(yùn)行或在多少位置處運(yùn)行的統(tǒng)一接口。
4.如權(quán)利要求1所述的方法,其特征在于,接收所述管理請(qǐng)求包括從性能監(jiān)視工具接收訪問描述一個(gè)或多個(gè)應(yīng)用實(shí) 例的操作的狀態(tài)信息的請(qǐng)求。
5.如權(quán)利要求1所述的方法,其特征在于,標(biāo)識(shí)各類管理數(shù)據(jù)包括確定所述請(qǐng)求要求所述應(yīng)用的每一實(shí)例所產(chǎn)生的信息。
6.如權(quán)利要求1所述的方法,其特征在于,標(biāo)識(shí)各類管理數(shù)據(jù)包括確定從每一應(yīng)用實(shí)例收集哪些信息以及所述數(shù)據(jù)是否已經(jīng)在本地從由每一應(yīng)用實(shí)例推送到中心位置的數(shù)據(jù)中進(jìn)行了收集。
7.如權(quán)利要求1所述的方法,其特征在于,確定所述應(yīng)用的分布包括確定所述應(yīng)用在何處運(yùn)行以及所述系統(tǒng)將在何處找到用于滿足所述請(qǐng)求的管理數(shù)據(jù)。
8.如權(quán)利要求1所述的方法,其特征在于,收集管理數(shù)據(jù)包括訪問私有數(shù)據(jù)中心中的至少一個(gè)實(shí)例和云計(jì)算設(shè)施中的至少一個(gè)實(shí)例。
9.如權(quán)利要求1所述的方法,其特征在于,收集管理數(shù)據(jù)包括聯(lián)系所述應(yīng)用的每一實(shí)例以滿足接收到的管理工具請(qǐng)求。
10.如權(quán)利要求1所述的方法,其特征在于,還包括向一個(gè)或多個(gè)遠(yuǎn)程應(yīng)用實(shí)例發(fā)送一個(gè)或多個(gè)故障查找命令,其中所述遠(yuǎn)程應(yīng)用實(shí)例執(zhí)行所述故障查找命令并將所請(qǐng)求的數(shù)據(jù)報(bào)告回所述管理工具能訪問所述信息的中心位置。
11.如權(quán)利要求1所述的方法,其特征在于,統(tǒng)一所收集的數(shù)據(jù)包括將數(shù)據(jù)格式化以使得管理工具不必被編寫成包括對(duì)所述工具所管理的應(yīng)用的各種可能的分布的理解。
12.如權(quán)利要求1所述的方法,其特征在于,統(tǒng)一所收集的數(shù)據(jù)包括將數(shù)據(jù)格式化以使得所述系統(tǒng)能按需將所述應(yīng)用從一個(gè)位置自由地遷移到一個(gè)或多個(gè)位置以處理應(yīng)用負(fù)載,同時(shí)仍然向管理員提供一致的管理和故障查找體驗(yàn)。
13.如權(quán)利要求1所述的方法,其特征在于,報(bào)告所述數(shù)據(jù)包括通過在其上接收到所述請(qǐng)求的接口來將所述數(shù)據(jù)發(fā)送到所述管理工具。
14.一種用于跨云管理和故障查找的跨云計(jì)算的計(jì)算機(jī)系統(tǒng),所述系統(tǒng)包括: 被配置成執(zhí)行包含在以下組件內(nèi)的軟件指令的處理器和存儲(chǔ)器;位置管理組件,所述位置管理組件管理與應(yīng)用的各實(shí)例在其中運(yùn)行的多個(gè)數(shù)據(jù)中心位置有關(guān)的信息; 位置數(shù)據(jù)存儲(chǔ),所述位置數(shù)據(jù)存儲(chǔ)存儲(chǔ)描述所述應(yīng)用的各實(shí)例在其中運(yùn)行的各位置的信息; 工具接口組件,所述工具接口組件向所述系統(tǒng)提供接口,一個(gè)或多個(gè)工具通過所述接口能訪問所述應(yīng)用的管理和故障查找信息; 一個(gè)或多個(gè)管理工具,所述一個(gè)或多個(gè)管理工具連接到所述工具接口組件以訪問管理信息或執(zhí)行應(yīng)用故障查找; 數(shù)據(jù)遷移組件,所述數(shù)據(jù)遷移組件將所述應(yīng)用在其中運(yùn)行的一個(gè)或多個(gè)遠(yuǎn)程位置處的管理信息遷移回所述應(yīng)用的本地位置;以及 故障查找組件,所述故障查找組件在一個(gè)或多個(gè)位置處對(duì)所述應(yīng)用執(zhí)行一個(gè)或多個(gè)故障查找任務(wù)。
15.如權(quán)利要求14所述的系統(tǒng),其特征在于,所述工具接口組件提供初始連接點(diǎn)以供各工具訪問與位于企業(yè)的私有數(shù)據(jù)中心內(nèi)的云計(jì)算設(shè)備處的應(yīng)用有關(guān)的信息。
【文檔編號(hào)】G06F15/16GK103548009SQ201280024366
【公開日】2014年1月29日 申請(qǐng)日期:2012年5月18日 優(yōu)先權(quán)日:2011年5月20日
【發(fā)明者】K·C·艾耶, E·B·沃森 申請(qǐng)人:微軟公司