本發(fā)明涉及云計(jì)算領(lǐng)域,尤其涉及一種故障處理方法、虛擬架構(gòu)管理系統(tǒng)、業(yè)務(wù)管理系統(tǒng)和虛擬化計(jì)算機(jī)系統(tǒng)。
背景技術(shù):
在云計(jì)算領(lǐng)域,各個(gè)行業(yè)的業(yè)務(wù)系統(tǒng)正在實(shí)施虛擬化或云化部署。目前,業(yè)務(wù)系統(tǒng)中的業(yè)務(wù)運(yùn)行在虛擬機(jī)上,虛擬機(jī)部署在作為共享資源池的硬件設(shè)備上,即業(yè)務(wù)不再采用傳統(tǒng)的專(zhuān)用硬件或物理服務(wù)器部署,以實(shí)現(xiàn)軟件硬件解耦和提高資源利用率。
目前,當(dāng)設(shè)備(如物理主機(jī)、存儲(chǔ)設(shè)備等)發(fā)生故障后,會(huì)把故障設(shè)備的故障通過(guò)故障告警消息發(fā)送給虛擬架構(gòu)管理系統(tǒng),虛擬架構(gòu)管理系統(tǒng)再把故障告警消息發(fā)送給業(yè)務(wù)管理系統(tǒng),由業(yè)務(wù)管理系統(tǒng)根據(jù)故障告警消息確定受影響的虛擬機(jī)和業(yè)務(wù)應(yīng)用,并對(duì)受影響的業(yè)務(wù)應(yīng)用執(zhí)行故障處理操作。這使得業(yè)務(wù)管理系統(tǒng)需要感知硬件和硬件故障對(duì)應(yīng)的業(yè)務(wù)應(yīng)用,才能對(duì)業(yè)務(wù)應(yīng)用執(zhí)行故障處理,這樣會(huì)使得業(yè)務(wù)管理系統(tǒng)不能快速地將故障設(shè)備通知給故障設(shè)備所影響的業(yè)務(wù)應(yīng)用,影響業(yè)務(wù)應(yīng)用可靠性。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種故障處理方法、虛擬架構(gòu)管理系統(tǒng)業(yè)務(wù)管理系統(tǒng)和虛擬化計(jì)算機(jī)系統(tǒng),能夠快速地將硬件故障對(duì)虛擬機(jī)的影響通知給受影響的虛擬機(jī)所影響的業(yè)務(wù),從而提高業(yè)務(wù)可靠性。
第一方面,本發(fā)明提供了一種故障處理方法。該故障處理方法用于在虛擬化計(jì)算機(jī)系統(tǒng)中進(jìn)行故障處理,該虛擬化計(jì)算機(jī)系統(tǒng)包括:虛擬架構(gòu)管理系統(tǒng)、業(yè)務(wù)管理系統(tǒng)以及至少一個(gè)虛擬機(jī),至少一個(gè)虛擬機(jī)運(yùn)行在至少一臺(tái)物理設(shè)備上,至少一個(gè)虛擬機(jī)用于執(zhí)行業(yè)務(wù)應(yīng)用,業(yè)務(wù)管理系統(tǒng)用于管理業(yè)務(wù)應(yīng)用,虛擬架構(gòu)管理系統(tǒng)用于管理至少一個(gè)虛擬機(jī)和至少一臺(tái)物理設(shè)備。該故障處理方法包括:虛擬架構(gòu)管理系統(tǒng)獲取故障告警消息,故障告警消息攜帶故障設(shè)備的標(biāo)識(shí)信息和故障類(lèi)型;虛擬架構(gòu)管理系統(tǒng)根據(jù)故障告警消息確定第一虛擬機(jī)集合,第一虛擬機(jī)集合包括受所述故障設(shè)備影響的至少一個(gè)第一虛擬機(jī);虛擬架構(gòu)管理系統(tǒng)向業(yè)務(wù)管理系統(tǒng)發(fā)送狀態(tài)告警消息,狀態(tài)告警消息攜帶第一虛擬機(jī)集合的信息。
該故障處理方法中,虛擬架構(gòu)管理系統(tǒng)獲取到故障設(shè)備上的故障告警消息后,直接對(duì)該故障告警消息進(jìn)行分析處理,獲取故障設(shè)備影響的一個(gè)或多個(gè)虛擬機(jī),并向業(yè)務(wù)管理系統(tǒng)發(fā)送這些虛擬機(jī)的信息,使得業(yè)務(wù)管理系統(tǒng)可以直接根據(jù)這些虛擬機(jī)的信息分析得到受影響的業(yè)務(wù)應(yīng)用,進(jìn)而可以對(duì)受影響的業(yè)務(wù)應(yīng)用進(jìn)行處理。與現(xiàn)有技術(shù)相比,由虛擬架構(gòu)管理系統(tǒng)直接根據(jù)故障設(shè)備的故障告警消息確定受故障設(shè)備影響的虛擬機(jī)的信息,使得業(yè)務(wù)管理系統(tǒng)可以直接根據(jù)第一虛擬機(jī)集合的狀態(tài)告警消息分析得到受影響的業(yè)務(wù)應(yīng)用,而不是根據(jù)故障設(shè)備的告警消息去分析得到受影響的虛擬機(jī)、再分析受影響的業(yè)務(wù)應(yīng)用。從而使得業(yè)務(wù)管理系統(tǒng)不需要直接感知硬件故障,進(jìn)而可以快速觸發(fā)業(yè)務(wù)應(yīng)用的影響處理,降低業(yè)務(wù)損失,提高業(yè)務(wù)應(yīng)用的可靠性。
在一種可能的實(shí)現(xiàn)方式中,所述故障處理方法還包括:虛擬架構(gòu)管理系統(tǒng)根據(jù)故障硬件的故障告警消息確定第一虛擬機(jī)集合的影響信息,該影響信息用于指示故障設(shè)備對(duì)第一虛擬機(jī)集合中的第一虛擬機(jī)產(chǎn)生的影響的類(lèi)型和/或級(jí)別;相應(yīng)地,狀態(tài)告警消息還可以攜帶第一虛擬機(jī)集合的影響信息。
該故障處理方法中,虛擬架構(gòu)管理系統(tǒng)根據(jù)故障設(shè)備的故障告警信息除了可以獲取受影響的至少一個(gè)虛擬機(jī),還可以獲取故障設(shè)備發(fā)生的故障對(duì)這些虛擬機(jī)的影響的類(lèi)型和/或級(jí)別,然后在向業(yè)務(wù)管理系統(tǒng)發(fā)送的狀態(tài)告警消息中還攜帶用于指示故障設(shè)備對(duì)第一虛擬機(jī)集合中的第一虛擬機(jī)產(chǎn)生的影響的類(lèi)型和/或級(jí)別的影響信息,從而使得業(yè)務(wù)管理系統(tǒng)或業(yè)務(wù)系統(tǒng)可以更加根據(jù)該影響信息對(duì)業(yè)務(wù)應(yīng)用進(jìn)行處理,進(jìn)一步提高業(yè)務(wù)應(yīng)用的可靠性。
可選地,狀態(tài)告警信息還可以包括第一虛擬機(jī)集合中的第一虛擬機(jī)的標(biāo)識(shí)信息、告警標(biāo)識(shí)信息、告警名稱(chēng)信息、告警對(duì)象類(lèi)型信息、告警類(lèi)型信息、告警產(chǎn)生時(shí)間信息、告警部件類(lèi)型信息、告警部件標(biāo)識(shí)信息和告警部件名稱(chēng)信息。
可選地,所述狀態(tài)告警信息可以包括故障設(shè)備的故障類(lèi)型信息。
在一種可能的實(shí)現(xiàn)方式中,故障設(shè)備對(duì)第一虛擬機(jī)集合中的第一虛擬機(jī)產(chǎn)生的影響的類(lèi)型包括故障、高風(fēng)險(xiǎn)、中風(fēng)險(xiǎn)、低風(fēng)險(xiǎn)或無(wú)影響中的一種或多種類(lèi)型。
可選地,故障設(shè)備對(duì)第一虛擬機(jī)集合中的第一虛擬機(jī)產(chǎn)生的影響的級(jí)別包括緊急、重要或不重要。
在一種可能的實(shí)現(xiàn)方式中,該故障處理方法還包括:虛擬架構(gòu)管理系統(tǒng)接收業(yè)務(wù)管理系統(tǒng)發(fā)送的第一請(qǐng)求消息,第一請(qǐng)求消息用于指示待恢復(fù)的虛擬機(jī),該待恢復(fù)的虛擬機(jī)為第一虛擬機(jī)集合中一個(gè)子集;虛擬架構(gòu)管理系統(tǒng)根據(jù)第一請(qǐng)求信息優(yōu)先恢復(fù)該待恢復(fù)的虛擬機(jī)。
該故障處理方法中,虛擬架構(gòu)管理系統(tǒng)可以根據(jù)業(yè)務(wù)管理系統(tǒng)的請(qǐng)求,根據(jù)業(yè)務(wù)管理系統(tǒng)指示的優(yōu)先級(jí),對(duì)受故障設(shè)備的故障所影響的第一虛擬機(jī)集合中的至少一個(gè)虛擬機(jī)進(jìn)行恢復(fù)處理。
可選地,虛擬架構(gòu)管理系統(tǒng)對(duì)虛擬機(jī)進(jìn)行的恢復(fù)處理可以包括:虛擬機(jī)熱遷移。
在一種可能的實(shí)現(xiàn)方式中,該故障處理方法還包括:若虛擬架構(gòu)管理系統(tǒng)在預(yù)置時(shí)間閾值內(nèi)未接收到業(yè)務(wù)管理系統(tǒng)發(fā)送的第一請(qǐng)求信息,則按照預(yù)置虛擬機(jī)恢復(fù)策略恢復(fù)第一虛擬機(jī)集合中的第一虛擬機(jī)。
該故障處理方法可以保證在業(yè)務(wù)管理系統(tǒng)沒(méi)有信息指示虛擬架構(gòu)管理系統(tǒng)如何恢復(fù)第一虛擬機(jī)集合中的虛擬機(jī)時(shí),虛擬架構(gòu)管理系統(tǒng)可以主動(dòng)根據(jù)預(yù)先配置的恢復(fù)策略對(duì)第一虛擬機(jī)集合中的第一虛擬機(jī)進(jìn)行恢復(fù)。
在一種可能的實(shí)現(xiàn)方式中,該故障處理方法還包括:虛擬架構(gòu)管理系統(tǒng)向業(yè)務(wù)管理系統(tǒng)發(fā)送狀態(tài)告警清除消息。
該故障處理方法中,虛擬架構(gòu)管理系統(tǒng)對(duì)虛擬機(jī)進(jìn)行恢復(fù)處理后,向業(yè)務(wù)管理系統(tǒng)發(fā)送狀態(tài)告警清除消息,使得業(yè)務(wù)管理系統(tǒng)可以根據(jù)該狀態(tài)告警清除消息清除之前接收的相關(guān)的狀態(tài)告警消息,從而避免業(yè)務(wù)管理系統(tǒng)對(duì)已經(jīng)恢復(fù)的虛擬機(jī)相關(guān)的狀態(tài)告警消息進(jìn)行分析處理。
第二方面,本發(fā)明提供了一種虛擬架構(gòu)管理系統(tǒng),所述虛擬架構(gòu)管理系統(tǒng)包括用于執(zhí)行第一方面或第一方面任一種可能實(shí)現(xiàn)方式中的故障處理方法的各個(gè)模塊。
本發(fā)明提供的虛擬架構(gòu)管理系統(tǒng),獲取到故障設(shè)備上的故障告警消息后,直接對(duì)該故障告警消息進(jìn)行分析處理,獲取故障設(shè)備影響的一個(gè)或多個(gè)虛擬機(jī),并向業(yè)務(wù)管理系統(tǒng)發(fā)送這些虛擬機(jī)的信息,使得業(yè)務(wù)管理系統(tǒng)可以直接根據(jù)這些虛擬機(jī)的信息分析得到受影響的業(yè)務(wù)應(yīng)用,進(jìn)而可以受影響的業(yè)務(wù)應(yīng)用進(jìn)行處理。與現(xiàn)有技術(shù)相比,由虛擬架構(gòu)管理系統(tǒng)直接根據(jù)故障設(shè)備的故障告警消息確定受故障設(shè)備影響的虛擬機(jī)的信息,使得業(yè)務(wù)管理系統(tǒng)可以直接根據(jù)第一虛擬機(jī)集合的狀態(tài)告警消息分析得到受影響的業(yè)務(wù)應(yīng)用,而不是根據(jù)故障設(shè)備的告警消息去分析得到受影響的虛擬機(jī)、再分析受影響的業(yè)務(wù)應(yīng)用。從而使得業(yè)務(wù)管理系統(tǒng)不需要直接感知硬件故障,進(jìn)而可以快速觸發(fā)業(yè)務(wù)應(yīng)用的影響處理,降低業(yè)務(wù)損失,提高業(yè)務(wù)應(yīng)用的可靠性。
第三方面,本發(fā)明提供一種虛擬架構(gòu)管理系統(tǒng),所述虛擬架構(gòu)管理系統(tǒng)包括處理器、存儲(chǔ)器、通信接口和總線(xiàn)。其中,處理器、存儲(chǔ)器、通信接口通過(guò)總線(xiàn)進(jìn)行通信,也可以通過(guò)無(wú)線(xiàn)傳輸?shù)绕渌侄螌?shí)現(xiàn)通信。該存儲(chǔ)器用于存儲(chǔ)指令,該處理器用于執(zhí)行該存儲(chǔ)器存儲(chǔ)的指令。該存儲(chǔ)器存儲(chǔ)程序代碼,且處理器可以調(diào)用存儲(chǔ)器中存儲(chǔ)的程序代碼執(zhí)行第一方面及第一方面任一種可能實(shí)現(xiàn)方式中的故障處理方法。
第四方面,本發(fā)明提供了一種計(jì)算機(jī)可讀介質(zhì),所述計(jì)算機(jī)可讀介質(zhì)存儲(chǔ)用于虛擬架構(gòu)管理系統(tǒng)執(zhí)行的程序代碼,所述程序代碼包括用于執(zhí)行第一方面及第一方面任一種可能實(shí)現(xiàn)方式中的故障處理方法的指令。
第五方面,本發(fā)明還提供了一種故障處理方法,該故障處理方法用于在虛擬化計(jì)算機(jī)系統(tǒng)中進(jìn)行故障處理,虛擬化計(jì)算機(jī)系統(tǒng)包括:虛擬架構(gòu)管理系統(tǒng)、業(yè)務(wù)管理系統(tǒng)以及至少一個(gè)虛擬機(jī),該至少一個(gè)虛擬機(jī)運(yùn)行在至少一臺(tái)物理設(shè)備上,該至少一個(gè)虛擬機(jī)用于執(zhí)行業(yè)務(wù)應(yīng)用,業(yè)務(wù)管理系統(tǒng)用于管理業(yè)務(wù)應(yīng)用,虛擬架構(gòu)管理系統(tǒng)用于管理該至少一個(gè)虛擬機(jī)和該至少一臺(tái)物理設(shè)備;該故障處理方法包括:業(yè)務(wù)管理系統(tǒng)接收虛擬架構(gòu)管理系統(tǒng)發(fā)送的狀態(tài)告警消息,該狀態(tài)告警消息攜帶受故障設(shè)備影響的第一虛擬機(jī)集合的信息,第一虛擬機(jī)集合中包括至少一個(gè)第一虛擬機(jī);業(yè)務(wù)管理系統(tǒng)根據(jù)狀態(tài)告警消息確定至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用;業(yè)務(wù)管理系統(tǒng)對(duì)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用執(zhí)行處理操作。
該故障處理方法中,業(yè)務(wù)管理系統(tǒng)從虛擬架構(gòu)管理系統(tǒng)接收到受故障設(shè)備影響的第一虛擬機(jī)集合中的虛擬機(jī)的信息后,可以直接根據(jù)這些虛擬機(jī)的信息分析得到受影響的業(yè)務(wù)應(yīng)用,進(jìn)而可以對(duì)受影響的業(yè)務(wù)應(yīng)用進(jìn)行處理。與現(xiàn)有技術(shù)相比,業(yè)務(wù)管理系統(tǒng)可以直接根據(jù)第一虛擬機(jī)集合的狀態(tài)告警消息分析得到受影響的業(yè)務(wù)應(yīng)用,而不是根據(jù)故障設(shè)備的告警消息去分析得到受影響的虛擬機(jī)、再分析受影響的業(yè)務(wù)應(yīng)用。從而使得業(yè)務(wù)管理系統(tǒng)不需要直接感知硬件故障,進(jìn)而可以快速觸發(fā)業(yè)務(wù)應(yīng)用的影響處理,降低業(yè)務(wù)損失,提高業(yè)務(wù)應(yīng)用的可靠性。
在一種可能的實(shí)現(xiàn)方式中,第一虛擬機(jī)集合的狀態(tài)告警消息還攜帶第一虛擬機(jī)集合的影響信息,該影響信息用于指示故障設(shè)備對(duì)第一虛擬機(jī)集合中的至少一個(gè)第一虛擬機(jī)產(chǎn)生的影響的類(lèi)型和/或級(jí)別。相應(yīng)地,業(yè)務(wù)管理系統(tǒng)對(duì)業(yè)務(wù)應(yīng)用執(zhí)行處理操作包括:業(yè)務(wù)管理系統(tǒng)根據(jù)第一虛擬機(jī)集合的影響信息對(duì)業(yè)務(wù)應(yīng)用執(zhí)行處理操作。
該故障處理方法中,業(yè)務(wù)管理系統(tǒng)從虛擬架構(gòu)管理系統(tǒng)接收的第一虛擬機(jī)集合的狀態(tài)告警消息中還攜帶用于指示故障設(shè)備對(duì)第一虛擬機(jī)集合中的第一虛擬機(jī)產(chǎn)生的影響的類(lèi)型和/或級(jí)別的影響信息,從而使得業(yè)務(wù)管理系統(tǒng)或業(yè)務(wù)系統(tǒng)可以更加根據(jù)該影響信息對(duì)業(yè)務(wù)應(yīng)用進(jìn)行處理,進(jìn)一步提高業(yè)務(wù)應(yīng)用的可靠性。
可選地,狀態(tài)告警信息還可以包括第一虛擬機(jī)集合中的第一虛擬機(jī)的標(biāo)識(shí)信息、告警標(biāo)識(shí)信息、告警名稱(chēng)信息、告警對(duì)象類(lèi)型信息、告警類(lèi)型信息、告警產(chǎn)生時(shí)間信息、告警部件類(lèi)型信息、告警部件標(biāo)識(shí)信息和告警部件名稱(chēng)信息。
可選地,所述狀態(tài)告警信息可以包括故障設(shè)備的故障類(lèi)型信息。
在一種可能的實(shí)現(xiàn)方式中,第一虛擬機(jī)集合產(chǎn)生的影響的類(lèi)型包括故障、高風(fēng)險(xiǎn)、中風(fēng)險(xiǎn)、低風(fēng)險(xiǎn)或無(wú)影響中的一種或多種類(lèi)型。
可選地,故障設(shè)備對(duì)第一虛擬機(jī)集合中的第一虛擬機(jī)產(chǎn)生的影響的級(jí)別包括緊急、重要或不重要。
在一種可能的實(shí)現(xiàn)方式中,處理操作包括以下方式中的至少一種:
業(yè)務(wù)管理系統(tǒng)將至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用切換至未受故障設(shè)備影響的虛擬機(jī)執(zhí)行;或
業(yè)務(wù)管理系統(tǒng)將至少一個(gè)第一虛擬機(jī)的應(yīng)用狀態(tài)信息標(biāo)識(shí)為隔離狀態(tài),隔離狀態(tài)用于指示至少一個(gè)第一虛擬機(jī)停止執(zhí)行至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用;或
業(yè)務(wù)管理系統(tǒng)向虛擬架構(gòu)管理系統(tǒng)發(fā)送第一請(qǐng)求消息,第一請(qǐng)求消息用于指示待恢復(fù)的虛擬機(jī),待恢復(fù)的虛擬機(jī)為第一虛擬機(jī)集合中一個(gè)子集;或
業(yè)務(wù)管理系統(tǒng)向至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用的控制節(jié)點(diǎn)發(fā)送狀態(tài)告警消息,以使得控制節(jié)點(diǎn)根據(jù)狀態(tài)告警消息將至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用切換至未受故障設(shè)備影響的虛擬機(jī)執(zhí)行或?qū)⒅辽僖粋€(gè)第一虛擬機(jī)的應(yīng)用狀態(tài)信息標(biāo)識(shí)為隔離狀態(tài)。
在一種可能的實(shí)現(xiàn)方式中,該故障處理方法還包括:業(yè)務(wù)管理系統(tǒng)根據(jù)第一虛擬機(jī)集合的影響信息確定第一請(qǐng)求消息。
該故障處理方法中,業(yè)務(wù)管理系統(tǒng)可以根據(jù)第一虛擬機(jī)的影響信息確定第一虛擬機(jī)集合中需要虛擬架構(gòu)管理系統(tǒng)恢復(fù)的待恢復(fù)的虛擬機(jī)的優(yōu)先級(jí),并向虛擬機(jī)架構(gòu)管理發(fā)送用于指示這些待恢復(fù)的虛擬機(jī)的恢復(fù)優(yōu)先級(jí)的第一請(qǐng)求消息,使得虛擬架構(gòu)管理系統(tǒng)可以根據(jù)業(yè)務(wù)管理系統(tǒng)指示的優(yōu)先級(jí),對(duì)受故障設(shè)備的故障所影響的第一虛擬機(jī)集合中的至少一個(gè)虛擬機(jī)進(jìn)行恢復(fù)處理。
在一種可能的實(shí)現(xiàn)方式中,業(yè)務(wù)管理系統(tǒng)向虛擬架構(gòu)管理系統(tǒng)發(fā)送用于指示待恢復(fù)的虛擬機(jī)的恢復(fù)優(yōu)先級(jí)的第一請(qǐng)求消息的一種具體實(shí)現(xiàn)方式可以為:業(yè)務(wù)管理系統(tǒng)根據(jù)業(yè)務(wù)應(yīng)用的優(yōu)先級(jí)向虛擬架構(gòu)管理系統(tǒng)發(fā)送第一請(qǐng)求消息。
該故障處理方法中,業(yè)務(wù)管理系統(tǒng)根據(jù)第一虛擬機(jī)集合中的第一虛擬機(jī)相關(guān)聯(lián)的業(yè)務(wù)應(yīng)用的優(yōu)先級(jí),即根據(jù)故障設(shè)備影響的業(yè)務(wù)應(yīng)用的優(yōu)先級(jí)指示虛擬架構(gòu)管理系統(tǒng)對(duì)第一虛擬機(jī)集合中的待恢復(fù)的虛擬機(jī)進(jìn)行恢復(fù)處理,從而可以保證高優(yōu)先級(jí)的業(yè)務(wù)應(yīng)用可以?xún)?yōu)先得到恢復(fù),進(jìn)一步保證業(yè)務(wù)應(yīng)用的可靠性。
可選地,業(yè)務(wù)管理系統(tǒng)可以根據(jù)第一虛擬機(jī)集合的影響信息和相關(guān)聯(lián)的業(yè)務(wù)應(yīng)用的優(yōu)先級(jí)向虛擬架構(gòu)管理系統(tǒng)發(fā)送第一請(qǐng)求消息。
在一種可能的實(shí)現(xiàn)方式中,業(yè)務(wù)管理系統(tǒng)向虛擬架構(gòu)管理系統(tǒng)發(fā)送第一請(qǐng)求消息的一種具體實(shí)現(xiàn)方式為:業(yè)務(wù)管理系統(tǒng)根據(jù)業(yè)務(wù)應(yīng)用的部署模式向虛擬架構(gòu)管理系統(tǒng)發(fā)送第一請(qǐng)求消息,業(yè)務(wù)應(yīng)用的部署模式包括主備模式、負(fù)荷分擔(dān)模式和單虛擬機(jī)模式中的至少一種。
該故障處理方法中,業(yè)務(wù)管理系統(tǒng)根據(jù)業(yè)務(wù)應(yīng)用的部署模式,即根據(jù)故障設(shè)備影響的業(yè)務(wù)應(yīng)用的部署模式指示虛擬架構(gòu)管理系統(tǒng)對(duì)第一虛擬機(jī)集合中的待恢復(fù)的虛擬機(jī)進(jìn)行恢復(fù)處理。
可選地,業(yè)務(wù)管理系統(tǒng)可以根據(jù)第一虛擬機(jī)集合的影響信息和業(yè)務(wù)應(yīng)用的部署模式向虛擬架構(gòu)管理系統(tǒng)發(fā)送第一請(qǐng)求消息,或可以根據(jù)業(yè)務(wù)應(yīng)用的部署模式和業(yè)務(wù)應(yīng)用的優(yōu)先級(jí)向虛擬架構(gòu)管理系統(tǒng)發(fā)送第一請(qǐng)求消息,或可以根據(jù)第一虛擬機(jī)集合的影響信息、業(yè)務(wù)應(yīng)用的部署模式和業(yè)務(wù)應(yīng)用的優(yōu)先級(jí)向虛擬架構(gòu)管理系統(tǒng)發(fā)送第一請(qǐng)求消息。
在一種可能的實(shí)現(xiàn)方式中,該故障處理方法還包括:業(yè)務(wù)管理系統(tǒng)接收虛擬架構(gòu)管理系統(tǒng)發(fā)送的狀態(tài)告警清除消息;業(yè)務(wù)管理系統(tǒng)根據(jù)該狀態(tài)告警清除消息清除之前接收的相關(guān)的狀態(tài)告警消息。
該故障處理方法中,業(yè)務(wù)管理系統(tǒng)可以根據(jù)虛擬架構(gòu)管理系統(tǒng)發(fā)送的狀態(tài)告警清除消息清除之前接收的相關(guān)的狀態(tài)告警消息,從而避免對(duì)已經(jīng)恢復(fù)的虛擬機(jī)相關(guān)的狀態(tài)告警消息進(jìn)行分析處理。
第六方面,本發(fā)明提供了一種業(yè)務(wù)管理系統(tǒng),所述業(yè)務(wù)管理系統(tǒng)包括用于執(zhí)行第五方面或第五方面的任一可能的實(shí)現(xiàn)方式中的故障處理方法的各個(gè)模塊。
第七方面,本發(fā)明提供了一種業(yè)務(wù)管理系統(tǒng),所述業(yè)務(wù)管理系統(tǒng)包括處理器、存儲(chǔ)器、通信接口和總線(xiàn)。其中,處理器、存儲(chǔ)器、通信接口通過(guò)總線(xiàn)進(jìn)行通信,也可以通過(guò)無(wú)線(xiàn)傳輸?shù)绕渌侄螌?shí)現(xiàn)通信。該存儲(chǔ)器用于存儲(chǔ)指令,該處理器用于執(zhí)行該存儲(chǔ)器存儲(chǔ)的指令。該存儲(chǔ)器存儲(chǔ)程序代碼,且處理器可以調(diào)用存儲(chǔ)器中存儲(chǔ)的程序代碼執(zhí)行第五方面及第五方面任一種可能實(shí)現(xiàn)方式中的故障處理方法。
第八方面,本發(fā)明提供了一種計(jì)算機(jī)可讀介質(zhì),所述計(jì)算機(jī)可讀介質(zhì)存儲(chǔ)用于業(yè)務(wù)管理系統(tǒng)執(zhí)行的程序代碼,所述程序代碼包括用于執(zhí)行第五方面或第五方面的任一可能的實(shí)現(xiàn)方式中的故障處理方法的指令。
第九方面,本發(fā)明提供了一種虛擬化計(jì)算機(jī)系統(tǒng),包括虛擬管理節(jié)點(diǎn)和業(yè)務(wù)管理節(jié)點(diǎn),該虛擬化管理節(jié)點(diǎn)用于執(zhí)行第一方面或第一方面的任一可能的實(shí)現(xiàn)方式中的故障處理方法,該業(yè)務(wù)管理節(jié)點(diǎn)用于執(zhí)行第五方面或第五方面的任一可能的實(shí)現(xiàn)方式中的故障處理方法。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)本發(fā)明實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面所描述的附圖僅僅是本發(fā)明的一些實(shí)施例的附圖。
圖1A是應(yīng)用本發(fā)明實(shí)施例的故障處理方法的示意性系統(tǒng)結(jié)構(gòu)圖。
圖1B是應(yīng)用本發(fā)明實(shí)施例的故障處理方法的另一種示意性系統(tǒng)結(jié)構(gòu)圖。
圖2是本發(fā)明一個(gè)實(shí)施例的故障處理方法的示意性流程圖。
圖3是本發(fā)明另一個(gè)實(shí)施例的故障處理方法的示意性流程圖。
圖4是本發(fā)明另一個(gè)實(shí)施例的故障處理方法的示意性流程圖。
圖5是本發(fā)明一個(gè)實(shí)施例的虛擬架構(gòu)管理系統(tǒng)的示意性結(jié)構(gòu)圖。
圖6是本發(fā)明一個(gè)實(shí)施例的業(yè)務(wù)管理系統(tǒng)的示意性結(jié)構(gòu)圖。
圖7是本發(fā)明另一個(gè)實(shí)施例的虛擬架構(gòu)管理系統(tǒng)的示意性結(jié)構(gòu)圖。
圖8是本發(fā)明另一個(gè)實(shí)施例的業(yè)務(wù)管理系統(tǒng)的示意性結(jié)構(gòu)圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。
為了便于理解,先從整體上描述能夠?qū)嵤┍景l(fā)明實(shí)施例的故障處理方法的系統(tǒng)架構(gòu)的示例圖。應(yīng)理解,本發(fā)明實(shí)施例并不限于圖1A和圖1B所示的虛擬化計(jì)算機(jī)系統(tǒng)中,此外,圖1A和圖1B中的裝置可以是硬件,也可以是從功能上劃分的軟件或者以上二者的結(jié)合。
硬件資源(Hardware Resources)110可以包括一個(gè)或多個(gè)設(shè)備,每個(gè)設(shè)備可以為X86服務(wù)器、存儲(chǔ)設(shè)備、網(wǎng)絡(luò)設(shè)備等硬件設(shè)備資源,可用于提供計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等硬件功能。
虛擬化層(Virtualization Layer)120通過(guò)虛擬化技術(shù)對(duì)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等硬件資源進(jìn)行虛擬化,其中,虛擬化技術(shù)可以使用Xen,HyperV,也可以使用KVM,本發(fā)明不作限制。
虛擬資源(Virtual Resources)130是指通過(guò)虛擬化技術(shù)對(duì)硬件資源110進(jìn)行虛擬化形成的虛擬資源,如虛擬計(jì)算、虛擬網(wǎng)絡(luò)、虛擬存儲(chǔ)等。
硬件資源110、虛擬化層120和虛擬資源130又可以成為虛擬架構(gòu)層(Virtualized Infrastructure Layer),為上層業(yè)務(wù)提供虛擬資源或虛擬資源池等基礎(chǔ)設(shè)施層。
業(yè)務(wù)系統(tǒng)140中部署一個(gè)或多個(gè)業(yè)務(wù)應(yīng)用功能,每個(gè)業(yè)務(wù)應(yīng)用部署在一個(gè)或多個(gè)虛擬機(jī)上,即這些虛擬機(jī)用于執(zhí)行業(yè)務(wù)應(yīng)用。虛擬機(jī)部署在硬件資源110中的設(shè)備上。
每個(gè)業(yè)務(wù)應(yīng)用有對(duì)應(yīng)的控制節(jié)點(diǎn)。控制節(jié)點(diǎn)用于對(duì)對(duì)應(yīng)的業(yè)務(wù)應(yīng)用進(jìn)行管理??刂乒?jié)點(diǎn)也可稱(chēng)為仲裁節(jié)點(diǎn)??刂乒?jié)點(diǎn)可以部署在業(yè)務(wù)系統(tǒng)中,一個(gè)控制節(jié)點(diǎn)可以分別管理對(duì)應(yīng)的一個(gè)業(yè)務(wù)應(yīng)用,如圖1A所示;一個(gè)控制節(jié)點(diǎn)也可以管理多個(gè)業(yè)務(wù)應(yīng)用,如圖1B所示??刂乒?jié)點(diǎn)可以指用于對(duì)對(duì)應(yīng)的業(yè)務(wù)應(yīng)用進(jìn)行管理的硬件裝置,也可以指業(yè)務(wù)應(yīng)用運(yùn)行的多個(gè)虛擬機(jī)中的一個(gè)虛擬機(jī)。
虛擬架構(gòu)管理(Virtualized Infrastructure Manager)系統(tǒng)150實(shí)現(xiàn)虛擬化基礎(chǔ)設(shè)施的管理,負(fù)責(zé)對(duì)物理硬件(即硬件資源110)虛擬化資源和部署在硬件資源110中的設(shè)備上的虛擬機(jī)進(jìn)行統(tǒng)一管理、監(jiān)控、資源調(diào)度、故障處理等,為業(yè)務(wù)系統(tǒng)運(yùn)行提供資源支持,并提供開(kāi)放接口等。虛擬化架構(gòu)管理系統(tǒng)150也可以稱(chēng)為是虛擬化層的組成部分。
業(yè)務(wù)管理系統(tǒng)160,用于對(duì)運(yùn)行在虛擬機(jī)上的業(yè)務(wù)應(yīng)用進(jìn)行管理,如創(chuàng)建業(yè)務(wù)應(yīng)用、發(fā)放業(yè)務(wù)應(yīng)用、業(yè)務(wù)應(yīng)用中虛擬資源調(diào)度、及關(guān)閉業(yè)務(wù)應(yīng)用等。業(yè)務(wù)管理系統(tǒng)可以管理一個(gè)或多個(gè)業(yè)務(wù)應(yīng)用。業(yè)務(wù)管理系統(tǒng)調(diào)用虛擬架構(gòu)管理系統(tǒng)提供的接口,為業(yè)務(wù)應(yīng)用運(yùn)行提供資源,實(shí)現(xiàn)業(yè)務(wù)應(yīng)用發(fā)放、部署等。業(yè)務(wù)管理系統(tǒng)160與虛擬架構(gòu)管理系統(tǒng)150對(duì)接。當(dāng)然,業(yè)務(wù)管理系統(tǒng)可以與多個(gè)虛擬架構(gòu)管理系統(tǒng)對(duì)接。
其中,業(yè)務(wù)管理系統(tǒng)160和業(yè)務(wù)系統(tǒng)140又可統(tǒng)稱(chēng)為應(yīng)用層。業(yè)務(wù)管理系統(tǒng)160和業(yè)務(wù)系統(tǒng)140可以是邏輯分開(kāi)的系統(tǒng),如圖1A和1B所示,也可以由一個(gè)系統(tǒng)實(shí)現(xiàn)二者的功能。本發(fā)明實(shí)施例的以下具體描述中以圖1A所示虛擬化計(jì)算機(jī)系統(tǒng)為例進(jìn)行具體描述。
由上述內(nèi)容可知,業(yè)務(wù)系統(tǒng)運(yùn)行在虛擬資源130中的虛擬機(jī)上,業(yè)務(wù)系統(tǒng)不需要關(guān)心具體的硬件設(shè)備,也不需要知道業(yè)務(wù)應(yīng)用所在的虛擬機(jī)具體在哪個(gè)硬件設(shè)備上運(yùn)行,業(yè)務(wù)管理系統(tǒng)和業(yè)務(wù)系統(tǒng)均不需要直接感知設(shè)備及故障設(shè)備對(duì)業(yè)務(wù)應(yīng)用的影響。
因此本發(fā)明提出新的故障處理方法、虛擬架構(gòu)管理系統(tǒng)、業(yè)務(wù)管理系統(tǒng)和虛擬化計(jì)算機(jī)系統(tǒng),使得業(yè)務(wù)管理系統(tǒng)不用直接感知設(shè)備以及設(shè)備故障對(duì)業(yè)務(wù)應(yīng)用的影響,而是可以從虛擬架構(gòu)管理系統(tǒng)獲知設(shè)備故障對(duì)VM的影響,從而可以快速地獲知受影響的業(yè)務(wù)應(yīng)用,進(jìn)而使得受影響的業(yè)務(wù)應(yīng)用能夠快速地得到處理。
下面以圖1A所示的虛擬化計(jì)算機(jī)系統(tǒng)為例對(duì)本發(fā)明實(shí)施例的故障處理方法進(jìn)行詳細(xì)的介紹。
圖2為本發(fā)明實(shí)施例的故障處理方法的示意性流程圖。應(yīng)理解,圖2示出了故障處理方法的步驟或操作,但這些步驟或操作僅是示例,本發(fā)明實(shí)施例還可以執(zhí)行其他操作或者圖2中的各個(gè)操作的變形。此外,圖2中的各個(gè)步驟可以按照與圖2呈現(xiàn)的不同的順序來(lái)執(zhí)行,并且有可能并非要執(zhí)行圖2中的全部操作。
S210,虛擬架構(gòu)管理系統(tǒng)獲取故障告警消息,故障告警消息攜帶故障設(shè)備的標(biāo)識(shí)信息和故障類(lèi)型。
其中,故障設(shè)備可以是圖1A中所示硬件資源110中任意一種或多種設(shè)備,故障類(lèi)型包括整機(jī)故障或部分硬件故障。
例如,若故障設(shè)備為X86服務(wù)器,則故障類(lèi)型可以為X86服務(wù)器整機(jī)故障,也可以是X86服務(wù)器中CPU、內(nèi)存、網(wǎng)卡、磁盤(pán)中至少一種硬件故障。
本發(fā)明實(shí)施例中,故障設(shè)備(如服務(wù)器、存儲(chǔ)設(shè)備等)可以快速檢測(cè)自身故障,然后虛擬架構(gòu)管理系統(tǒng)可以通過(guò)多種方式或協(xié)議獲取故障設(shè)備的故障告警消息,如故障設(shè)備可以通過(guò)簡(jiǎn)單網(wǎng)絡(luò)管理協(xié)議(Simple Network Management Protocol,SNMP)向虛擬架構(gòu)管理系統(tǒng)上報(bào)故障設(shè)備的故障告警消息,或者虛擬架構(gòu)管理系統(tǒng)可以通過(guò)表述性狀態(tài)傳遞(Representational State Transfer,REST)接口查詢(xún)故障設(shè)備的故障告警消息。
S220,虛擬架構(gòu)管理系統(tǒng)根據(jù)故障設(shè)備的故障告警消息確定第一虛擬機(jī)集合,第一虛擬機(jī)集合包括受故障設(shè)備影響的至少一個(gè)第一虛擬機(jī)。
虛擬架構(gòu)管理系統(tǒng)獲取到故障設(shè)備的故障告警消息后,根據(jù)該故障告警消息確定受故障設(shè)備影響的第一虛擬機(jī)集合。虛擬架構(gòu)管理系統(tǒng)獲取到故障設(shè)備的故障告警消息后,根據(jù)該故障告警消息確定第一虛擬機(jī)集合確定第一虛擬機(jī)集合的具體實(shí)現(xiàn)方式可以是:虛擬架構(gòu)管理系統(tǒng)根據(jù)故障設(shè)備的標(biāo)識(shí)信息和故障類(lèi)型,從虛擬架構(gòu)管理系統(tǒng)的數(shù)據(jù)庫(kù)中,查詢(xún)部署在該故障設(shè)備上且受該故障設(shè)備發(fā)生的故障所影響的全部或部分虛擬機(jī)的信息。為了后續(xù)描述方便,可以將受到影響的虛擬機(jī)中的每個(gè)虛擬機(jī)稱(chēng)為第一虛擬機(jī),所有的第一虛擬機(jī)組成第一虛擬機(jī)集合。
S230,虛擬架構(gòu)管理系統(tǒng)向業(yè)務(wù)管理系統(tǒng)發(fā)送狀態(tài)告警消息其中,狀態(tài)告警消息攜帶第一虛擬機(jī)集合的信息。
當(dāng)虛擬架構(gòu)管理系統(tǒng)為多個(gè)第一虛擬機(jī)分別生成一條狀態(tài)告警消息時(shí),虛擬架構(gòu)管理系統(tǒng)可以一次將這些狀態(tài)告警消息發(fā)送給業(yè)務(wù)管理系統(tǒng),也可以分多次發(fā)送給業(yè)務(wù)管理系統(tǒng)。
當(dāng)然,虛擬架構(gòu)管理系統(tǒng)也可以為所有受影響的虛擬機(jī)生成一個(gè)狀態(tài)告警消息,即第一虛擬機(jī)集合中所有第一虛擬機(jī)生成一個(gè)狀態(tài)告警消息,本發(fā)明對(duì)此不作限制。
業(yè)務(wù)管理系統(tǒng)接收虛擬架構(gòu)管理系統(tǒng)發(fā)送的第一虛擬機(jī)集合的狀態(tài)告警消息后,可以存儲(chǔ)將該狀態(tài)告警消息,如將該狀態(tài)告警消息記錄或保存在業(yè)務(wù)管理系統(tǒng)的數(shù)據(jù)庫(kù)中。
S240,業(yè)務(wù)管理系統(tǒng)根據(jù)第一虛擬機(jī)集合的狀態(tài)告警消息確定第一虛擬機(jī)集合中至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用。
業(yè)務(wù)管理系統(tǒng)接收到虛擬架構(gòu)管理系統(tǒng)發(fā)送的第一虛擬機(jī)集合的狀態(tài)告警消息后,將該狀態(tài)告警信息和業(yè)務(wù)應(yīng)用關(guān)聯(lián),識(shí)別具體受影響的業(yè)務(wù)應(yīng)用,具體實(shí)現(xiàn)方式可以為:根據(jù)第一虛擬機(jī)集合的狀態(tài)告警消息中攜帶的受影響的第一虛擬機(jī)的信息,從業(yè)務(wù)管理系統(tǒng)的數(shù)據(jù)庫(kù)或配置文件中,查詢(xún)第一虛擬機(jī)和業(yè)務(wù)應(yīng)用的對(duì)應(yīng)關(guān)系,識(shí)別出具體受影響的業(yè)務(wù)應(yīng)用。
S250,業(yè)務(wù)管理系統(tǒng)對(duì)第一虛擬機(jī)集合中的至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用執(zhí)行處理操作。
具體而言,業(yè)務(wù)管理系統(tǒng)對(duì)第一虛擬機(jī)集合中的第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用執(zhí)行處理操作的一種實(shí)現(xiàn)方式可以是:業(yè)務(wù)管理系統(tǒng)向業(yè)務(wù)應(yīng)用對(duì)應(yīng)的控制節(jié)點(diǎn)發(fā)送第一虛擬機(jī)集合的信息。其中,第一虛擬機(jī)集合的信息用于指示控制節(jié)點(diǎn)對(duì)該業(yè)務(wù)應(yīng)用進(jìn)行恢復(fù)處理。
可選地,業(yè)務(wù)管理系統(tǒng)對(duì)第一虛擬機(jī)集合中的至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用執(zhí)行處理操作包括以下方式中的至少一種:
方式一:業(yè)務(wù)管理系統(tǒng)將受影響的至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用切換至未受所述故障設(shè)備影響的虛擬機(jī)執(zhí)行
方式二:業(yè)務(wù)管理系統(tǒng)將將所述至少一個(gè)第一虛擬機(jī)的應(yīng)用狀態(tài)信息標(biāo)識(shí)為隔離狀態(tài),所述隔離狀態(tài)用于指示所述至少一個(gè)第一虛擬機(jī)停止執(zhí)行所述至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用,即在業(yè)務(wù)應(yīng)用中隔離受影響的虛擬機(jī)。
方式三:業(yè)務(wù)管理系統(tǒng)向虛擬架構(gòu)管理系統(tǒng)發(fā)送第一請(qǐng)求消息,第一請(qǐng)求消息用于指示待恢復(fù)的虛擬機(jī),待恢復(fù)的虛擬機(jī)為所述第一虛擬機(jī)集合中一個(gè)子集。
方式四:業(yè)務(wù)管理系統(tǒng)向至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用的控制節(jié)點(diǎn)發(fā)送狀態(tài)告警消息,以使得控制節(jié)點(diǎn)根據(jù)所述狀態(tài)告警消息將至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用切換至未受所述故障設(shè)備影響的虛擬機(jī)執(zhí)行或?qū)⑺鲋辽僖粋€(gè)第一虛擬機(jī)的應(yīng)用狀態(tài)信息標(biāo)識(shí)為所述隔離狀態(tài)。
本發(fā)明實(shí)施例中,虛擬架構(gòu)管理系統(tǒng)獲取到故障設(shè)備上的故障告警消息后,直接對(duì)該故障告警消息進(jìn)行分析處理,獲取故障設(shè)備影響的一個(gè)或多個(gè)虛擬機(jī),并向業(yè)務(wù)管理系統(tǒng)發(fā)送這些虛擬機(jī)的信息。業(yè)務(wù)管理系統(tǒng)可以直接根據(jù)這些虛擬機(jī)的信息分析得到受影響的業(yè)務(wù)應(yīng)用,進(jìn)而可以對(duì)受影響的業(yè)務(wù)應(yīng)用進(jìn)行處理。與現(xiàn)有技術(shù)相比,由虛擬架構(gòu)管理系統(tǒng)直接根據(jù)故障設(shè)備的故障告警消息確定受故障設(shè)備影響的虛擬機(jī)的信息,使得業(yè)務(wù)管理系統(tǒng)可以直接根據(jù)第一虛擬機(jī)集合的狀態(tài)告警消息分析得到受影響的業(yè)務(wù)應(yīng)用,而不是根據(jù)故障設(shè)備的告警消息去分析得到受影響的虛擬機(jī)、再分析受影響的業(yè)務(wù)應(yīng)用。從而使得業(yè)務(wù)管理系統(tǒng)不需要直接感知硬件故障,進(jìn)而可以快速觸發(fā)業(yè)務(wù)應(yīng)用的影響處理,降低業(yè)務(wù)損失,提高業(yè)務(wù)應(yīng)用的可靠性。
本發(fā)明實(shí)施例中,可選地,虛擬架構(gòu)管理系統(tǒng)可以根據(jù)故障設(shè)備的故障告警消息確定第一虛擬機(jī)集合的影響信息,該影響信息用于指示故障設(shè)備對(duì)第一虛擬機(jī)集合中至少一個(gè)第一虛擬機(jī)產(chǎn)生的影響的類(lèi)型和/或級(jí)別。對(duì)應(yīng)地,虛擬機(jī)架構(gòu)管理系統(tǒng)向業(yè)務(wù)管理系統(tǒng)發(fā)送的狀態(tài)告警消息還可以攜帶該影響信息,業(yè)務(wù)管理系統(tǒng)從虛擬架構(gòu)管理系統(tǒng)出接收的狀態(tài)告警消息可以攜帶該影響信息。然后業(yè)務(wù)管理系統(tǒng)根據(jù)第一虛擬機(jī)集合的影響信息對(duì)所述第一虛擬機(jī)集合中的第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用執(zhí)行處理操作。
用戶(hù)可以根據(jù)需求定義虛擬機(jī)受到故障設(shè)備的故障所影響的類(lèi)型和/或級(jí)別,下面是本發(fā)明實(shí)施例的虛擬機(jī)受到故障設(shè)備的影響的類(lèi)型和級(jí)別的示例。
當(dāng)物理服務(wù)器發(fā)生整機(jī)故障(包括物理服務(wù)器下電、主機(jī)操作系統(tǒng)故障等不能提供計(jì)算資源的故障)、存儲(chǔ)設(shè)備故障(存儲(chǔ)設(shè)備下電、全部斷鏈等情況)、以及其他硬件故障導(dǎo)致虛擬機(jī)無(wú)法運(yùn)行、為業(yè)務(wù)提供服務(wù)時(shí),則虛擬機(jī)受影響的類(lèi)型可設(shè)置為故障,級(jí)別可設(shè)置為緊急。對(duì)于網(wǎng)卡或其他硬件故障,若導(dǎo)致虛擬機(jī)無(wú)法正常工作時(shí),則虛擬機(jī)受影響的類(lèi)型可以為故障,級(jí)別可以設(shè)置為緊急。
當(dāng)物理服務(wù)器發(fā)生部件故障,如中央處理器(Central Processing Unit,CPU)、內(nèi)存、部分網(wǎng)卡發(fā)生故障時(shí),若暫時(shí)不影響虛擬機(jī)運(yùn)行,但存在運(yùn)行風(fēng)險(xiǎn)的情況,則虛擬機(jī)受影響的類(lèi)型可以設(shè)置為高風(fēng)險(xiǎn),級(jí)別可設(shè)置為重要。
當(dāng)存儲(chǔ)設(shè)備發(fā)生部件故障,如部分鏈路中斷、部分控制器故障等,若暫時(shí)不影響虛擬機(jī)運(yùn)行,但存在運(yùn)行風(fēng)險(xiǎn)的情況,則虛擬機(jī)受影響的類(lèi)型可以設(shè)置為中風(fēng)險(xiǎn),級(jí)別可以設(shè)置為次要。
通常情況下,凡是硬件故障導(dǎo)致虛擬機(jī)無(wú)法運(yùn)行或無(wú)法對(duì)外提供服務(wù)時(shí),虛擬機(jī)受影響的類(lèi)型均可以設(shè)置為故障,級(jí)別均可以設(shè)置為緊急。
而對(duì)于不影響任何虛擬機(jī)運(yùn)行的硬件故障,則可以不設(shè)置虛擬機(jī)的受影響的類(lèi)型和級(jí)別,或者可以設(shè)置虛擬機(jī)受影響的類(lèi)型為低風(fēng)險(xiǎn)或無(wú)風(fēng)險(xiǎn),級(jí)別為提示。
通過(guò)上面內(nèi)容的描述可知,虛擬架構(gòu)管理系統(tǒng)向業(yè)務(wù)管理系統(tǒng)發(fā)送的狀態(tài)告警消息可以包括第一虛擬機(jī)集合的信息,即受影響的至少一個(gè)第一虛擬機(jī)的標(biāo)識(shí)。還可以包括第一虛擬機(jī)集合的影響信息,即故障設(shè)備對(duì)第一虛擬機(jī)集合中至少一個(gè)第一虛擬機(jī)產(chǎn)生的影響的類(lèi)型和/或級(jí)別。
可選地,告警狀態(tài)消息還可以包括產(chǎn)生時(shí)間、清除時(shí)間、告警同步號(hào)、告警名稱(chēng)、告警對(duì)象類(lèi)型等。除了上述信息,虛擬機(jī)的狀態(tài)告警消息還可以攜帶故障設(shè)備的故障原因等信息。當(dāng)然,虛擬機(jī)的狀態(tài)告警消息包括的信息不限于上述列舉的內(nèi)容。
上述虛擬架構(gòu)管理系統(tǒng)執(zhí)行的方法中,虛擬架構(gòu)管理系統(tǒng)雖然只是對(duì)故障設(shè)備的告警消息進(jìn)行分析處理,并向業(yè)務(wù)管理系統(tǒng)提供分析得到的信息,但是虛擬架構(gòu)管理系統(tǒng)執(zhí)行的該故障處理方法是后續(xù)對(duì)受故障影響的虛擬機(jī)進(jìn)行處理或后續(xù)對(duì)受故障影響的業(yè)務(wù)應(yīng)用的處理之前行之有效的方法,因此可以毫無(wú)意義地將其稱(chēng)為故障處理方法。
本發(fā)明實(shí)施例中,可選地,業(yè)務(wù)管理系統(tǒng)可以調(diào)用虛擬架構(gòu)管理系統(tǒng)提供的接口,請(qǐng)求虛擬架構(gòu)管理系統(tǒng)對(duì)受影響的虛擬機(jī)進(jìn)行處理。具體而言,業(yè)務(wù)管理系統(tǒng)可以根據(jù)第一虛擬機(jī)集合的影響信息確定用于指示需要優(yōu)先恢復(fù)的待恢復(fù)的虛擬機(jī)的第一請(qǐng)求消息,該待恢復(fù)的虛擬機(jī)虛擬機(jī)為第一虛擬機(jī)集合中一個(gè)子集。然后業(yè)務(wù)管理系統(tǒng)向虛擬架構(gòu)管理系統(tǒng)發(fā)送該第一請(qǐng)求消息。
業(yè)務(wù)管理系統(tǒng)根據(jù)第一虛擬機(jī)的影響信息確定第一虛擬機(jī)集合中需要虛擬架構(gòu)管理系統(tǒng)恢復(fù)的虛擬機(jī)的優(yōu)先級(jí),并向虛擬機(jī)架構(gòu)管理發(fā)送用于指示待恢復(fù)的虛擬機(jī)的恢復(fù)優(yōu)先級(jí)的第一請(qǐng)求消息,使得虛擬架構(gòu)管理系統(tǒng)可以根據(jù)業(yè)務(wù)管理系統(tǒng)指示的優(yōu)先級(jí),對(duì)受故障設(shè)備的故障所影響的第一虛擬機(jī)集合中的至少一個(gè)虛擬機(jī)進(jìn)行恢復(fù)處理。
可選地,業(yè)務(wù)管理系統(tǒng)向虛擬架構(gòu)管理系統(tǒng)發(fā)送用于指示待恢復(fù)的虛擬機(jī)的恢復(fù)優(yōu)先級(jí)的第一請(qǐng)求消息的另一種具體實(shí)現(xiàn)方式可以為:業(yè)務(wù)管理系統(tǒng)根據(jù)業(yè)務(wù)應(yīng)用的優(yōu)先級(jí)向虛擬架構(gòu)管理系統(tǒng)發(fā)送第一請(qǐng)求消息。
具體而言,業(yè)務(wù)管理系統(tǒng)根據(jù)第一虛擬機(jī)集合中的第一虛擬機(jī)相關(guān)聯(lián)的業(yè)務(wù)應(yīng)用的優(yōu)先級(jí),即根據(jù)故障設(shè)備影響的業(yè)務(wù)應(yīng)用的優(yōu)先級(jí)指示虛擬架構(gòu)管理系統(tǒng)對(duì)第一虛擬機(jī)集合中的待恢復(fù)的虛擬機(jī)進(jìn)行恢復(fù)處理,從而可以保證高優(yōu)先級(jí)的業(yè)務(wù)應(yīng)用可以?xún)?yōu)先得到恢復(fù),進(jìn)一步保證業(yè)務(wù)應(yīng)用的可靠性。
如業(yè)務(wù)管理系統(tǒng)可以通過(guò)第一請(qǐng)求消息指示虛擬機(jī)架構(gòu)管理系統(tǒng)優(yōu)先恢復(fù)第一虛擬機(jī)集合中優(yōu)先級(jí)高的第一虛擬機(jī)。
可選地,業(yè)務(wù)管理系統(tǒng)可以根據(jù)第一虛擬機(jī)集合的影響信息和相關(guān)聯(lián)的業(yè)務(wù)應(yīng)用的優(yōu)先級(jí)向虛擬架構(gòu)管理系統(tǒng)發(fā)送第一請(qǐng)求消息。
可選地,業(yè)務(wù)管理系統(tǒng)向虛擬架構(gòu)管理系統(tǒng)發(fā)送第一請(qǐng)求消息的一種具體實(shí)現(xiàn)方式為:業(yè)務(wù)管理系統(tǒng)根據(jù)業(yè)務(wù)應(yīng)用的部署模式向虛擬架構(gòu)管理系統(tǒng)發(fā)送第一請(qǐng)求消息,業(yè)務(wù)應(yīng)用的部署模式包括主備模式、負(fù)荷分擔(dān)模式和單虛擬機(jī)模式中的至少一種。
具體而言,業(yè)務(wù)管理系統(tǒng)根據(jù)業(yè)務(wù)應(yīng)用的部署模式,即根據(jù)故障設(shè)備影響的業(yè)務(wù)應(yīng)用的部署模式指示虛擬架構(gòu)管理系統(tǒng)對(duì)第一虛擬機(jī)集合中的待恢復(fù)的虛擬機(jī)進(jìn)行恢復(fù)處理。
如業(yè)務(wù)管理系統(tǒng)可以通過(guò)第一請(qǐng)求消息指示虛擬架構(gòu)管理系統(tǒng)優(yōu)先恢復(fù)部署模式為主備模式的業(yè)務(wù)應(yīng)用的主備虛擬機(jī)中的主虛擬機(jī)。
可選地,業(yè)務(wù)管理系統(tǒng)可以根據(jù)第一虛擬機(jī)集合的影響信息和業(yè)務(wù)應(yīng)用的部署模式向虛擬架構(gòu)管理系統(tǒng)發(fā)送第一請(qǐng)求消息,或可以根據(jù)業(yè)務(wù)應(yīng)用的部署模式和業(yè)務(wù)應(yīng)用的優(yōu)先級(jí)向虛擬架構(gòu)管理系統(tǒng)發(fā)送第一請(qǐng)求消息,或可以根據(jù)第一虛擬機(jī)集合的影響信息、業(yè)務(wù)應(yīng)用的部署模式和業(yè)務(wù)應(yīng)用的優(yōu)先級(jí)向虛擬架構(gòu)管理系統(tǒng)發(fā)送第一請(qǐng)求消息。
虛擬架構(gòu)管理系統(tǒng)接收業(yè)務(wù)管理系統(tǒng)發(fā)送的第一請(qǐng)求消息后,可以根據(jù)第一請(qǐng)求消息的指示對(duì)第一虛擬機(jī)集合中的待恢復(fù)的虛擬機(jī)按照一定的優(yōu)先級(jí)進(jìn)行恢復(fù)處理。虛擬架構(gòu)管理系統(tǒng)對(duì)虛擬機(jī)的具體恢復(fù)形式可以是虛擬機(jī)遷移,即將虛擬機(jī)從故障設(shè)備遷移到其他正常設(shè)備;還可以是利用虛擬機(jī)快照在其他正常設(shè)備上恢復(fù)該虛擬機(jī)。
可選地,若虛擬架構(gòu)管理系統(tǒng)在預(yù)置時(shí)間閾值內(nèi)未接收到業(yè)務(wù)管理系統(tǒng)發(fā)送的用于指示第一虛擬機(jī)集合中需要優(yōu)先恢復(fù)的虛擬機(jī)的第一請(qǐng)求信息,則按照預(yù)置虛擬機(jī)恢復(fù)策略恢復(fù)第一虛擬機(jī)集合中的第一虛擬機(jī)。
這樣可以保證在業(yè)務(wù)管理系統(tǒng)沒(méi)有信息指示虛擬架構(gòu)管理系統(tǒng)如何恢復(fù)第一虛擬機(jī)集合中的虛擬機(jī)時(shí),虛擬架構(gòu)管理系統(tǒng)可以主動(dòng)根據(jù)預(yù)置虛擬機(jī)恢復(fù)策略對(duì)第一虛擬機(jī)集合中的至少一個(gè)第一虛擬機(jī)進(jìn)行恢復(fù)。
可選地,無(wú)論是業(yè)務(wù)管理系統(tǒng)請(qǐng)求虛擬架構(gòu)管理系統(tǒng)對(duì)受影響的虛擬機(jī)進(jìn)行處理,還是虛擬架構(gòu)管理系統(tǒng)主動(dòng)對(duì)受影響的虛擬機(jī)進(jìn)行處理,虛擬架構(gòu)管理系統(tǒng)對(duì)受影響的虛擬機(jī)處理完后,均可以給業(yè)務(wù)管理系統(tǒng)發(fā)送狀態(tài)告警清除消息,以指示業(yè)務(wù)管理系統(tǒng)可以清除之前接收到的、與該進(jìn)行處理的虛擬機(jī)對(duì)應(yīng)的狀態(tài)告警消息。
業(yè)務(wù)管理系統(tǒng)收到虛擬架構(gòu)管理系統(tǒng)發(fā)送的狀態(tài)告警清除消息后,可以將對(duì)應(yīng)的虛擬機(jī)的狀態(tài)告警消息清除,減少業(yè)務(wù)管理系統(tǒng)對(duì)已恢復(fù)告警的維護(hù)工作,從而可以節(jié)省資源,提高效率。
業(yè)務(wù)管理系統(tǒng)清除狀態(tài)告警消息的具體形式可以是將存儲(chǔ)的狀態(tài)告警消息刪掉,也可以是修改狀態(tài)告警消息中的某個(gè)信息,使得該信息指示該狀態(tài)告警消息對(duì)應(yīng)的虛擬機(jī)已經(jīng)恢復(fù)了。
本發(fā)明實(shí)施例中,可選地,業(yè)務(wù)管理系統(tǒng)根據(jù)第一虛擬機(jī)集合的信息確定第一虛擬機(jī)集合中的第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用后,可以向業(yè)務(wù)應(yīng)用關(guān)聯(lián)的控制節(jié)點(diǎn)發(fā)送第一虛擬機(jī)集合的信息。
當(dāng)業(yè)務(wù)應(yīng)用的控制節(jié)點(diǎn)接收到業(yè)務(wù)管理系統(tǒng)發(fā)送的第一虛擬機(jī)集合的信息后,可以根據(jù)第一虛擬機(jī)集合中的第一虛擬機(jī)的信息對(duì)受影響的業(yè)務(wù)應(yīng)用進(jìn)行處理。
可選地,業(yè)務(wù)應(yīng)用的控制節(jié)點(diǎn)還可以根據(jù)業(yè)務(wù)應(yīng)用的部署模式對(duì)業(yè)務(wù)應(yīng)用進(jìn)行處理。如當(dāng)業(yè)務(wù)應(yīng)用為主備模式部署時(shí),若主虛擬機(jī)故障,則控制節(jié)點(diǎn)需要進(jìn)行主備切換;若備VM故障,控制節(jié)點(diǎn)不需要主備切換。如當(dāng)業(yè)務(wù)應(yīng)用為負(fù)荷分擔(dān)模式部署時(shí),控制節(jié)點(diǎn)將受影響的VM隔離。
可選地,業(yè)務(wù)應(yīng)用的控制節(jié)點(diǎn)可以根據(jù)業(yè)務(wù)應(yīng)用的部署模式和第一虛擬機(jī)集合的影響信息對(duì)業(yè)務(wù)應(yīng)用進(jìn)行處理。如當(dāng)?shù)谝惶摂M機(jī)集合的影響信息指示故障設(shè)備對(duì)第一虛擬機(jī)的影響的類(lèi)型為故障、級(jí)別為緊急,且業(yè)務(wù)應(yīng)用為主備模式部署,若主VM故障,則控制節(jié)點(diǎn)需要進(jìn)行主備切換,若備VM故障或業(yè)務(wù)應(yīng)用不重要,則控制節(jié)點(diǎn)可以不作處理,即控制節(jié)點(diǎn)不需要主備切換。應(yīng)了解,上述根據(jù)虛擬機(jī)受影響的類(lèi)型、級(jí)別及部署模式等對(duì)業(yè)務(wù)應(yīng)用進(jìn)行處理的方式只是示例性說(shuō)明,其具體實(shí)現(xiàn)可以根據(jù)用戶(hù)的需求來(lái)定義,本發(fā)明對(duì)此不作限制。
可選地,業(yè)務(wù)應(yīng)用的控制節(jié)點(diǎn)對(duì)業(yè)務(wù)應(yīng)用處理完成后,可以向業(yè)務(wù)管理系統(tǒng)發(fā)送業(yè)務(wù)處理反饋消息,告知業(yè)務(wù)管理系統(tǒng)其對(duì)業(yè)務(wù)應(yīng)用的處理結(jié)果。
下面結(jié)合圖3,以物理主機(jī)故障為例,詳細(xì)介紹本發(fā)明實(shí)施例的故障處理方法。如圖3所示,其中包括三個(gè)設(shè)備,分別為計(jì)算節(jié)點(diǎn)1、計(jì)算節(jié)點(diǎn)2和計(jì)算節(jié)點(diǎn)3。計(jì)算節(jié)點(diǎn)1、計(jì)算節(jié)點(diǎn)2和計(jì)算節(jié)點(diǎn)3可以分別為圖1A或圖1B中的設(shè)備1、設(shè)備2和設(shè)備3。
在虛擬化計(jì)算機(jī)系統(tǒng)中部署了2種業(yè)務(wù)應(yīng)用(Application,APP)。一種應(yīng)用為App1,與VM1和VM2關(guān)聯(lián),采用主備模式部署。其中,VM1部署在計(jì)算節(jié)點(diǎn)1上,為APP1的主用虛擬機(jī);VM2部署在計(jì)算節(jié)點(diǎn)2上,為APP1的備用虛擬機(jī)。另一種應(yīng)用為App2,與VM3和VM4關(guān)聯(lián),采用負(fù)荷分擔(dān)模式部署,VM3部署在服務(wù)器計(jì)算節(jié)點(diǎn)2上,VM4部署在計(jì)算節(jié)點(diǎn)3上。
S402,當(dāng)計(jì)算節(jié)點(diǎn)1發(fā)生掉電故障時(shí),計(jì)算節(jié)點(diǎn)1通過(guò)SNMP協(xié)議向虛擬架構(gòu)管理上報(bào)計(jì)算節(jié)點(diǎn)1的故障告警消息。
S404,虛擬架構(gòu)管理接收到故障告警消息,根據(jù)該故障告警消息,確定受故障影響的虛擬機(jī),并產(chǎn)生虛擬機(jī)的狀態(tài)告警消息,具體步驟如下。
(1)虛擬架構(gòu)管理系統(tǒng)收到計(jì)算節(jié)點(diǎn)1的硬件故障告警消息,從虛擬架構(gòu)管理系統(tǒng)的數(shù)據(jù)庫(kù)中查詢(xún)計(jì)算節(jié)點(diǎn)1上運(yùn)行的虛擬機(jī)列表,獲取到受影響的虛擬機(jī)有VM1,得到VM1的ID等信息。
(2)由于計(jì)算節(jié)點(diǎn)1掉電故障導(dǎo)致VM1故障,VM1無(wú)法運(yùn)行提供服務(wù),因此可以將VM1受影響的類(lèi)型設(shè)置為故障,VM1受影響的級(jí)別設(shè)置為緊急。
(3)虛擬架構(gòu)管理系統(tǒng)產(chǎn)生VM1的狀態(tài)告警消息,其攜帶信息包括:VM1ID、VM1受影響的類(lèi)型(為故障)、產(chǎn)生時(shí)間、VM1受影響的級(jí)別(為緊急)、故障設(shè)備的故障類(lèi)型(為計(jì)算節(jié)點(diǎn)1整機(jī)故障)等。
S406,虛擬架構(gòu)管理系統(tǒng)向業(yè)務(wù)管理系統(tǒng)發(fā)送VM1的狀態(tài)告警消息。
S408,業(yè)務(wù)管理系統(tǒng)接收虛擬架構(gòu)管理系統(tǒng)發(fā)送的虛擬機(jī)的狀態(tài)告警消息,獲得VM1的ID等信息,從業(yè)務(wù)管理系統(tǒng)的數(shù)據(jù)庫(kù)查詢(xún)出VM1和業(yè)務(wù)應(yīng)用的對(duì)應(yīng)關(guān)系,得到受影響的業(yè)務(wù)應(yīng)用為App1。
業(yè)務(wù)管理系統(tǒng)向App1的控制節(jié)點(diǎn)發(fā)送通知消息,通知VM1的故障。然后該控制節(jié)點(diǎn)根據(jù)通知消息確定把VM2升為主用服務(wù)器。
S410,業(yè)務(wù)管理系統(tǒng)調(diào)用虛擬架構(gòu)管理系統(tǒng)提供的接口,向虛擬架構(gòu)管理系統(tǒng)發(fā)送第一請(qǐng)求消息,請(qǐng)求虛擬架構(gòu)管理系統(tǒng)快速恢復(fù)VM1。
S412,虛擬架構(gòu)管理系統(tǒng)將VM1遷移到計(jì)算節(jié)點(diǎn)3中,此時(shí),VM1變?yōu)锳pp1的備用虛擬機(jī)。
此時(shí),在具體實(shí)施過(guò)程中,虛擬架構(gòu)管理系統(tǒng)還可以對(duì)計(jì)算節(jié)點(diǎn)1進(jìn)行故障隔離。
S414,虛擬架構(gòu)管理系統(tǒng)把VM1恢復(fù)后,給業(yè)務(wù)管理發(fā)送VM1狀態(tài)告警清除消息。
經(jīng)過(guò)故障處理后,業(yè)務(wù)系統(tǒng)中的應(yīng)用的部署情況如圖4所示。其中,App1采用主備模式部署,VM2部署在計(jì)算節(jié)點(diǎn)2上為主用虛擬機(jī),VM1部署在計(jì)算節(jié)點(diǎn)3上為備用虛擬機(jī)。App2采用負(fù)荷分擔(dān)模式部署,VM3部署在計(jì)算節(jié)點(diǎn)2上,VM4部署在計(jì)算節(jié)點(diǎn)3上。計(jì)算節(jié)點(diǎn)1故障,從資源池隔離。
上述實(shí)施例中,計(jì)算節(jié)點(diǎn)1發(fā)生故障后,向虛擬架構(gòu)管理系統(tǒng)發(fā)送告警消息,虛擬架構(gòu)管理系統(tǒng)根據(jù)告警消息確定受影響的虛擬機(jī)為VM1,且確定VM1受到的影響的類(lèi)型和級(jí)別。業(yè)務(wù)管理系統(tǒng)不用直接對(duì)硬件的告警消息進(jìn)行處理,即可直接從虛擬架構(gòu)管理系統(tǒng)處獲取受影響的VM1的信息和VM1受到的影響信息,進(jìn)而確定VM1上運(yùn)行的業(yè)務(wù)應(yīng)用為App1,業(yè)務(wù)管理系統(tǒng)通知App1的控制節(jié)點(diǎn)對(duì)App1進(jìn)行處理,并請(qǐng)求虛擬架構(gòu)管理系統(tǒng)對(duì)VM1進(jìn)行恢復(fù)。虛擬架構(gòu)管理系統(tǒng)根據(jù)業(yè)務(wù)管理系統(tǒng)的請(qǐng)求將VM1遷移到計(jì)算節(jié)點(diǎn)3上。App1的控制節(jié)點(diǎn)從業(yè)務(wù)管理系統(tǒng)處獲取VM1的信息及VM1受到的影響信息后,將App1原來(lái)的備虛擬機(jī)VM2切換為主虛擬機(jī),并將遷移到計(jì)算節(jié)點(diǎn)3上的VM1設(shè)置為備用虛擬機(jī),從而保證App1的運(yùn)行,提高App1的可靠性。
上面結(jié)合圖2至圖4介紹了本發(fā)明實(shí)施例的故障處理方法,下面結(jié)合圖5至圖8介紹本發(fā)明實(shí)施例的虛擬架構(gòu)管理系統(tǒng)和業(yè)務(wù)管理系統(tǒng)。
圖5為本發(fā)明一個(gè)實(shí)施例的虛擬架構(gòu)管理系統(tǒng)的示意性結(jié)構(gòu)圖。應(yīng)理解,圖5示出的虛擬架構(gòu)管理系統(tǒng)500僅是示例,本發(fā)明實(shí)施例的虛擬架構(gòu)管理系統(tǒng)還可包括其他模塊或單元,或者包括與圖5中的各個(gè)模塊的功能相似的模塊,或者并非要包括圖5中的所有模塊。
獲取模塊510,用于獲取故障告警消息,所述故障告警消息攜帶故障設(shè)備的標(biāo)識(shí)信息和故障類(lèi)型。
確定模塊520,用于根據(jù)所述故障告警消息確定第一虛擬機(jī)集合,所述第一虛擬機(jī)集合包括受所述故障設(shè)備影響的至少一個(gè)第一虛擬機(jī)。
發(fā)送模塊530,用于向所述業(yè)務(wù)管理系統(tǒng)發(fā)送狀態(tài)告警消息,所述狀態(tài)告警消息攜帶所述第一虛擬機(jī)集合的信息。
本發(fā)明實(shí)施例中,虛擬架構(gòu)管理系統(tǒng)獲取到故障設(shè)備上的故障告警消息后,直接對(duì)該故障告警消息進(jìn)行分析處理,獲取故障設(shè)備影響的一個(gè)或多個(gè)虛擬機(jī),并向業(yè)務(wù)管理系統(tǒng)發(fā)送這些虛擬機(jī)的信息,使得業(yè)務(wù)管理系統(tǒng)可以直接根據(jù)這些虛擬機(jī)的信息分析得到受影響的業(yè)務(wù)應(yīng)用,進(jìn)而可以對(duì)受影響的業(yè)務(wù)應(yīng)用進(jìn)行處理。與現(xiàn)有技術(shù)相比,由虛擬架構(gòu)管理系統(tǒng)直接根據(jù)故障設(shè)備的故障告警消息確定受故障設(shè)備影響的虛擬機(jī)的信息,使得業(yè)務(wù)管理系統(tǒng)可以直接根據(jù)第一虛擬機(jī)集合的狀態(tài)告警消息分析得到受影響的業(yè)務(wù)應(yīng)用,而不是根據(jù)故障設(shè)備的告警消息去分析得到受影響的虛擬機(jī)、再分析受影響的業(yè)務(wù)應(yīng)用。從而使得業(yè)務(wù)管理系統(tǒng)不需要直接感知硬件故障,進(jìn)而可以快速觸發(fā)業(yè)務(wù)應(yīng)用的影響處理,降低業(yè)務(wù)損失,提高業(yè)務(wù)應(yīng)用的可靠性。
可選地,作為一個(gè)實(shí)施例,所述確定模塊還用于根據(jù)所述故障告警消息確定所述第一虛擬機(jī)集合的影響信息,所述影響信息用于指示所述故障設(shè)備對(duì)所述至少一個(gè)第一虛擬機(jī)產(chǎn)生的影響的類(lèi)型和/或級(jí)別。則所述虛擬架構(gòu)管理系統(tǒng)向所述業(yè)務(wù)管理系統(tǒng)發(fā)送狀態(tài)告警消息還攜帶所述第一虛擬機(jī)集合的影響信息。
本發(fā)明實(shí)施例中,虛擬架構(gòu)管理系統(tǒng)根據(jù)故障設(shè)備的故障告警信息除了可以獲取受影響的至少一個(gè)虛擬機(jī),還可以獲取故障設(shè)備發(fā)生的故障對(duì)這些虛擬機(jī)的影響的類(lèi)型和/或級(jí)別,然后在向業(yè)務(wù)管理系統(tǒng)發(fā)送的狀態(tài)告警消息中還攜帶用于指示故障設(shè)備對(duì)第一虛擬機(jī)集合中的第一虛擬機(jī)產(chǎn)生的影響的類(lèi)型和/或級(jí)別的影響信息,從而使得業(yè)務(wù)管理系統(tǒng)或業(yè)務(wù)系統(tǒng)可以更加根據(jù)該影響信息對(duì)業(yè)務(wù)應(yīng)用進(jìn)行處理,進(jìn)一步提高業(yè)務(wù)應(yīng)用的可靠性。
可選地,作為一個(gè)實(shí)施例,所述故障設(shè)備對(duì)所述至少一個(gè)第一虛擬機(jī)產(chǎn)生的影響的類(lèi)型包括以下至少一種:故障、高風(fēng)險(xiǎn)、中風(fēng)險(xiǎn)、低風(fēng)險(xiǎn)或無(wú)影響。
可選地,作為一個(gè)實(shí)施例,所述虛擬架構(gòu)管理系統(tǒng)還包括接收模塊和恢復(fù)模塊。所述接收模塊用于接收所述業(yè)務(wù)管理系統(tǒng)發(fā)送的第一請(qǐng)求消息,所述第一請(qǐng)求消息用于指示需要優(yōu)先恢復(fù)的待恢復(fù)的虛擬機(jī),所述待恢復(fù)的虛擬機(jī)為所述第一虛擬機(jī)集合中一個(gè)子集。所述恢復(fù)模塊用于根據(jù)所述第一請(qǐng)求信息優(yōu)先恢復(fù)待恢復(fù)的虛擬機(jī)。
本發(fā)明實(shí)施例中,虛擬架構(gòu)管理系統(tǒng)可以根據(jù)業(yè)務(wù)管理系統(tǒng)的請(qǐng)求,根據(jù)業(yè)務(wù)管理系統(tǒng)指示的優(yōu)先級(jí),對(duì)受故障設(shè)備的故障所影響的第一虛擬機(jī)集合中的至少一個(gè)虛擬機(jī)進(jìn)行恢復(fù)處理。
可選地,作為一個(gè)實(shí)施例,所述恢復(fù)模塊還用于在預(yù)置時(shí)間閾值內(nèi)未接收到所述業(yè)務(wù)管理系統(tǒng)發(fā)送的所述第一請(qǐng)求信息時(shí),按照預(yù)置虛擬機(jī)恢復(fù)策略恢復(fù)所述至少一個(gè)第一虛擬機(jī)。
本發(fā)明實(shí)施例可以保證在業(yè)務(wù)管理系統(tǒng)沒(méi)有信息指示虛擬架構(gòu)管理系統(tǒng)如何恢復(fù)第一虛擬機(jī)集合中的虛擬機(jī)時(shí),虛擬架構(gòu)管理系統(tǒng)可以主動(dòng)根據(jù)預(yù)先配置的恢復(fù)策略對(duì)第一虛擬機(jī)集合中的第一虛擬機(jī)進(jìn)行恢復(fù)。
可選地,作為一個(gè)實(shí)施例,所述發(fā)送模塊還用于向所述業(yè)務(wù)管理系統(tǒng)發(fā)送狀態(tài)告警清除消息,所述狀態(tài)告警清除消息用于指示所述業(yè)務(wù)管理系統(tǒng)清除所述業(yè)務(wù)管理系統(tǒng)中的所述狀態(tài)告警消息。
本發(fā)明實(shí)施例中,虛擬架構(gòu)管理系統(tǒng)對(duì)虛擬機(jī)進(jìn)行恢復(fù)處理后,向業(yè)務(wù)管理系統(tǒng)發(fā)送狀態(tài)告警清除消息,使得業(yè)務(wù)管理系統(tǒng)可以根據(jù)該狀態(tài)告警清除消息清除之前接收的相關(guān)的狀態(tài)告警消息,從而避免業(yè)務(wù)管理系統(tǒng)對(duì)已經(jīng)恢復(fù)的虛擬機(jī)相關(guān)的狀態(tài)告警消息進(jìn)行分析處理。
應(yīng)理解的是,本發(fā)明實(shí)施例的虛擬架構(gòu)管理系統(tǒng)500可以通過(guò)專(zhuān)用集成電路(Application Specific Integrated Circuit,ASIC)實(shí)現(xiàn),或可編程邏輯器件(Programmable Logic Device,PLD)實(shí)現(xiàn),上述PLD可以是復(fù)雜程序邏輯器件(Complex Programmable Logic Device,CPLD),現(xiàn)場(chǎng)可編程門(mén)陣列(Field-Programmable Gate Array,F(xiàn)PGA),通用陣列邏輯(Generic Array Logic,GAL)或其任意組合。通過(guò)軟件實(shí)現(xiàn)圖2所示的故障處理方法中由虛擬架構(gòu)管理系統(tǒng)執(zhí)行的步驟時(shí),虛擬架構(gòu)管理系統(tǒng)500及其各個(gè)模塊也可以為軟件模塊。
應(yīng)理解,圖5所示的虛擬架構(gòu)管理系統(tǒng)500可對(duì)應(yīng)于圖2所示故障處理方法中的虛擬架構(gòu)管理系統(tǒng),并且虛擬架構(gòu)管理系統(tǒng)500中的各個(gè)單元的上述和其它操作和/或功能分別為了實(shí)現(xiàn)圖2中的故障處理方法的相應(yīng)流程,為了簡(jiǎn)潔,在此不再贅述。
圖6為本發(fā)明一個(gè)實(shí)施例的業(yè)務(wù)管理系統(tǒng)的示意性結(jié)構(gòu)圖。應(yīng)理解,圖6示出的業(yè)務(wù)管理系統(tǒng)600僅是示例,本發(fā)明實(shí)施例的業(yè)務(wù)系統(tǒng)還可包括其他模塊或單元,或者包括與圖6中的各個(gè)模塊的功能相似的模塊,或者并非要包括圖6中的所有模塊。
接收模塊610,用于接收所述虛擬架構(gòu)管理系統(tǒng)發(fā)送的狀態(tài)告警消息,所述狀態(tài)告警消息攜帶受故障設(shè)備影響的第一虛擬機(jī)集合的信息,所述第一虛擬機(jī)集合中包括至少一個(gè)第一虛擬機(jī)。
確定模塊620,用于根據(jù)所述狀態(tài)告警消息確定所述至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用。
處理模塊630,用于對(duì)所述至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用執(zhí)行處理操作。
本發(fā)明實(shí)施例中,業(yè)務(wù)管理系統(tǒng)從虛擬架構(gòu)管理系統(tǒng)接收到受故障設(shè)備影響的第一虛擬機(jī)集合中的虛擬機(jī)的信息后,可以直接根據(jù)這些虛擬機(jī)的信息分析得到受影響的業(yè)務(wù)應(yīng)用,進(jìn)而可以對(duì)受影響的業(yè)務(wù)應(yīng)用進(jìn)行處理。與現(xiàn)有技術(shù)相比,業(yè)務(wù)管理系統(tǒng)可以直接根據(jù)第一虛擬機(jī)集合的狀態(tài)告警消息分析得到受影響的業(yè)務(wù)應(yīng)用,而不是根據(jù)故障設(shè)備的告警消息去分析得到受影響的虛擬機(jī)、再分析受影響的業(yè)務(wù)應(yīng)用。從而使得業(yè)務(wù)管理系統(tǒng)不需要直接感知硬件故障,進(jìn)而可以快速觸發(fā)業(yè)務(wù)應(yīng)用的影響處理,降低業(yè)務(wù)損失,提高業(yè)務(wù)應(yīng)用的可靠性。
可選地,作為一個(gè)實(shí)施例,所述狀態(tài)告警消息還攜帶所述第一虛擬機(jī)集合的影響信息,所述影響信息用于指示所述故障設(shè)備對(duì)所述至少一個(gè)第一虛擬機(jī)產(chǎn)生的影響的類(lèi)型和/或級(jí)別。其中,所述處理模塊具體用于根據(jù)所述第一虛擬機(jī)集合的影響信息對(duì)所述至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用執(zhí)行處理操作。
本發(fā)明實(shí)施例中,業(yè)務(wù)管理系統(tǒng)從虛擬架構(gòu)管理系統(tǒng)接收的第一虛擬機(jī)集合的狀態(tài)告警消息中還攜帶用于指示故障設(shè)備對(duì)第一虛擬機(jī)集合中的第一虛擬機(jī)產(chǎn)生的影響的類(lèi)型和/或級(jí)別的影響信息,從而使得業(yè)務(wù)管理系統(tǒng)或業(yè)務(wù)系統(tǒng)可以更加根據(jù)該影響信息對(duì)業(yè)務(wù)應(yīng)用進(jìn)行處理,進(jìn)一步提高業(yè)務(wù)應(yīng)用的可靠性。
可選地,作為一個(gè)實(shí)施例,所述第一虛擬機(jī)集合產(chǎn)生的影響的類(lèi)型包括以下至少一種:故障、高風(fēng)險(xiǎn)、中風(fēng)險(xiǎn)、低風(fēng)險(xiǎn)或無(wú)影響。
可選地,作為一個(gè)實(shí)施例,所述處理操作包括以下方式中的至少一種:
所述業(yè)務(wù)管理系統(tǒng)將所述至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用切換至未受所述故障設(shè)備影響的虛擬機(jī)執(zhí)行;或
所述業(yè)務(wù)管理系統(tǒng)將所述至少一個(gè)第一虛擬機(jī)的應(yīng)用狀態(tài)信息標(biāo)識(shí)為隔離狀態(tài),所述隔離狀態(tài)用于指示所述至少一個(gè)第一虛擬機(jī)停止執(zhí)行所述至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用;或
所述業(yè)務(wù)管理系統(tǒng)向所述虛擬架構(gòu)管理系統(tǒng)發(fā)送第一請(qǐng)求消息,所述第一請(qǐng)求消息用于指示待恢復(fù)的虛擬機(jī),所述待恢復(fù)的虛擬機(jī)為所述第一虛擬機(jī)集合中一個(gè)子集;或
所述業(yè)務(wù)管理系統(tǒng)向所述至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用的控制節(jié)點(diǎn)發(fā)送所述狀態(tài)告警消息,以使得所述控制節(jié)點(diǎn)根據(jù)所述狀態(tài)告警消息將所述至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用切換至所述未受所述故障設(shè)備影響的虛擬機(jī)執(zhí)行或?qū)⑺鲋辽僖粋€(gè)第一虛擬機(jī)的應(yīng)用狀態(tài)信息標(biāo)識(shí)為所述隔離狀態(tài)。
可選地,作為一個(gè)實(shí)施例,所述確定模塊還用于根據(jù)所述第一虛擬機(jī)集合的影響信息確定第一請(qǐng)求消息,所述第一請(qǐng)求消息用于指示需要優(yōu)先恢復(fù)的待恢復(fù)的虛擬機(jī),所述待恢復(fù)的虛擬機(jī)為所述第一虛擬機(jī)集合中一個(gè)子集。所述業(yè)務(wù)管理系統(tǒng)還包括發(fā)送模塊,用于向所述虛擬架構(gòu)管理系統(tǒng)發(fā)送所述第一請(qǐng)求消息。
本發(fā)明實(shí)施例中,業(yè)務(wù)管理系統(tǒng)可以根據(jù)第一虛擬機(jī)的影響信息確定第一虛擬機(jī)集合中需要虛擬架構(gòu)管理系統(tǒng)恢復(fù)的待恢復(fù)的虛擬機(jī)的優(yōu)先級(jí),并向虛擬機(jī)架構(gòu)管理發(fā)送用于指示這些待恢復(fù)的虛擬機(jī)的恢復(fù)優(yōu)先級(jí)的第一請(qǐng)求消息,使得虛擬架構(gòu)管理系統(tǒng)可以根據(jù)業(yè)務(wù)管理系統(tǒng)指示的優(yōu)先級(jí),對(duì)受故障設(shè)備的故障所影響的第一虛擬機(jī)集合中的至少一個(gè)虛擬機(jī)進(jìn)行恢復(fù)處理。
可選地,作為一個(gè)實(shí)施例,所述發(fā)送模塊還用于根據(jù)所述至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用的優(yōu)先級(jí)向所述虛擬架構(gòu)管理系統(tǒng)發(fā)送所述第一請(qǐng)求消息。
本發(fā)明實(shí)施例中,業(yè)務(wù)管理系統(tǒng)根據(jù)第一虛擬機(jī)集合中的第一虛擬機(jī)相關(guān)聯(lián)的業(yè)務(wù)應(yīng)用的優(yōu)先級(jí),即根據(jù)故障設(shè)備影響的業(yè)務(wù)應(yīng)用的優(yōu)先級(jí)指示虛擬架構(gòu)管理系統(tǒng)對(duì)第一虛擬機(jī)集合中的待恢復(fù)的虛擬機(jī)進(jìn)行恢復(fù)處理,從而可以保證高優(yōu)先級(jí)的業(yè)務(wù)應(yīng)用可以?xún)?yōu)先得到恢復(fù),進(jìn)一步保證業(yè)務(wù)應(yīng)用的可靠性。
可選地,作為一個(gè)實(shí)施例,所述發(fā)送模塊還用于根據(jù)所述至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用的部署模式向所述虛擬架構(gòu)管理系統(tǒng)發(fā)送所述第一請(qǐng)求消息,所述至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用的部署模式包括主備模式、負(fù)荷分擔(dān)模式和單虛擬機(jī)模式中的至少一種。
本發(fā)明實(shí)施例中,業(yè)務(wù)管理系統(tǒng)根據(jù)受影響的業(yè)務(wù)應(yīng)用的部署模式,即根據(jù)故障設(shè)備影響的業(yè)務(wù)應(yīng)用的部署模式指示虛擬架構(gòu)管理系統(tǒng)對(duì)第一虛擬機(jī)集合中的待恢復(fù)的虛擬機(jī)進(jìn)行恢復(fù)處理。
可選地,作為一個(gè)實(shí)施例,所述接收模塊還用于接收所述虛擬架構(gòu)管理系統(tǒng)發(fā)送的狀態(tài)告警清除消息,所述處理模塊還用于根據(jù)所述狀態(tài)告警清除消息清除所述狀態(tài)告警消息。
本發(fā)明實(shí)施例中,業(yè)務(wù)管理系統(tǒng)可以根據(jù)虛擬架構(gòu)管理系統(tǒng)發(fā)送的狀態(tài)告警清除消息清除之前接收的相關(guān)的狀態(tài)告警消息,從而避免對(duì)已經(jīng)恢復(fù)的虛擬機(jī)相關(guān)的狀態(tài)告警消息進(jìn)行分析處理。
應(yīng)理解的是,本發(fā)明實(shí)施例的業(yè)務(wù)管理系統(tǒng)600可以通過(guò)專(zhuān)用集成電路實(shí)現(xiàn),或可編程邏輯器件實(shí)現(xiàn),上述PLD可以是復(fù)雜程序邏輯器件,現(xiàn)場(chǎng)可編程門(mén)陣列,通用陣列邏輯或其任意組合。通過(guò)軟件實(shí)現(xiàn)圖2所示的故障處理方法中由業(yè)務(wù)管理系統(tǒng)執(zhí)行的步驟時(shí),業(yè)務(wù)管理系統(tǒng)600及其各個(gè)模塊也可以為軟件模塊。
應(yīng)理解,圖6所示的業(yè)務(wù)管理系統(tǒng)600可對(duì)應(yīng)于圖2所示故障處理方法中的業(yè)務(wù)管理系統(tǒng),并且業(yè)務(wù)管理系統(tǒng)600中的各個(gè)單元的上述和其它操作和/或功能分別為了實(shí)現(xiàn)圖2中的故障處理方法的相應(yīng)流程,為了簡(jiǎn)潔,在此不再贅述。
圖7是本發(fā)明另一個(gè)實(shí)施例的虛擬架構(gòu)管理系統(tǒng)700的示意性結(jié)構(gòu)圖。虛擬架構(gòu)管理系統(tǒng)700包括處理器710、存儲(chǔ)器720、通信接口730和總線(xiàn)740。其中,處理器710、存儲(chǔ)器720、通信接口730通過(guò)總線(xiàn)740進(jìn)行通信,也可以通過(guò)無(wú)線(xiàn)傳輸?shù)绕渌侄螌?shí)現(xiàn)通信。該存儲(chǔ)器720用于存儲(chǔ)指令,該處理器710用于執(zhí)行該存儲(chǔ)器720存儲(chǔ)的指令。該存儲(chǔ)器720存儲(chǔ)程序代碼,且處理器710可以調(diào)用存儲(chǔ)器720中存儲(chǔ)的程序代碼執(zhí)行以下操作:
獲取故障告警消息,所述故障告警消息攜帶故障設(shè)備的標(biāo)識(shí)信息和故障類(lèi)型;根據(jù)所述故障告警消息確定第一虛擬機(jī)集合,所述第一虛擬機(jī)集合包括受所述故障設(shè)備影響的至少一個(gè)第一虛擬機(jī);向所述業(yè)務(wù)管理系統(tǒng)發(fā)送狀態(tài)告警消息,所述狀態(tài)告警消息攜帶所述第一虛擬機(jī)集合的信息。
本發(fā)明實(shí)施例中,虛擬架構(gòu)管理系統(tǒng)獲取到故障設(shè)備上的故障告警消息后,直接對(duì)該故障告警消息進(jìn)行分析處理,獲取故障設(shè)備影響的一個(gè)或多個(gè)虛擬機(jī),并向業(yè)務(wù)管理系統(tǒng)發(fā)送這些虛擬機(jī)的信息,使得業(yè)務(wù)管理系統(tǒng)可以直接根據(jù)這些虛擬機(jī)的信息分析得到受影響的業(yè)務(wù)應(yīng)用,進(jìn)而可以對(duì)受影響的業(yè)務(wù)應(yīng)用進(jìn)行處理。與現(xiàn)有技術(shù)相比,由虛擬架構(gòu)管理系統(tǒng)直接根據(jù)故障設(shè)備的故障告警消息確定受故障設(shè)備影響的虛擬機(jī)的信息,使得業(yè)務(wù)管理系統(tǒng)可以直接根據(jù)第一虛擬機(jī)集合的狀態(tài)告警消息分析得到受影響的業(yè)務(wù)應(yīng)用,而不是根據(jù)故障設(shè)備的告警消息去分析得到受影響的虛擬機(jī)、再分析受影響的業(yè)務(wù)應(yīng)用。從而使得業(yè)務(wù)管理系統(tǒng)不需要直接感知硬件故障,進(jìn)而可以快速觸發(fā)業(yè)務(wù)應(yīng)用的影響處理,降低業(yè)務(wù)損失,提高業(yè)務(wù)應(yīng)用的可靠性。
可選地,作為一個(gè)實(shí)施例,處理器710還可以調(diào)用存儲(chǔ)器720中存儲(chǔ)的程序代碼執(zhí)行以下操作:根據(jù)所述故障告警消息確定所述第一虛擬機(jī)集合的影響信息,所述影響信息用于指示所述故障設(shè)備對(duì)所述至少一個(gè)第一虛擬機(jī)產(chǎn)生的影響的類(lèi)型和/或級(jí)別。其中,所述狀態(tài)告警消息還攜帶所述影響信息。
本發(fā)明實(shí)施例中,虛擬架構(gòu)管理系統(tǒng)根據(jù)故障設(shè)備的故障告警信息除了可以獲取受影響的至少一個(gè)虛擬機(jī),還可以獲取故障設(shè)備發(fā)生的故障對(duì)這些虛擬機(jī)的影響的類(lèi)型和/或級(jí)別,然后在向業(yè)務(wù)管理系統(tǒng)發(fā)送的狀態(tài)告警消息中還攜帶用于指示故障設(shè)備對(duì)第一虛擬機(jī)集合中的第一虛擬機(jī)產(chǎn)生的影響的類(lèi)型和/或級(jí)別的影響信息,從而使得業(yè)務(wù)管理系統(tǒng)或業(yè)務(wù)系統(tǒng)可以更加根據(jù)該影響信息對(duì)業(yè)務(wù)應(yīng)用進(jìn)行處理,進(jìn)一步提高業(yè)務(wù)應(yīng)用的可靠性。
可選地,作為一個(gè)實(shí)施例,所述故障設(shè)備對(duì)所述至少一個(gè)第一虛擬機(jī)產(chǎn)生的影響的類(lèi)型包括以下至少一種:故障、高風(fēng)險(xiǎn)、中風(fēng)險(xiǎn)、低風(fēng)險(xiǎn)或無(wú)影響。
可選地,作為一個(gè)實(shí)施例,處理器710可以調(diào)用存儲(chǔ)器720中存儲(chǔ)的程序代碼執(zhí)行以下操作:接收所述業(yè)務(wù)管理系統(tǒng)發(fā)送的第一請(qǐng)求消息,所述第一請(qǐng)求消息用于指示需要優(yōu)先恢復(fù)的待恢復(fù)的虛擬機(jī),所述待恢復(fù)的虛擬機(jī)為所述第一虛擬機(jī)集合中一個(gè)子集。所述處理器還用于根據(jù)所述第一請(qǐng)求信息優(yōu)先恢復(fù)所述待恢復(fù)的虛擬機(jī)。
本發(fā)明實(shí)施例中,虛擬架構(gòu)管理系統(tǒng)可以根據(jù)業(yè)務(wù)管理系統(tǒng)的請(qǐng)求,根據(jù)業(yè)務(wù)管理系統(tǒng)指示的優(yōu)先級(jí),對(duì)受故障設(shè)備的故障所影響的第一虛擬機(jī)集合中的至少一個(gè)虛擬機(jī)進(jìn)行恢復(fù)處理。
可選地,作為一個(gè)實(shí)施例,處理器710可以調(diào)用存儲(chǔ)器720中存儲(chǔ)的程序代碼執(zhí)行以下操作:在預(yù)置時(shí)間閾值內(nèi)未接收到所述業(yè)務(wù)管理系統(tǒng)發(fā)送的所述第一請(qǐng)求信息時(shí),按照預(yù)置虛擬機(jī)恢復(fù)策略恢復(fù)所述至少一個(gè)第一虛擬機(jī)。
本發(fā)明實(shí)施例可以保證在業(yè)務(wù)管理系統(tǒng)沒(méi)有信息指示虛擬架構(gòu)管理系統(tǒng)如何恢復(fù)第一虛擬機(jī)集合中的虛擬機(jī)時(shí),虛擬架構(gòu)管理系統(tǒng)可以主動(dòng)根據(jù)預(yù)先配置的恢復(fù)策略對(duì)第一虛擬機(jī)集合中的第一虛擬機(jī)進(jìn)行恢復(fù)。
可選地,作為一個(gè)實(shí)施例,處理器710可以調(diào)用存儲(chǔ)器720中存儲(chǔ)的程序代碼執(zhí)行以下操作:向所述業(yè)務(wù)管理系統(tǒng)發(fā)送狀態(tài)告警清除消息,所述狀態(tài)告警清除消息用于指示所述業(yè)務(wù)管理系統(tǒng)清除所述業(yè)務(wù)管理系統(tǒng)中的所述狀態(tài)告警消息。
本發(fā)明實(shí)施例中,虛擬架構(gòu)管理系統(tǒng)對(duì)虛擬機(jī)進(jìn)行恢復(fù)處理后,向業(yè)務(wù)管理系統(tǒng)發(fā)送狀態(tài)告警清除消息,使得業(yè)務(wù)管理系統(tǒng)可以根據(jù)該狀態(tài)告警清除消息清除之前接收的相關(guān)的狀態(tài)告警消息,從而避免業(yè)務(wù)管理系統(tǒng)對(duì)已經(jīng)恢復(fù)的虛擬機(jī)相關(guān)的狀態(tài)告警消息進(jìn)行分析處理。
應(yīng)理解,圖7所示本發(fā)明實(shí)施例的虛擬架構(gòu)管理系統(tǒng)可對(duì)應(yīng)于圖5所示的虛擬架構(gòu)管理系統(tǒng),并且本發(fā)明實(shí)施例的虛擬架構(gòu)管理系統(tǒng)中的各個(gè)單元的上述和其它操作和/或功能分別為了實(shí)現(xiàn)圖2所示的故障處理方法中由虛擬架構(gòu)管理系統(tǒng)執(zhí)行的相應(yīng)流程,為了簡(jiǎn)潔,在此不再贅述。
圖8是本發(fā)明另一個(gè)實(shí)施例的業(yè)務(wù)管理系統(tǒng)800的示意性結(jié)構(gòu)圖。業(yè)務(wù)管理系統(tǒng)800包括處理器810、存儲(chǔ)器820、通信接口830和總線(xiàn)840。其中,處理器810、存儲(chǔ)器820、通信接口830通過(guò)總線(xiàn)840進(jìn)行通信,也可以通過(guò)無(wú)線(xiàn)傳輸?shù)绕渌侄螌?shí)現(xiàn)通信。該存儲(chǔ)器820用于存儲(chǔ)指令,該處理器810用于執(zhí)行該存儲(chǔ)器820存儲(chǔ)的指令。該存儲(chǔ)器820存儲(chǔ)程序代碼,且處理器810可以調(diào)用存儲(chǔ)器820中存儲(chǔ)的程序代碼執(zhí)行以下操作:
接收所述虛擬架構(gòu)管理系統(tǒng)發(fā)送的狀態(tài)告警消息,所述狀態(tài)告警消息攜帶受故障設(shè)備影響的第一虛擬機(jī)集合的信息,所述第一虛擬機(jī)集合中包括至少一個(gè)第一虛擬機(jī);根據(jù)所述狀態(tài)告警消息確定所述至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用;對(duì)所述至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用執(zhí)行處理操作。
本發(fā)明實(shí)施例中,業(yè)務(wù)管理系統(tǒng)從虛擬架構(gòu)管理系統(tǒng)接收到受故障設(shè)備影響的第一虛擬機(jī)集合中的虛擬機(jī)的信息后,可以直接根據(jù)這些虛擬機(jī)的信息分析得到受影響的業(yè)務(wù)應(yīng)用,進(jìn)而可以對(duì)受影響的業(yè)務(wù)應(yīng)用進(jìn)行處理。與現(xiàn)有技術(shù)相比,業(yè)務(wù)管理系統(tǒng)可以直接根據(jù)第一虛擬機(jī)集合的狀態(tài)告警消息分析得到受影響的業(yè)務(wù)應(yīng)用,而不是根據(jù)故障設(shè)備的告警消息去分析得到受影響的虛擬機(jī)、再分析受影響的業(yè)務(wù)應(yīng)用。從而使得業(yè)務(wù)管理系統(tǒng)不需要直接感知硬件故障,進(jìn)而可以快速觸發(fā)業(yè)務(wù)應(yīng)用的影響處理,降低業(yè)務(wù)損失,提高業(yè)務(wù)應(yīng)用的可靠性。
可選地,作為一個(gè)實(shí)施例,所述狀態(tài)告警消息還攜帶所述第一虛擬機(jī)集合的影響信息,所述影響信息用于指示所述故障設(shè)備對(duì)所述至少一個(gè)第一虛擬機(jī)產(chǎn)生的影響的類(lèi)型和/或級(jí)別。其中,所述處理器具體用于根據(jù)所述第一虛擬機(jī)集合的影響信息對(duì)所述至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用執(zhí)行處理操作。
本發(fā)明實(shí)施例中,業(yè)務(wù)管理系統(tǒng)從虛擬架構(gòu)管理系統(tǒng)接收的第一虛擬機(jī)集合的狀態(tài)告警消息中還攜帶用于指示故障設(shè)備對(duì)第一虛擬機(jī)集合中的第一虛擬機(jī)產(chǎn)生的影響的類(lèi)型和/或級(jí)別的影響信息,從而使得業(yè)務(wù)管理系統(tǒng)或業(yè)務(wù)系統(tǒng)可以更加根據(jù)該影響信息對(duì)業(yè)務(wù)應(yīng)用進(jìn)行處理,進(jìn)一步提高業(yè)務(wù)應(yīng)用的可靠性。
可選地,作為一個(gè)實(shí)施例,所述第一虛擬機(jī)集合產(chǎn)生的影響的類(lèi)型包括以下至少一種:故障、高風(fēng)險(xiǎn)、中風(fēng)險(xiǎn)、低風(fēng)險(xiǎn)或無(wú)影響。
可選地,作為一個(gè)實(shí)施例,所述處理操作包括以下方式中的至少一種:
所述業(yè)務(wù)管理系統(tǒng)將所述至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用切換至未受所述故障設(shè)備影響的虛擬機(jī)執(zhí)行;或
所述業(yè)務(wù)管理系統(tǒng)將所述至少一個(gè)第一虛擬機(jī)的應(yīng)用狀態(tài)信息標(biāo)識(shí)為隔離狀態(tài),所述隔離狀態(tài)用于指示所述至少一個(gè)第一虛擬機(jī)停止執(zhí)行所述至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用;或
所述業(yè)務(wù)管理系統(tǒng)向所述虛擬架構(gòu)管理系統(tǒng)發(fā)送第一請(qǐng)求消息,所述第一請(qǐng)求消息用于指示待恢復(fù)的虛擬機(jī),所述待恢復(fù)的虛擬機(jī)為所述第一虛擬機(jī)集合中一個(gè)子集;或
所述業(yè)務(wù)管理系統(tǒng)向所述至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用的控制節(jié)點(diǎn)發(fā)送所述狀態(tài)告警消息,以使得所述控制節(jié)點(diǎn)根據(jù)所述狀態(tài)告警消息將所述至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用切換至所述未受所述故障設(shè)備影響的虛擬機(jī)執(zhí)行或?qū)⑺鲋辽僖粋€(gè)第一虛擬機(jī)的應(yīng)用狀態(tài)信息標(biāo)識(shí)為所述隔離狀態(tài)。
可選地,作為一個(gè)實(shí)施例,處理器710可以調(diào)用存儲(chǔ)器720中存儲(chǔ)的程序代碼執(zhí)行以下操作:根據(jù)所述第一虛擬機(jī)集合的影響信息確定第一請(qǐng)求消息。所述發(fā)送器840用于向所述虛擬架構(gòu)管理系統(tǒng)發(fā)送所述第一請(qǐng)求消息。
本發(fā)明實(shí)施例中,業(yè)務(wù)管理系統(tǒng)可以根據(jù)第一虛擬機(jī)的影響信息確定第一虛擬機(jī)集合中需要虛擬架構(gòu)管理系統(tǒng)恢復(fù)的待恢復(fù)的虛擬機(jī)的優(yōu)先級(jí),并向虛擬機(jī)架構(gòu)管理發(fā)送用于指示這些待恢復(fù)的虛擬機(jī)的恢復(fù)優(yōu)先級(jí)的第一請(qǐng)求消息,使得虛擬架構(gòu)管理系統(tǒng)可以根據(jù)業(yè)務(wù)管理系統(tǒng)指示的優(yōu)先級(jí),對(duì)受故障設(shè)備的故障所影響的第一虛擬機(jī)集合中的至少一個(gè)虛擬機(jī)進(jìn)行恢復(fù)處理。
可選地,作為一個(gè)實(shí)施例,處理器710可以調(diào)用存儲(chǔ)器720中存儲(chǔ)的程序代碼執(zhí)行以下操作:根據(jù)所述至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用的優(yōu)先級(jí)向所述虛擬架構(gòu)管理系統(tǒng)發(fā)送所述第一請(qǐng)求消息。
本發(fā)明實(shí)施例中,業(yè)務(wù)管理系統(tǒng)根據(jù)第一虛擬機(jī)集合中的第一虛擬機(jī)相關(guān)聯(lián)的業(yè)務(wù)應(yīng)用的優(yōu)先級(jí),即根據(jù)故障設(shè)備影響的業(yè)務(wù)應(yīng)用的優(yōu)先級(jí)指示虛擬架構(gòu)管理系統(tǒng)對(duì)第一虛擬機(jī)集合中的待恢復(fù)的虛擬機(jī)進(jìn)行恢復(fù)處理,從而可以保證高優(yōu)先級(jí)的業(yè)務(wù)應(yīng)用可以?xún)?yōu)先得到恢復(fù),進(jìn)一步保證業(yè)務(wù)應(yīng)用的可靠性。
可選地,作為一個(gè)實(shí)施例,處理器710可以調(diào)用存儲(chǔ)器720中存儲(chǔ)的程序代碼執(zhí)行以下操作:根據(jù)所述至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用的部署模式向所述虛擬架構(gòu)管理系統(tǒng)發(fā)送所述第一請(qǐng)求消息,所述至少一個(gè)第一虛擬機(jī)關(guān)聯(lián)的業(yè)務(wù)應(yīng)用的部署模式包括主備模式、負(fù)荷分擔(dān)模式和單虛擬機(jī)模式中的至少一種。
本發(fā)明實(shí)施例中,業(yè)務(wù)管理系統(tǒng)根據(jù)業(yè)務(wù)應(yīng)用的部署模式,即根據(jù)故障設(shè)備影響的業(yè)務(wù)應(yīng)用的部署模式指示虛擬架構(gòu)管理系統(tǒng)對(duì)第一虛擬機(jī)集合中的待恢復(fù)的虛擬機(jī)進(jìn)行恢復(fù)處理。
可選地,作為一個(gè)實(shí)施例,處理器710可以調(diào)用存儲(chǔ)器720中存儲(chǔ)的程序代碼執(zhí)行以下操作:接收所述虛擬架構(gòu)管理系統(tǒng)發(fā)送的狀態(tài)告警清除消息,所述處理器還用于根據(jù)所述狀態(tài)告警清除消息清除所述狀態(tài)告警消息。
本發(fā)明實(shí)施例中,業(yè)務(wù)管理系統(tǒng)可以根據(jù)虛擬架構(gòu)管理系統(tǒng)發(fā)送的狀態(tài)告警清除消息清除之前接收的相關(guān)的狀態(tài)告警消息,從而避免對(duì)已經(jīng)恢復(fù)的虛擬機(jī)相關(guān)的狀態(tài)告警消息進(jìn)行分析處理。
應(yīng)理解,圖8所示本發(fā)明實(shí)施例的業(yè)務(wù)管理系統(tǒng)可對(duì)應(yīng)于圖6所示的業(yè)務(wù)管理系統(tǒng),并且本發(fā)明實(shí)施例的業(yè)務(wù)管理系統(tǒng)中的各個(gè)單元的上述和其它操作和/或功能分別為了實(shí)現(xiàn)圖2所示的故障處理方法中由業(yè)務(wù)管理系統(tǒng)執(zhí)行的相應(yīng)流程,為了簡(jiǎn)潔,在此不再贅述。
可以理解,本發(fā)明實(shí)施例中的處理器可以是一種集成電路芯片,具有信號(hào)的處理能力。在實(shí)現(xiàn)過(guò)程中,上述方法實(shí)施例的各步驟可以通過(guò)處理器中的硬件的集成邏輯電路或者軟件形式的指令完成。上述的處理器可以是通用處理器、數(shù)字信號(hào)處理器(Digital Signal Processor,DSP)、專(zhuān)用集成電路(Application Specific Integrated Circuit,ASIC)、現(xiàn)成可編程門(mén)陣列(Field Programmable Gate Array,F(xiàn)PGA)或者其他可編程邏輯器件、分立門(mén)或者晶體管邏輯器件、分立硬件組件??梢詫?shí)現(xiàn)或者執(zhí)行本發(fā)明實(shí)施例中的公開(kāi)的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器也可以是任何常規(guī)的處理器等。結(jié)合本發(fā)明實(shí)施例所公開(kāi)的方法的步驟可以直接體現(xiàn)為硬件譯碼處理器執(zhí)行完成,或者用譯碼處理器中的硬件及軟件模塊組合執(zhí)行完成。軟件模塊可以位于隨機(jī)存儲(chǔ)器,閃存、只讀存儲(chǔ)器,可編程只讀存儲(chǔ)器或者電可擦寫(xiě)可編程存儲(chǔ)器、寄存器等本領(lǐng)域成熟的存儲(chǔ)介質(zhì)中。該存儲(chǔ)介質(zhì)位于存儲(chǔ)器,處理器讀取存儲(chǔ)器中的信息,結(jié)合其硬件完成上述方法的步驟。
可以理解,本發(fā)明實(shí)施例中的存儲(chǔ)器可以是易失性存儲(chǔ)器或非易失性存儲(chǔ)器,或可包括易失性和非易失性存儲(chǔ)器兩者。其中,非易失性存儲(chǔ)器可以是只讀存儲(chǔ)器(Read-Only Memory,ROM)、可編程只讀存儲(chǔ)器(Programmable ROM,PROM)、可擦除可編程只讀存儲(chǔ)器(Erasable PROM,EPROM)、電可擦除可編程只讀存儲(chǔ)器(Electrically EPROM,EEPROM)或閃存。易失性存儲(chǔ)器可以是隨機(jī)存取存儲(chǔ)器(Random Access Memory,RAM),其用作外部高速緩存。通過(guò)示例性但不是限制性說(shuō)明,許多形式的RAM可用,例如靜態(tài)隨機(jī)存取存儲(chǔ)器(Static RAM,SRAM)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(Dynamic RAM,DRAM)、同步動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(Synchronous DRAM,SDRAM)、雙倍數(shù)據(jù)速率同步動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(Double Data Rate SDRAM,DDR SDRAM)、增強(qiáng)型同步動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(Enhanced SDRAM,ESDRAM)、同步連接動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(Synchlink DRAM,SLDRAM)和直接內(nèi)存總線(xiàn)隨機(jī)存取存儲(chǔ)器(Direct Rambus RAM,DR RAM)。應(yīng)注意,本文描述的系統(tǒng)和方法的存儲(chǔ)器旨在包括但不限于這些和任意其它適合類(lèi)型的存儲(chǔ)器。
另外,本文中術(shù)語(yǔ)“系統(tǒng)”和“網(wǎng)絡(luò)”在本文中常被可互換使用。本文中術(shù)語(yǔ)“和/或”,僅僅是一種描述關(guān)聯(lián)對(duì)象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,A和/或B,可以表示:?jiǎn)为?dú)存在A,同時(shí)存在A和B,單獨(dú)存在B這三種情況。另外,本文中字符“/”,一般表示前后關(guān)聯(lián)對(duì)象是一種“或”的關(guān)系。
應(yīng)理解,在本發(fā)明實(shí)施例中,“與A相應(yīng)的B”表示B與A相關(guān)聯(lián),根據(jù)A可以確定B。但還應(yīng)理解,根據(jù)A確定B并不意味著僅僅根據(jù)A確定B,還可以根據(jù)A和/或其它信息確定B。
本領(lǐng)域普通技術(shù)人員可以意識(shí)到,結(jié)合本文中所公開(kāi)的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計(jì)算機(jī)軟件和電子硬件的結(jié)合來(lái)實(shí)現(xiàn)。這些功能究竟以硬件還是軟件方式來(lái)執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專(zhuān)業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來(lái)使用不同方法來(lái)實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng)、裝置和單元的具體工作過(guò)程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再贅述。
在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng)、裝置和方法,可以通過(guò)其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。
所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。
另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以?xún)蓚€(gè)或兩個(gè)以上單元集成在一個(gè)單元中。
所述功能如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷(xiāo)售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤(pán)、移動(dòng)硬盤(pán)、只讀存儲(chǔ)器(Read-Only Memory,ROM)、隨機(jī)存取存儲(chǔ)器(Random Access Memory,RAM)、磁碟或者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)。