專利名稱:一種主備倒換的仲裁方法、裝置和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及小型機技術(shù)領(lǐng)域,尤其涉及一種主備倒換的仲裁方法、裝置和系統(tǒng)。
背景技術(shù):
在小型機領(lǐng)域中,管理系統(tǒng)對各個BMC (Baseboard Management Controller,基板管理控制器)進行統(tǒng)一管理,并保證系統(tǒng)的可靠性、可用性以及穩(wěn)定性。目前的服務(wù)處理器(Service Processor, SP)采用主SP與備SP共同管理系統(tǒng),并保證主備的快速切換甚至是無縫切換,而且為了防止網(wǎng)絡(luò)的單點失效,一般采用雙網(wǎng)雙平面的架構(gòu)。在現(xiàn)有技術(shù)中,一種方式是著眼于主備SP倒換的穩(wěn)定性以及倒換速度,同時專門設(shè)計了一個仲裁電路進行主備SP倒換的仲裁;另一種方式是為管理系統(tǒng)增加了冗余的第三方仲裁,來關(guān)注SP是否在位,從而決定是否需要進行主備倒換。發(fā)明人經(jīng)過研究發(fā)現(xiàn),現(xiàn)有技術(shù)方案主要涉及主備倒換的穩(wěn)定性以及速度,將主備SP是否在位、是否有故障作為主備切換的仲裁條件,而沒有關(guān)注主備SP的管理能力,系統(tǒng)的可用性不高,而且由于在管理系統(tǒng)中添加了專門的第三方仲裁者,額外增加了系統(tǒng)的成本。
發(fā)明內(nèi)容
本發(fā)明的實施例提供一種主備倒換的仲裁方法、裝置和系統(tǒng),避免增加額外的設(shè)施充當仲裁者,降低了系統(tǒng)的成本,同時將服務(wù)處理器的管理能力也作為仲裁條件,提高了系統(tǒng)的可用性。為達到上述目的,本發(fā)明采用如下技術(shù)方案一種主備倒換的仲裁方法,包括主用服務(wù)處理器SP檢測并統(tǒng)計與自身通信連接正常的基板管理控制器BMC的個數(shù),當檢測到存在至少一個BMC與所述主用SP之間的通信連接存在異常時,向備用SP發(fā)送通信連接檢測指令,以觸發(fā)所述備用SP檢測自身與各個BMC之間的通信連接是否正常,并統(tǒng)計與所述備用SP通信連接正常的BMC的個數(shù);當與所述主用SP通信連接正常的BMC個數(shù)小于與所述備用SP通信連接正常的BMC個數(shù),且與所述主用SP通信連接正常的BMC均與所述備用SP存在正常通信連接時,所述主用SP向所述備用SP發(fā)送主備倒換指令,以指示所述備用SP將自身的IP地址修改為所述主用SP的IP地址。本發(fā)明實施例還提供另一種主備倒換的仲裁方法,包括第一 SP檢測與之相連的第二 SP發(fā)送的心跳信號,所述心跳信號用于表明所述第二 SP的狀態(tài)正常;當所述第一 SP檢測不到所述第二 SP發(fā)送的心跳信號時,向與所述第二 SP連接的各個BMC發(fā)送通信連接檢測指令,以觸發(fā)所述各個BMC檢測各自與所述第二 SP之間的通信連接是否正常;
當所述第一 SP為備用SP,所述第二 SP為主用SP,且所述各個BMC與所述第二 SP之間的通信連接均不正常時,所述第一 SP將自身的IP地址修改為所述主用SP的IP地址。本發(fā)明實施例還提供一種主用服務(wù)處理器SP,用于對與之相連的基板管理控制器BMC進行管理,該主用SP包括第一處理單元,用于檢測并統(tǒng)計與所述主用SP通信連接正常的BMC的個數(shù),當檢測到存在至少一個BMC與所述主用SP之間的通信連接存在異常時,向與所述主用SP連接的備用SP發(fā)送通信連接檢測指令,以觸發(fā)所述備用SP檢測自身與各個BMC之間的通信連 接是否正常,并統(tǒng)計與所述備用SP通信連接正常的BMC的個數(shù);第二處理單元,用于當與所述主用SP通信連接正常的BMC個數(shù)小于與所述備用SP通信連接正常的BMC個數(shù),且與所述主用SP通信連接正常的BMC均與所述備用SP存在正常通信連接時,向所述備用SP發(fā)送主備倒換指令,以指示所述備用SP將自身的IP地址修改為所述主用SP的IP地址。本發(fā)明實施例還提供一種服務(wù)處理器SP,包括檢測單元,用于檢測與所述SP相連的另一 SP發(fā)送的心跳信號,所述心跳信號用于表明所述另一 SP的狀態(tài)正常;發(fā)送單元,用于當檢測不到所述另一 SP發(fā)送的心跳信號時,向與所述另一 SP連接的各個BMC發(fā)送通信連接檢測指令,以觸發(fā)所述各個BMC檢測各自與所述另一 SP之間的通信連接是否正常;處理單元,用于當所述SP為備用SP,所述另一 SP為主用SP,且所述各個BMC與所述另一 SP之間的通信連接均不正常時,將所述SP自身的IP地址修改為所述另一 SP的IP地址。本發(fā)明實施例還提供一種小型機系統(tǒng),包括主用服務(wù)處理器SP、備用SP、以及與所述主用SP和所述備用SP分別連接的多個BMC ;所述主用SP用于對所述各個BMC進行管理,所述主用SP,還用于檢測并統(tǒng)計與自身通信連接正常的BMC的個數(shù),當檢測到存在至少一個BMC與所述主用SP之間的通信連接存在異常時,向所述備用SP發(fā)送通信連接檢測指令;所述備用SP,用于在接收到所述主用SP發(fā)送的通信連接檢測指令之后,檢測自身與各個BMC之間的通信連接是否正常,并統(tǒng)計與自身通信連接正常的BMC的個數(shù);所述主用SP,還用于當與所述主用SP通信連接正常的BMC個數(shù)小于與所述備用SP通信連接正常的BMC個數(shù),且與所述主用SP通信連接正常的BMC均與所述備用SP存在正常通信連接時,所述主用SP向所述備用SP發(fā)送主備倒換指令;所述備用SP,還用于在接收到所述主用SP發(fā)送的主備倒換指令后,將自身的IP地址修改為所述主用SP的IP地址。本發(fā)明實施例還提供另外一種小型機系統(tǒng),包括第一服務(wù)處理器SP、第二 SP、以及與所述第一 SP和所述第二 SP分別連接的多個基板管理控制器BMC,所述第一 SP與所述第二 SP通過互相發(fā)送心跳信號來告知對方自身的狀態(tài)正常,所述第一 SP和所述第二 SP可以在主用狀態(tài)和備用狀態(tài)之間切換,當所述第一 SP為主用SP時,所述第二 SP為備用SP ;當所述第一 SP為備用SP時,所述第二 SP為主用SP ;所述第一 SP,用于在檢測不到所述第二 SP發(fā)送的心跳信號時,向與所述第二 SP連接的各個BMC發(fā)送通信連接檢測指令;
所述BMC,用于在接收到所述第一 SP發(fā)送的通信連接檢測指令后,檢測自身與所述第二 SP之間的通信連接是否正常;所述第一 SP,還用于當所述第一 SP為備用SP,所述第二 SP為主用SP,且所述各個BMC與所述第二 SP之間的通信連接均不正常時,所述第一 SP將自身的IP地址修改為所述第二 SP的IP地址。本發(fā)明實施例提供的方案,當檢測到存在至少一個BMC與該主用SP之間的通信連接存在異常時,通過比較主用SP和備用SP對各個BMC的管理能力,來決定是否進行主備倒換,不需要引入第三方仲裁者,降低了系統(tǒng)的成本,同時在主備雙方都存在心跳且健康的情況下,考慮受管者的可管理性作為主備切換的仲裁條件,主備雙方根據(jù)自己的管理能力進行主備切換,提高系統(tǒng)的可用性。
圖I為本發(fā)明實施例I提供的一種主備倒換的仲裁方法的流程圖;圖2為現(xiàn)有技術(shù)中管理系統(tǒng)采用雙網(wǎng)雙平面的架構(gòu)示例圖;圖3為本發(fā)明實施例I提供的所述主用SP與所述至少一個BMC之間的通信鏈路存在故障的示例圖;圖4為本發(fā)明實施例I提供的主備倒換的示例圖;圖5為本發(fā)明實施例I提供的另一種主備倒換的仲裁方法的流程圖;圖6為本發(fā)明實施例I提供的一個BMC存在異常的示例圖;圖7為本發(fā)明實施例I提供的一種主備倒換的仲裁裝置結(jié)構(gòu)圖;圖8為本發(fā)明實施例2提供的一種主備倒換的仲裁方法的流程圖;圖9為本發(fā)明實施例2提供的所述主用SP狀態(tài)異常的示例圖;圖10為本發(fā)明實施例2提供的主備倒換的示例圖;圖11為本發(fā)明實施例2提供的又一種主備倒換的仲裁方法的流程圖;圖12為本發(fā)明實施例2提供的另一種主備倒換的仲裁方法的流程圖;圖13為本發(fā)明實施例2提供的主用SP和備用SP之間的通信鏈路存在異常的示例圖;圖14為本發(fā)明實施例2提供的再一種主備倒換的仲裁方法的流程圖;圖15為本發(fā)明實施例2提供的備用SP狀態(tài)異常的示例圖;圖16為本發(fā)明實施例2提供的一種主備倒換的仲裁裝置的結(jié)構(gòu)圖;圖17為本發(fā)明實施例3提供的一種小型機系統(tǒng)的結(jié)構(gòu)圖;圖18為本發(fā)明實施例3提供的另一種小型機系統(tǒng)的結(jié)構(gòu)圖。
具體實施例方式下面結(jié)合附圖對本發(fā)明實施例一種主備倒換的仲裁方法、裝置和系統(tǒng)進行詳細描述。
實施例I本發(fā)明實施例提供的一種主備倒換的仲裁方法,如圖I所示,具體包括101、主用SP檢測并統(tǒng)計與自身通信連接正常的BMC的個數(shù),當檢測到存在至少一個BMC與所述主用SP之間的通信連接存在異常時,向備用SP發(fā)送通信連接檢測指令,以觸發(fā)所述備用SP檢測自身與各個BMC之間的通信連接是否正常,并統(tǒng)計與所述備用SP通信連接正常的BMC的個數(shù);102、當與所述主用SP通信連接正常的BMC個數(shù)小于與所述備用SP通信連接正常的BMC個數(shù),且與所述主用SP通信連接正常的BMC均與所述備用SP存在正常通信連接時,所述主用SP向所述備用SP發(fā)送主備倒換指令,以指示所述備用SP將自身的IP地址修改為所述主用SP的IP地址。 本發(fā)明實施例提供的一種主備倒換的仲裁方法,當主用SP檢測到存在至少一個BMC與所述主用SP之間的通信連接存在異常時,通過比較主用SP和備用SP對各個BMC的管理能力,來決定是否進行主備倒換。本發(fā)明實施例提供的方案,不需要引入第三方仲裁者,降低了系統(tǒng)的成本,同時在主備雙方都存在心跳且健康的情況下,考慮受管者的可管理性作為主備切換的仲裁條件,主備雙方根據(jù)自己的管理能力進行主備切換,提高系統(tǒng)的可用性。在小型機領(lǐng)域,通過小型機管理系統(tǒng)對各個BMC進行統(tǒng)一的管理,而且為了防止網(wǎng)絡(luò)的單點失效,管理系統(tǒng)一般會采用雙網(wǎng)雙平面的架構(gòu),如圖2所示,圖中實線與虛線代表兩個網(wǎng)絡(luò)平面。BMC是整個小型機管理系統(tǒng)的一個有機組成部分,負責管理各個節(jié)點,對于不同的級別的小型機系統(tǒng),系統(tǒng)中BMC的個數(shù)會不一樣,例如32路系統(tǒng)中可能會存在16個BMC,而16路的系統(tǒng)中,可能只有8個BMC。所有的BMC會組成一個仲裁集團。在圖2所述的架構(gòu)中,主用SP會將一些必要的同步信息同步到備SP上。只有主用SP會對BMC進行管理,備用SP處于“待命”狀態(tài),只有在升主后,它才會接手對BMC的管理。在圖2所示的管理系統(tǒng)中,用戶會預先對主用SP和備用SP設(shè)置各自的IP地址,同時會將所述主用SP的IP地址通知所述備用SP,所述主用SP在工作過程中會將其管理的BMC的IP信息同步到備用SP上。當主要SP檢測到存在至少一個BMC與所述主用SP之間的通信連接存在異常時,向備用SP發(fā)送通信連接檢測指令,以觸發(fā)所述備用SP檢測自身與各個BMC之間的通信連接是否正常,備用SP通過ping的方式來檢測自身能夠ping通的BMC的個數(shù)。在具體應(yīng)用時,如圖3所示,由于所述主用SP與所述至少一個BMC之間的通信鏈路存在故障,導致所述主用SP與所述至少一個BMC失去通信,但是備用SP可以和所述至少一個BMC通信,在這種情況下,所述檢測結(jié)果指示與所述備用SP存在正常通信連接的BMC個數(shù)大于與所述主用SP存在正常通信連接的BMC個數(shù),且與所述備用SP存在正常通信連接的BMC,除了包含所有與所述主用SP存在正常通信連接的BMC之外,還包含與所述主用SP不能正常通信連接的其他BMC,則表明此時所述備用SP更適合當所述主用SP,所以所述主用SP向所述備用SP發(fā)送主備倒換指令,以指示所述備用SP將自身的IP地址修改為主用SP的IP地址。如圖4所示,所述各個BMC只需要不停的去連接192. 168. 51.5這個IP地址,主備倒換的過程對于所述各個BMC是并不可見,所述主備倒換過程就是一個修改IP地址的過程??蛇x的,本發(fā)明實施例提供的一種主備倒換的仲裁方法,如圖5所示,具體還包括
103、當與所述主用SP通信連接正常的BMC個數(shù)大于或者等于與所述主用SP通信連接正常的BMC個數(shù)時,所述主用SP保持現(xiàn)有狀態(tài)不變。當所述檢測結(jié)果中指示與所述備用SP存在正常通信連接的BMC個數(shù)小于或等于所述主用SP存在正常通信連接的BMC個數(shù),說明所述主用SP仍然更適合作為主用SP。如圖6所示,當一個BMC存在異常時,導致所述備用SP也與所述BMC失去通信,則所述主用SP保持現(xiàn)有狀態(tài)繼續(xù)運行。相應(yīng)地,本發(fā)明實施例提供的一種主用服務(wù)處理器SP,如圖7所示,該主用SPlO包括第一處理單元11和第二處理單元12。 其中,所述第一處理單元11,用于檢測并統(tǒng)計與所述主用SP通信連接正常的BMC的個數(shù),當檢測到存在至少一個BMC與所述主用SP之間的通信連接存在異常時,向與所述主用SP連接的備用SP發(fā)送通信連接檢測指令,以觸發(fā)所述備用SP檢測自身與各個BMC之間的通信連接是否正常,并統(tǒng)計與所述備用SP通信連接正常的BMC的個數(shù);;第二處理單元12,用于當與所述主用SP通信連接正常的BMC個數(shù)小于與所述備用SP通信連接正常的BMC個數(shù),且與所述主用SP通信連接正常的BMC均與所述備用SP存在正常通信連接時,向所述備用SP發(fā)送主備倒換指令,以指示所述備用SP將自身的IP地址修改為所述主用SP的IP地址。本發(fā)明實施例提供的主用SP,當檢測到存在至少一個BMC與該主用SP之間的通信連接存在異常時,通過比較主用SP和備用SP對各個BMC的管理能力,來決定是否進行主備倒換。本發(fā)明實施例提供的方案,不需要引入第三方仲裁者,降低了系統(tǒng)的成本,同時在主備雙方都存在心跳且健康的情況下,考慮受管者的可管理性作為主備切換的仲裁條件,主備雙方根據(jù)自己的管理能力進行主備切換,提高系統(tǒng)的可用性。其中,所述主用SP的第二處理單元,還用于當與所述主用SP通信連接正常的BMC個數(shù)大于或者等于與所述備用SP通信連接正常的BMC個數(shù)時,所述主用SP保持現(xiàn)有狀態(tài)不變。上述的實施例中,主備倒換的仲裁觸發(fā)條件是主用SP檢測到存在至少一個BMC與所述主用SP之間的通信連接存在異常,然后通過比較主用SP和備用SP能夠正常通信連接的BMC的個數(shù),以及與所述備用SP存在正常通信連接的BMC是否包含所有與所述裝置存在正常通信連接的BMC,來判斷誰更適合作為主用SP,通過管理系統(tǒng)內(nèi)的自有裝置作為仲裁方,降低了系統(tǒng)的成本,更加關(guān)注服務(wù)處理器的管理能力,提高系統(tǒng)的可用性。實施例2本發(fā)明實施例提供的一種主備倒換的仲裁方法,如圖8所示,具體包括201、第一服務(wù)器SP檢測與之相連的第二 SP發(fā)送的心跳信號,所述心跳信號用于表明所述第二 SP的狀態(tài)正常;在本發(fā)明實施例提供的方法的操作過程中,第一 SP與第二 SP之間通過周期性發(fā)送心跳信號,判斷設(shè)備的健康狀況,判斷對方是否“存活”,如果在指定的時間內(nèi)仍沒有收到設(shè)備的心跳信號,就可以判斷此設(shè)備發(fā)生故障。202、當?shù)谝?SP檢測不到第二 SP發(fā)送的心跳信號時,向與所述第二 SP連接的各個BMC發(fā)送通信連接檢測指令,以觸發(fā)所述各個BMC檢測各自與所述第二 SP之間的通信連接是否正常;
203、當所述第一 SP為備用SP,所述第二 SP為主用SP,且所述各個BMC與所述第二 SP之間的通信連接均不正常時,所述第一 SP將自身的IP地址修改為所述主用SP的IP地址。需要說明的是, 上述步驟203完成了主備切換的過程;BMC通過TCP連接到主用SP上,接受主用SP的管理,同時備用SP可以通過UDP的方式向BMC發(fā)送命令請求。BMC會不停的去連接主用SP的IP,直至連接上為止,本領(lǐng)域技術(shù)人員可以理解的是,主備切換的過程就是一個修改IP的過程,且主備切換的過程對BMC并不可見。本發(fā)明實施例提供的一種主備倒換的仲裁方法,當?shù)谝?SP檢測不到第二 SP發(fā)送的心跳信號時,詢問與所述第二 SP存在連接的各個BMC,由所述各個BMC檢測各自與所述第二 SP之間的通信連接是否正常,通過檢測結(jié)果決定是否進行主備倒換。本發(fā)明實施例提供的方案,不需要引入第三方仲裁者,降低了系統(tǒng)的成本,同時在主備雙方都存在心跳且健康的情況下,考慮受管者的可管理性作為主備切換的仲裁條件,主備雙方根據(jù)自己的管理能力進行主備切換,提高系統(tǒng)的可用性。在本發(fā)明實施例提供的方法的操作過中,主用SP與備用SP之間通過周期性發(fā)送心跳信號,判斷設(shè)備的健康狀況,判斷對方是否“存活”,如果在指定的時間內(nèi)仍沒有收到設(shè)備的心跳信號,就可以判斷此設(shè)備發(fā)生故障。當所述備用SP檢測不到所述主用SP的心跳信號時,所述備用SP向各個BMC發(fā)送通信連接檢測指令,以觸發(fā)所述各個BMC檢測各自與所述主用SP之間的通信連接是否正常,當所述各個BMC與所述主用SP之間的通信連接均不正常時,如圖9所示,表明網(wǎng)絡(luò)中所述主用SP掛死,所述主用SP不能管理所述各個BMC,則所述備用SP將自身的IP地址修改為所述主用SP的IP地址。如圖10所示,所述各個BMC只需要不停的去連接192. 168. 51. 5這個IP地址,主備倒換的過程對于所述各個BMC是并不可見,所述主備倒換過程就是一個修改IP地址的過程??蛇x的,本發(fā)明實施例提供的一種主備倒換的仲裁方法,如圖11所示,所述第一SP將自身的IP地址修改為所述主用SP的IP地址之后,還包括204、發(fā)出第一告警信息,以顯示所述第二 SP的狀態(tài)異常。在本發(fā)明的一個實施例中,當主用SP檢測不到備用SP的心跳時,它首先會去詢問各個被管理的BMC能否ping通備用SP’如果有一個BMC能ping通,則說明備用SP在位,則主用SP產(chǎn)生主備之間通信鏈路存在問題的告警;如果所有BMC都不能ping通備用SP,則主用SP會發(fā)出第一告警信息,以提示備用SP狀態(tài)異常,當前不在位。具體應(yīng)用時,本發(fā)明實施例提供的另一種主備倒換的仲裁方法,如圖12所示,第一 SP為備用SP,第二 SP為主用SP,具體包括301、當備用SP檢測不到主用SP發(fā)送的心跳信號時,向與所述主用SP連接的各個BMC發(fā)送通信連接檢測指令,以觸發(fā)所述各個BMC檢測各自與所述主用SP之間的通信連接是否正常,所述心跳信號用于表明所述第二 SP的狀態(tài)正常;302、當存在至少一個BMC與所述主用SP之間的通信連接為正常時,所述備用SP發(fā)出第二告警信息,以顯示所述主用SP與所述備用SP之間的通信鏈路存在異常。如圖13所示,當所述檢測結(jié)果中指示存在至少一個BMC與所述主用SP之間的通信連接為正常時,表明所述至少一個BMC被所述主用SP所管理,說明網(wǎng)絡(luò)中所述主用SP正常工作,則所述主用SP和所述備用SP都保持當前狀態(tài),所述備用SP發(fā)出第二告警信息,以顯示所述主用SP與所述備用SP之間的通信鏈路存在異常。具體應(yīng)用時,本發(fā)明實施例提供的另一種主備倒換的仲裁方法,如圖14所示,第一 SP為主用SP,第二 SP為備用SP,具體包括401、當主用SP檢測不到備用SP發(fā)送的心跳信號時,向與所述備用SP連接的各個BMC發(fā)送通信連接檢測指令,以觸發(fā)所述各個BMC檢測各自與所述備用SP之間的通信連接是否正常,所述心跳信號用于表明所述備用SP的狀態(tài)正常;402、當存在至少一個BMC與所述備用SP之間的通信連接為正常時,所述主用SP發(fā)出第三告警信息,以顯示所述主用SP與所述備用SP之間的通信鏈路存在異常。當主用SP檢測不到備用SP發(fā)送的心跳信號時,所述主用SP會去詢問與所述備用 SP連接的各個BMC能否ping通備用SP,如圖13所示,當存在至少一個BMC能夠ping通所述備用SP時,表明網(wǎng)絡(luò)中所述備用SP正常工作,則所述主用SP和所述備用SP都保持當前狀態(tài),所述主用SP發(fā)出第三告警信息,以顯示所述主用SP與所述備用SP之間的通信鏈路存在異常。403、當所述各個BMC與所述備用SP之間的通信連接均不正常時,所述主用SP發(fā)出第四告警信息,以顯示所述備用SP的狀態(tài)異常。如圖15所示,當所述各個BMC都不能ping通所述備用SP時,表明所述網(wǎng)絡(luò)中所述備用SP不能正常工作,則所述主用SP發(fā)出第四告警信息,以顯示所述備用SP的狀態(tài)異
堂
巾O相應(yīng)地,本發(fā)明實施例提供的一種服務(wù)處理器SP,如圖16所示,所述SP20包括檢測單元21、發(fā)送單元22和第一處理單元23。其中,檢測單元21,用于檢測與所述SP相連的另一 SP發(fā)送的心跳信號,所述心跳信號用于表明所述另一 SP的狀態(tài)正常;發(fā)送單元22,用于當檢測不到另一 SP發(fā)送的心跳信號時,向與所述另一 SP連接的各個BMC發(fā)送通信連接檢測指令,以觸發(fā)所述各個BMC檢測各自與所述另一 SP之間的通信連接是否正常,所述心跳信號用于表明所述另一 SP的狀態(tài)正常;處理單元23,用于當所述SP為備用SP,所述另一 SP為主用SP,且所述各個BMC與所述另一 SP之間的通信連接均不正常時,將所述SP自身的IP地址修改為所述另一 SP的IP地址。本發(fā)明實施例提供的服務(wù)處理器SP在檢測不到與之連接的另一 SP發(fā)送的心跳信號時,詢問與所述第二 SP存在連接的各個BMC,由所述各個BMC檢測各自與該另一 SP之間的通信連接是否正常,通過檢測結(jié)果決定是否進行主備倒換。本發(fā)明實施例提供的方案,不需要引入第三方仲裁者,降低了系統(tǒng)的成本,同時在主備雙方都存在心跳且健康的情況下,考慮受管者的可管理性作為主備切換的仲裁條件,主備雙方根據(jù)自己的管理能力進行主備切換,提高系統(tǒng)的可用性。可選的,本發(fā)明實施例提供的一種服務(wù)處理器SP還包括報警單元24,用于在所述處理單元將所述SP的IP地址修改為所述另一 SP的IP地址之后,發(fā)出第一告警信息,以顯示所述另一 SP的狀態(tài)異常??蛇x的,所述報警單元,還用于當存在至少一個BMC與所述另一 SP之間的通信連接為正常時,發(fā)出第二告警信息,以顯示所述SP與所述另一 SP之間的通信鏈路存在異常。
相應(yīng)地,當本發(fā)明實施例提供的服務(wù)處理器SP處于主用狀態(tài),而與該SP相連的另一 SP處于備用狀態(tài)時,所述報警單元24,用于當存在至少一個BMC與所述另一 SP之間的通信連接為正常時,發(fā)出第三告警信息,以顯示所述SP與所述另一 SP之間的通信鏈路存在異常;或者,當所述各個BMC與所述另一 SP之間的通信連接均不正常時,發(fā)出第四告警信息,以顯示所述第二 SP的狀態(tài)異常。上述的實施例中,主備倒換的 仲裁觸發(fā)條件是主備雙方失去通信,即主用SP檢測不到備用SP發(fā)送的狀態(tài)信號,或者備用SP檢測不到主用SP發(fā)送的狀態(tài)信號時,根據(jù)各個BMC作為仲裁方來判斷誰更適合作為主用SP,降低了系統(tǒng)的成本,更加關(guān)注服務(wù)處理器的管理能力,提高系統(tǒng)的可用性。實施例3本發(fā)明實施例提供一種小型機系統(tǒng),如圖17所示,包括主用SP、備用SP、以及與所述主用SP和所述備用SP分別連接的多個BMC ;所述主用SP用于對所述各個BMC進行管理,所述主用SP,還用于檢測并統(tǒng)計與自身通信連接正常的BMC的個數(shù),當檢測到存在至少一個BMC與所述主用SP之間的通信連接存在異常時,向所述備用SP發(fā)送通信連接檢測指令;所述備用SP,用于在接收到所述主用SP發(fā)送的通信連接檢測指令之后,檢測自身與各個BMC之間的通信連接是否正常,并統(tǒng)計與自身通信連接正常的BMC的個數(shù);所述主用SP,還用于當與所述主用SP通信連接正常的BMC個數(shù)小于與所述備用SP通信連接正常的BMC個數(shù),且與所述主用SP通信連接正常的BMC均與所述備用SP存在正常通信連接時,所述主用SP向所述備用SP發(fā)送主備倒換指令;所述備用SP,還用于在接收到所述主用SP發(fā)送的主備倒換指令后,將自身的IP地址修改為所述主用SP的IP地址。本發(fā)明實施例提供的一種小型機系統(tǒng),當主用SP檢測到存在至少一個BMC與所述主用SP之間的通信連接存在異常時,通過比較主用SP和備用SP對各個BMC的管理能力,來決定是否進行主備倒換。本發(fā)明實施例提供的方案,不需要引入第三方仲裁者,降低了系統(tǒng)的成本,同時在主備雙方都存在心跳且健康的情況下,考慮受管者的可管理性作為主備切換的仲裁條件,主備雙方根據(jù)自己的管理能力進行主備切換,提高系統(tǒng)的可用性??蛇x的,所述主用SP,還用于當與所述備用SP存在正常通信連接的BMC個數(shù)小于或等于所述主用SP存在正常通信連接的BMC個數(shù)時,保持現(xiàn)有狀態(tài)不變。本發(fā)明實施例還提供一種小型機系統(tǒng),如圖18所示,包括第一 SP、第二 SP、以及與所述第一 SP和所述第二 SP分別連接的多個BMC,所述第一 SP與所述第二 SP通過互相發(fā)送心跳信號來告知對方自身的狀態(tài)正常,所述第一 SP和所述第二 SP可以在主用狀態(tài)和備用狀態(tài)之間切換,當所述第一 SP為主用SP時,所述第二 SP為備用SP ;當所述第一 SP為備用SP時,所述第二 SP為主用SP ;所述第一 SP,用于在檢測不到所述第二 SP發(fā)送的心跳信號時,向與所述第二 SP連接的各個BMC發(fā)送通信連接檢測指令;所述BMC,用于在接收到所述第一 SP發(fā)送的通信連接檢測指令后,檢測自身與所述第二 SP之間的通信連接是否正常;
所述第一 SP,還用于當所述第一 SP為備用SP,所述第二 SP為主用SP,且所述各個BMC與所述第二 SP之間的通信連接均不正常時,所述第一 SP將自身的IP地址修改為所述第二 SP的IP地址。本發(fā)明實施例提供的一種小型機系統(tǒng),當?shù)谝?SP檢測不到第二 SP發(fā)送的心跳信號時,詢問與所述第二 SP存在連接的各個BMC,由所述各個BMC檢測各自與所述第二 SP之間的通信連接是否正常,通過檢測結(jié)果決定是否進行主備倒換。本發(fā)明實施例提供的方案,不需要引入第三方仲裁者,降低了系統(tǒng)的成本,同時在主備雙方都存在心跳且健康的情況下,考慮受管者的可管理性作為主備切換的仲裁條件,主備雙方根據(jù)自己的管理能力進行主備切換,提高系統(tǒng)的可用性??蛇x的,所述第一 SP,還用于當所述第一 SP為主用SP,所述第二 SP為備用SP,且 存在至少一個BMC與所述第二 SP之間的通信連接為正常時,所述第一 SP發(fā)出告警信息,以顯示所述第一 SP與所述第二 SP之間的通信鏈路存在異常。以上所述,僅為本發(fā)明的具體實施方式
,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)所述以權(quán)利要求的保護范圍為準。
權(quán)利要求
1.一種主備倒換的仲裁方法,其特征在于,包括 主用服務(wù)處理器SP檢測并統(tǒng)計與自身通信連接正常的基板管理控制器BMC的個數(shù),當檢測到存在至少一個BMC與所述主用SP之間的通信連接存在異常時,向備用SP發(fā)送通信連接檢測指令,以觸發(fā)所述備用SP檢測自身與各個BMC之間的通信連接是否正常,并統(tǒng)計與所述備用SP通信連接正常的BMC的個數(shù); 當與所述主用SP通信連接正常的BMC個數(shù)小于與所述備用SP通信連接正常的BMC個數(shù),且與所述主用SP通信連接正常的BMC均與所述備用SP存在正常通信連接時,所述主用SP向所述備用SP發(fā)送主備倒換指令,以指示所述備用SP將自身的IP地址修改為所述主用SP的IP地址。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,還包括 當與所述主用SP通信連接正常的BMC個數(shù)大于或者等于與所述備用SP通信連接正常 的BMC個數(shù)時,所述主用SP保持現(xiàn)有狀態(tài)不變。
3.—種主備倒換的仲裁方法,其特征在于,包括 第一 SP檢測與之相連的第二 SP發(fā)送的心跳信號,所述心跳信號用于表明所述第二 SP的狀態(tài)正常; 當所述第一 SP檢測不到所述第二 SP發(fā)送的心跳信號時,向與所述第二 SP連接的各個BMC發(fā)送通信連接檢測指令,以觸發(fā)所述各個BMC檢測各自與所述第二 SP之間的通信連接是否正常; 當所述第一 SP為備用SP,所述第二 SP為主用SP,且所述各個BMC與所述第二 SP之間的通信連接均不正常時,所述第一 SP將自身的IP地址修改為所述主用SP的IP地址。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述第一SP將自身的IP地址修改為所述主用SP的IP地址之后,還包括 發(fā)出第一告警信息,以顯示所述第二 SP的狀態(tài)異常。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,還包括 當所述第一 SP為備用SP,所述第二 SP為主用SP,且存在至少一個BMC與所述第二 SP之間的通信連接為正常時,所述第一 SP發(fā)出第二告警信息,以顯示所述第一 SP與所述第二SP之間的通信鏈路存在異常。
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,還包括 當所述第一 SP為主用SP,所述第二 SP為備用SP,且存在至少一個BMC與所述第二 SP之間的通信連接為正常時,所述第一 SP發(fā)出第三告警信息,以顯示所述第一 SP與所述第二SP之間的通信鏈路存在異常; 當所述各個BMC與所述第二 SP之間的通信連接均不正常時,所述第一 SP發(fā)出第四告警信息,以顯示所述第二 SP的狀態(tài)異常。
7.—種主用服務(wù)處理器SP,用于對與之相連的基板管理控制器BMC進行管理,其特征在于,所述主用SP,包括 第一處理單元,用于檢測并統(tǒng)計與所述主用SP通信連接正常的BMC的個數(shù),當檢測到存在至少一個BMC與所述主用SP之間的通信連接存在異常時,向與所述主用SP連接的備用SP發(fā)送通信連接檢測指令,以觸發(fā)所述備用SP檢測自身與各個BMC之間的通信連接是否正常,并統(tǒng)計與所述備用SP通信連接正常的BMC的個數(shù);第二處理單元,用于當與所述主用SP通信連接正常的BMC個數(shù)小于與所述備用SP通信連接正常的BMC個數(shù),且與所述主用SP通信連接正常的BMC均與所述備用SP存在正常通信連接時,向所述備用SP發(fā)送主備倒換指令,以指示所述備用SP將自身的IP地址修改為所述主用SP的IP地址。
8.根據(jù)權(quán)利要求7所述的主用服務(wù)處理器,其特征在于, 所述第二處理單元,還用于當與所述主用SP通信連接正常的BMC個數(shù)大于或者等于與所述備用SP通信連接正常的BMC個數(shù)時,所述主用SP保持現(xiàn)有狀態(tài)不變。
9.一種服務(wù)處理器SP,其特征在于,包括 檢測單元,用于檢測與所述SP相連的另一 SP發(fā)送的心跳信號,所述心跳信號用于表明所述另一 SP的狀態(tài)正常; 發(fā)送單元,用于當檢測不到所述另一 SP發(fā)送的心跳信號時,向與所述另一 SP連接的各個BMC發(fā)送通信連接檢測指令,以觸發(fā)所述各個BMC檢測各自與所述另一 SP之間的通信連接是否正常; 處理單元,用于當所述SP為備用SP,所述另一 SP為主用SP,且所述各個BMC與所述另一SP之間的通信連接均不正常時,將所述SP自身的IP地址修改為所述另一 SP的IP地址。
10.根據(jù)權(quán)利要求9所述的SP,其特征在于,還包括 報警單元,用于在所述處理單元將所述SP的IP地址修改為所述另一 SP的IP地址之后,發(fā)出第一告警信息,以顯示所述另一 SP的狀態(tài)異常。
11.一種小型機系統(tǒng),包括主用服務(wù)處理器SP、備用SP、以及與所述主用SP和所述備用SP分別連接的多個BMC;所述主用SP用于對所述各個BMC進行管理,其特征在于, 所述主用SP,還用于檢測并統(tǒng)計與自身通信連接正常的BMC的個數(shù),當檢測到存在至少一個BMC與所述主用SP之間的通信連接存在異常時,向所述備用SP發(fā)送通信連接檢測指令; 所述備用SP,用于在接收到所述主用SP發(fā)送的通信連接檢測指令之后,檢測自身與各個BMC之間的通信連接是否正常,并統(tǒng)計與自身通信連接正常的BMC的個數(shù); 所述主用SP,還用于當與所述主用SP通信連接正常的BMC個數(shù)小于與所述備用SP通信連接正常的BMC個數(shù),且與所述主用SP通信連接正常的BMC均與所述備用SP存在正常通信連接時,所述主用SP向所述備用SP發(fā)送主備倒換指令; 所述備用SP,還用于在接收到所述主用SP發(fā)送的主備倒換指令后,將自身的IP地址修改為所述主用SP的IP地址。
12.如權(quán)利要求11所述的系統(tǒng),其特征在于,所述主用SP,還用于當與所述主用SP通信連接正常的BMC個數(shù)大于或者等于與所述備用SP通信連接正常的BMC個數(shù)時,保持現(xiàn)有狀態(tài)不變。
13.—種小型機系統(tǒng),包括第一服務(wù)處理器SP、第二 SP、以及與所述第一 SP和所述第二SP分別連接的多個基板管理控制器BMC,所述第一 SP與所述第二 SP通過互相發(fā)送心跳信號來告知對方自身的狀態(tài)正常,所述第一 SP和所述第二 SP可以在主用狀態(tài)和備用狀態(tài)之間切換,當所述第一 SP為主用SP時,所述第二 SP為備用SP ;當所述第一 SP為備用SP時,所述第二 SP為主用SP ;其特征在于, 所述第一 SP,用于在檢測不到所述第二 SP發(fā)送的心跳信號時,向與所述第二 SP連接的各個BMC發(fā)送通信連接檢測指令; 所述BMC,用于在接收到所述第一 SP發(fā)送的通信連接檢測指令后,檢測自身與所述第二SP之間的通信連接是否正常; 所述第一 SP,還用于當所述第一 SP為備用SP,所述第二 SP為主用SP,且所述各個BMC與所述第二 SP之間的通信連接均不正常時,所述第一 SP將自身的IP地址修改為所述第二SP的IP地址。
14.如權(quán)利要求13所述的系統(tǒng),其特征在于,所述第一 SP,還用于當所述第一 SP為主用SP,所述第二 SP為備用SP,且所述檢測結(jié)果中指示存在至少一個BMC與所述第二 SP之間的通信連接為正常時,所述第一 SP發(fā)出告警信息,以顯示所述第一 SP與所述第二 SP之間的通信鏈路存在異常。
全文摘要
本發(fā)明公開了一種主備倒換的仲裁方法、裝置和系統(tǒng),涉及小型機技術(shù)領(lǐng)域,解決了在主備倒換時因為沒有關(guān)注主備SP的管理能力,而導致系統(tǒng)可用性不高的問題,同時也解決了由于添加第三方仲裁者而帶來額外成本的問題。所述方法包括主用SP向備用SP發(fā)送通信連接檢測指令;當與所述主用SP通信連接正常的BMC個數(shù)小于與所述備用SP通信連接正常的BMC個數(shù),且與所述主用SP通信連接正常的BMC均與所述備用SP存在正常通信連接時,所述主用SP向所述備用SP發(fā)送主備倒換指令。本發(fā)明實施例主要用于主備倒換的過程中。
文檔編號H04L12/24GK102638369SQ201210088019
公開日2012年8月15日 申請日期2012年3月29日 優(yōu)先權(quán)日2012年3月29日
發(fā)明者吳登奔, 張羽, 石峰 申請人:華為技術(shù)有限公司