數(shù)據(jù)中心bmc管理系統(tǒng)及方法
【專利摘要】一種數(shù)據(jù)中心BMC管理方法,該方法包括:設(shè)置BMC的OEM命令來設(shè)置BMC定期請求獲取背板溫度的命令和消息參數(shù);重置所有BMC對應(yīng)的第二標識位;根據(jù)消息參數(shù)分析BMC通過IPMB發(fā)送給背板的消息,并從BMC請求獲取背板溫度的消息中獲取BMC的子地址;根據(jù)上述BMC的子地址更新活動BMC列表中BMC對應(yīng)的第二標識位;watchdog判斷計時時間間隔是否超時及根據(jù)第二標識位和主標識位判斷當(dāng)前主BMC是否失效;背板的固件FW根據(jù)預(yù)設(shè)原則從活動BMC列表中確定主BMC,并更新主標識位。本發(fā)明還提供一種數(shù)據(jù)中心BMC管理系統(tǒng)。
【專利說明】數(shù)據(jù)中心BMC管理系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種數(shù)據(jù)中心基板管理控制器(Baseboard Management Controller,BMC)管理系統(tǒng)及方法。
【背景技術(shù)】
[0002]隨著數(shù)據(jù)處理需求爆炸式的增長和云技術(shù)的不斷成熟,業(yè)界出現(xiàn)越來越多的貨架(Rack)式的數(shù)據(jù)中心,而且Rack內(nèi)配備的結(jié)點數(shù)量也越來越龐大。為了管理的需要,Rack中都會有一個BMC擔(dān)當(dāng)主BMC負責(zé)管理整個Rack內(nèi)所有的BMC,但是為了避免主BMC出現(xiàn)故障而導(dǎo)致對其它所有BMC失去管理的情況出現(xiàn),需要提供一種失效轉(zhuǎn)移(fail over)的機制。
[0003]目前業(yè)界的做法是采取動態(tài)主BMC法,主要根據(jù)某一原則,比如說按照物理地址MAC或者節(jié)點ID排序,從中選擇最小的充當(dāng)主BMC,并在所有BMC內(nèi)維護一個活動BMC列表,定期對外發(fā)送特定數(shù)據(jù)包的廣播,好讓其它BMC維護它們的BMC活動列表。當(dāng)一 BMC發(fā)現(xiàn)自己的ID是活動BMC列表里面最小的,則知道其要履行主BMC的職責(zé)。但是對與數(shù)目龐大的Rack來說,定期大量的廣播會耗費大量的網(wǎng)絡(luò)資源。
【發(fā)明內(nèi)容】
[0004]鑒于以上內(nèi)容,有必要提供一種數(shù)據(jù)中心BMC管理系統(tǒng)及方法,其可通過背板固件(Firmware,F(xiàn)ff)維護一個活動BMC列表,并按照預(yù)設(shè)原則從一個活動BMC列表中確定一個主BMC,從而節(jié)約了大量的網(wǎng)絡(luò)資源。
[0005]一種數(shù)據(jù)中心BMC管理系統(tǒng),運行于服務(wù)器中,該系統(tǒng)包括:設(shè)置模塊,通過設(shè)置BMC的原始設(shè)備制造商OEM命令來設(shè)置BMC請求獲取服務(wù)器背板溫度的命令和消息參數(shù);重置模塊,重置活動BMC列表中所有BMC對應(yīng)的第二標識位,并啟動計時器;分析模塊,當(dāng)計時器啟動時,根據(jù)所述消息參數(shù)分析BMC發(fā)送給背板的消息,并從BMC請求獲取背板溫度的消息中獲取BMC的子地址;更新模塊,根據(jù)上述BMC的子地址更新所述活動BMC列表中BMC對應(yīng)的溫度值和第二標識位;所述更新模塊還用于更新已失效的主BMC對應(yīng)的主標識位及更新當(dāng)前已確定為主BMC對應(yīng)的主標識位。判斷模塊,判斷計時時間是否超時及當(dāng)計時時間超時時根據(jù)第二標識位和主標識位判斷當(dāng)前主BMC是否失效;確定模塊,用于當(dāng)前主BMC失效時根據(jù)預(yù)設(shè)原則從所述活動BMC列表中確定主BMC,并發(fā)送設(shè)置主BMC的命令給該確定的BMC,讓其執(zhí)行主BMC的職能。
[0006]一種數(shù)據(jù)中心BMC管理方法,應(yīng)用于服務(wù)器中,該方法包括:設(shè)置步驟,通過設(shè)置BMC的原始設(shè)備制造商OEM命令來設(shè)置BMC請求獲取服務(wù)器背板溫度的命令和消息參數(shù);重置步驟,重置活動BMC列表中所有BMC對應(yīng)的第二標識位,并啟動計時器;分析步驟,當(dāng)計時器啟動時,根據(jù)所述消息參數(shù)分析BMC發(fā)送給背板的消息,并從BMC請求獲取背板溫度的消息中獲取BMC的子地址;更新步驟一,根據(jù)上述BMC的子地址更新所述活動BMC列表中BMC對應(yīng)的溫度值和第二標識位;該方法還包括更新步驟二用于更新已失效的主BMC對應(yīng)的主標識位及更新當(dāng)前已確定為主BMC對應(yīng)的主標識位。判斷步驟,判斷計時時間是否超時及當(dāng)計時時間超時時根據(jù)第二標識位和主標識位判斷當(dāng)前主BMC是否失效;確定步驟,用于當(dāng)前主BMC失效時根據(jù)預(yù)設(shè)原則從所述活動BMC列表中確定主BMC,并發(fā)送設(shè)置主BMC的命令給該確定的BMC,讓其執(zhí)行主BMC的職能。
[0007]相較于現(xiàn)有技術(shù),所述數(shù)據(jù)中心BMC管理系統(tǒng)及方法,不需要定期大量的廣播,也不需要增加任何硬件資源和額外占用BMC的通用輸入/輸出(General Purpose InputOutput, GPIO)資源,節(jié)約了大量的網(wǎng)絡(luò)資源。
【專利附圖】
【附圖說明】
[0008]圖1是本發(fā)明數(shù)據(jù)中心BMC管理系統(tǒng)的應(yīng)用環(huán)境示意圖。
[0009]圖2是本發(fā)明數(shù)據(jù)中心BMC管理系統(tǒng)的功能模塊圖。
[0010]圖3是本發(fā)明數(shù)據(jù)中心BMC管理方法較佳實施例的流程圖。
[0011]圖4是本發(fā)明數(shù)據(jù)中心BMC管理系統(tǒng)的活動BMC列表圖。
[0012]主要元件符號說明
[0013]
【權(quán)利要求】
1.一種數(shù)據(jù)中心BMC管理系統(tǒng),運行于服務(wù)器中,其特征在于,該系統(tǒng)包括: 設(shè)置模塊,通過設(shè)置BMC的原始設(shè)備制造商OEM命令來設(shè)置BMC請求獲取服務(wù)器背板溫度的命令和消息參數(shù); 重置模塊,重置活動BMC列表中所有BMC對應(yīng)的第二標識位,并啟動計時器; 分析模塊,當(dāng)計時器啟動時,根據(jù)所述消息參數(shù)分析BMC發(fā)送給背板的消息,并從BMC請求獲取背板溫度的消息中獲取BMC的子地址; 更新模塊,根據(jù)上述BMC的子地址更新所述活動BMC列表中BMC對應(yīng)的溫度值和第二標識位; 判斷模塊,判斷計時時間是否超時及當(dāng)計時時間超時時根據(jù)第二標識位和主標識位判斷當(dāng)如主BMC是否失效; 確定模塊,用于當(dāng)前主BMC失效時根據(jù)預(yù)設(shè)原則從所述活動BMC列表中確定主BMC,并發(fā)送設(shè)置主BMC的命令給該確定的BMC,讓其執(zhí)行主BMC的職能。
2.如權(quán)利要求1所述的數(shù)據(jù)中心BMC管理系統(tǒng),其特征在于,所述BMC通過智能平臺管理總線IPMB與背板進行通信,BMC發(fā)送和接收到的消息都包含該BMC的子地址。
3.如權(quán)利要求1所述的數(shù)據(jù)中心BMC管理系統(tǒng),其特征在于,所述更新模塊還用于更新已失效的主BMC對應(yīng)的 主標識位及更新當(dāng)前已確定為主BMC對應(yīng)的主標識位。
4.如權(quán)利要求1所述的數(shù)據(jù)中心BMC管理系統(tǒng),其特征在于,所述活動BMC列表是由所有BMC的子地址、第二標識位及主標識位構(gòu)成。
5.如權(quán)利要求1所述的數(shù)據(jù)中心BMC管理系統(tǒng),其特征在于,所述預(yù)設(shè)原則是把每個BMC唯一對應(yīng)的物理地址MAC或者節(jié)點ID號按照一定的順序排列,并把物理地址MAC或者節(jié)點ID號最小的BMC確定為主BMC。
6.一種數(shù)據(jù)中心BMC管理方法,應(yīng)用于服務(wù)器中,其特征在于,該方法包括: 設(shè)置步驟,通過設(shè)置BMC的原始設(shè)備制造商OEM命令來設(shè)置BMC請求獲取服務(wù)器背板溫度的命令和消息參數(shù); 重置步驟,重置活動BMC列表中所有BMC對應(yīng)的第二標識位并啟動時間為T的計時器;分析步驟,當(dāng)時間為T的計時器啟動時,根據(jù)所述消息參數(shù)分析BMC發(fā)送給背板的消息,并從BMC請求獲取背板溫度的消息中獲取BMC的子地址; 更新步驟一,根據(jù)上述BMC的子地址更新所述活動BMC列表中的BMC對應(yīng)的溫度值和第二標識位; 判斷步驟,判斷計時時間是否超時及當(dāng)計時時間超時時根據(jù)第二標識位和主標識位判斷當(dāng)如主BMC是否失效; 確定步驟,用于當(dāng)前主BMC失效時根據(jù)預(yù)設(shè)原則從所述活動BMC列表中確定主BMC,并發(fā)送設(shè)置主BMC的命令給該確定的BMC,讓其執(zhí)行主BMC的職能。
7.如權(quán)利要求6所述的數(shù)據(jù)中心BMC管理方法,其特征在于,所述BMC通過智能平臺管理總線IPMB與背板進行通信,BMC發(fā)送和接收到的消息都包含該BMC的子地址。
8.如權(quán)利要求6所述的數(shù)據(jù)中心BMC管理方法,其特征在于,該方法還包括更新步驟二:更新已失效的主BMC對應(yīng)的主標識位及更新當(dāng)前已確定為主BMC對應(yīng)的主標識位。
9.如權(quán)利要求6所述的數(shù)據(jù)中心BMC管理方法,其特征在于,所述活動BMC列表是由所有正常工作的BMC的子地址、第二標識位及主標識位構(gòu)成。
10.如權(quán)利要求6所述的數(shù)據(jù)中心BMC管理方法,其特征在于,所述預(yù)設(shè)原則是把每個BMC唯一對應(yīng)的物理地址MAC或者節(jié)點ID號按照一定的順序排列,并把物理地址MAC或者節(jié)點ID號最小的BMC確定為主BMC 。
【文檔編號】G06F11/20GK103942129SQ201310017039
【公開日】2014年7月23日 申請日期:2013年1月17日 優(yōu)先權(quán)日:2013年1月17日
【發(fā)明者】黃嘉慶 申請人:鴻富錦精密工業(yè)(深圳)有限公司, 鴻海精密工業(yè)股份有限公司