專利名稱:服務(wù)器系統(tǒng)與其操作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種服務(wù)器系統(tǒng)與其操作方法。
背景技術(shù):
傳統(tǒng)上,刀鋒型服務(wù)器(blade server)已廣泛地應(yīng)用在多種應(yīng)用場合中。一般來說,為數(shù)眾多的刀鋒型服務(wù)器集合在機架(chassis)系統(tǒng)中,藉此提升使用者的操作便利性。刀鋒型服務(wù)器將計算機服務(wù)工作站中所有計算機服務(wù)系統(tǒng)的核心運算電路叢集在一起。系統(tǒng)管理人員負(fù)責(zé)對計算機服務(wù)工作站內(nèi)部的各計算機服務(wù)系統(tǒng)及網(wǎng)絡(luò)配置進行維護及控管。藉此,系統(tǒng)管理人員可以對叢集在一起的多臺計算機服務(wù)系統(tǒng)進行維護及控管。以目前而言,服務(wù)器對節(jié)點(node)的管理主要是遵循 IPMI (IntelligentPlatform Management Interface,智慧型平臺管理接口)的規(guī)范,利用 BMC(Baseboard Management Controller,基板管理控制器)來進行節(jié)點監(jiān)控、記錄及錯誤恢復(fù)等功能。在此所謂的節(jié)點指的是具有獨立運算能力的運算單元,其至少包括CPU(中央處理單元)與存儲器等。在目前市面上的產(chǎn)品而言,單一 BMC只能管理單一節(jié)點,無法同時管理多個節(jié)點。此外,在已知技術(shù)中,機架系統(tǒng)內(nèi)會有硬件式CMM(Chassis Management Module,機架管理模塊),以管理整個機架系統(tǒng)。隨著云端技術(shù)的發(fā)展,對數(shù)據(jù)中心(data center)的需求日益增加,而如何能在有限的機房空間中放置更多的節(jié)點以提高運算能力乃是發(fā)展重點。本申請?zhí)岢鲆环N服務(wù)器系統(tǒng)及其操作方法,其能有效減少BMC芯片數(shù)量,以讓服務(wù)器內(nèi)的板卡空間增加,以利放置更多節(jié)點來提高運算能力,并可降低服務(wù)器成本。
發(fā)明內(nèi)容
本發(fā)明涉及一種服務(wù)器系統(tǒng)及其操作方法,其通過一硬件抽象層使得BMC的多個節(jié)點管理單元(其為軟件,各別用于管理一節(jié)點)能共用BMC的硬件資源。根據(jù)本發(fā)明的一實施例,提出一種服務(wù)器系統(tǒng),包括至少一系統(tǒng)板,該系統(tǒng)板包括一基板管理控制器與多個節(jié)點,該基板管理控制器包括多個節(jié)點管理單元、一硬件抽象層與一硬件資源,這些節(jié)點管理單元個別管理這些節(jié)點,在該硬件抽象層的控制下,這些節(jié)點管理單元共用該硬件資源;一連接端口,用以連接至一外部系統(tǒng)管理者;以及一內(nèi)部通道,連接至該系統(tǒng)板與該連接端口。根據(jù)本發(fā)明的另一實施例,提出一種服務(wù)器系統(tǒng)的操作方法,該服務(wù)器系統(tǒng)包括至少一系統(tǒng)板,該系統(tǒng)板包括一基板管理控制器與多個節(jié)點,該基板管理控制器包括多個節(jié)點管理單元、一硬件抽象層與一硬件資源,這些節(jié)點管理單元個別管理這些節(jié)點。該方法包括(A)在該硬件抽象層的控制下,這些節(jié)點管理單元共用該硬件資源;(B)這些節(jié)點管理單元的其中之一節(jié)點管理單元欲使用該硬件資源時,該節(jié)點管理單元送出一指令或一數(shù)據(jù)至該硬件抽象層,該硬件抽象層據(jù)以代替該節(jié)點管理單元來使用該硬件資源;以及(C) 若接收到一外部指令,則該硬件抽象層辨別該外部指令是由該硬件資源的那一個傳輸端口所接收,以傳送至一相對應(yīng)節(jié)點管理單元執(zhí)行,且當(dāng)該外部指令被執(zhí)行后,該相對應(yīng)節(jié)點管理單元將一信息回傳給該硬件抽象層,以由該硬件抽象層將該信息由該傳輸端口回傳給一外部系統(tǒng)管理者。 為了對本發(fā)明的上述及其他方面有更佳的了解,下文特舉優(yōu)選實施例,并配合附圖,作詳細(xì)說明如下
圖1顯示根據(jù)本發(fā)明實施例的機架系統(tǒng)示意圖。
圖2顯示根據(jù)本發(fā)明實施例的BMC的示意圖。
圖3顯示多個NMU通過HAL來共用BMC的硬件部分的示意圖。
圖4A 圖4C顯示根據(jù)本發(fā)明實施例的通過HAL而轉(zhuǎn)送指令丨
主要元件符號說明
100 機架系統(tǒng) 101連接端口
102:區(qū)域網(wǎng)絡(luò) 103= I2C總線
110 130 系統(tǒng)板111、121、131 =BMC
112-1 112-Y、122-1- 122-Y、132-1 132-Y 節(jié)點
211 =HAL212-1 212-Y 節(jié)點管理單元
221 =GPIO 引腳222 存儲單元
223 串行端口224 感應(yīng)單元
225 系統(tǒng)接口226 :LAN 接口
227 :I2C 接口410 系統(tǒng)管理者
421 466 步驟
息的示意圖.
具體實施例方式在本發(fā)明實施例中,單一 BMC可以管理多個節(jié)點。在本發(fā)明實施例中,通過 HAL (Hardware Abstraction Layer,硬件抽象層)以將BMC從單一節(jié)點管理擴充為多節(jié)點管理,并仍完全相容IPMI規(guī)范。如此,可以有效降低機架系統(tǒng)中的BMC芯片數(shù)量,不僅可以降低成本,也可以節(jié)省空間,且可降低機架系統(tǒng)的內(nèi)部環(huán)境溫度。圖1顯示根據(jù)本發(fā)明實施例的機架系統(tǒng)示意圖。如圖1所示,根據(jù)本發(fā)明實施例的機架系統(tǒng)100至少包括連接端口 101、LAN (Local AreaNetwork,局域網(wǎng))102、 I2C(Inter-Integrated Circuit,內(nèi)部集成電路)總線103、以及多個系統(tǒng)板。雖然圖1中以機架系統(tǒng)100包括3個系統(tǒng)板110 130為例,但知本發(fā)明實施例并不受限于此。系統(tǒng)板110包括BMC 111與節(jié)點112-1 112-Y ;系統(tǒng)板120包括BMC 121與節(jié)點122-1 122-Y。系統(tǒng)板130包括BMC 131與節(jié)點132-1 132-Y。在此,Y為正整數(shù)。系統(tǒng)管理者所發(fā)出的指令與信號等可通過連接端口 101而傳送至相對應(yīng)的系統(tǒng)板。當(dāng)然,由系統(tǒng)板所發(fā)出的訊息可通過連接端口 101而傳回至系統(tǒng)管理者。如圖1所示,LAN 102與I2C總線103提供這些系統(tǒng)板的BMC之間的互相溝通路徑。此外,在本發(fā)明其他實施例中,BMC還可選擇性具有CMM功能。圖2顯示根據(jù)本發(fā)明實施例的BMC的示意圖。如圖2所示,BMC包括硬件部分與軟件部分。BMC的軟件部分包括HAL 211與節(jié)點管理單元(NMU,Node Management Unit) 212-1 212-Y。BMC 的硬件部分包括GPIO (General Purpose Input/Output,一般用途輸入/輸出)引腳221、存儲單元222、串行端口 223、感應(yīng)單元224、系統(tǒng)接口(System Interface,簡稱 Si) 225、LAN 接口 226 與 1 接口 227。對于每個節(jié)點而言,BMC會讀取感應(yīng)單元224的讀數(shù)來監(jiān)控節(jié)點的物理參數(shù)(如 CPU溫度、存儲器溫度、電壓等等)。舉例而言,BMC可能會有三個CPU溫度感測器,分別感測其所管理的三個節(jié)點的內(nèi)部CPU的溫度。而且,BMC通過GPIO引腳221來控制系統(tǒng)的開關(guān)機。另外,系統(tǒng)管理者可以通過LAN接口 2 或系統(tǒng)接口 225等接口來傳送IPMI指令給 BMC,以要求BMC執(zhí)行IPMI指令。NMU為實現(xiàn)IPMI規(guī)范的管理軟件。亦即,以BMC 111而言,NMUl NMU 3可分別用于管理節(jié)點112-1 112-3。在本發(fā)明實施例中,由于用單一 BMC來管理多個節(jié)點的關(guān)系, 多個NMU必需要共用BMC的硬件部分,因此硬件抽象層(HAL) 211可用于解決此議題。HAL 211會為每個NMU建立一套邏輯(虛擬)硬件裝置,并與實體硬件裝置作對應(yīng)關(guān)系。圖3顯示多個NMU通過HAL來共用BMC的硬件部分的示意圖。如圖3所示,當(dāng)NMU 欲存取SDRGensor Data Record,感應(yīng)數(shù)據(jù)記錄)時,NMU并不需要知道節(jié)點的SDR實際在存儲單元222的存取地址。當(dāng)NMU欲讀取SDR數(shù)據(jù)時,NMU只要告訴HAL 211所要讀取的是其對應(yīng)節(jié)點的那一筆SDR數(shù)據(jù)(其比如為CPU溫度、存儲器溫度、施加電壓等),HAL 211 即會將此NMU所對應(yīng)的節(jié)點的該筆SDR數(shù)據(jù)回傳給NMU0 SDRl SDR3分別代表節(jié)點1 3的SDR數(shù)據(jù),其分別對應(yīng)于NMU 1 NMU 3。同樣地,當(dāng)NMU欲存儲SDR數(shù)據(jù)時,NMU也不需要知道節(jié)點的SDR實際在存儲單元 222的存儲地址。當(dāng)NMU欲存儲SDR數(shù)據(jù)時,NMU只要將欲存儲的SDR數(shù)據(jù)傳給HAL 211, HAL 211即會將此SDR數(shù)據(jù)存儲至存儲單元222內(nèi)。也就是說,HAL 211會進行對應(yīng)(mapping), 以將NMU所欲存/取的數(shù)據(jù)對應(yīng)至存儲單元222。SEL乃是系統(tǒng)事件記錄(System Event Log),其用以存儲節(jié)點的系統(tǒng)事件(比如系統(tǒng)異常等)。相似地,當(dāng)NMU 1 NMU 3欲存取SEL 1 SEL 3時,也是由HAL 211負(fù)責(zé)存/取存儲單元222,如同上述般。FRU是現(xiàn)場可替代單元(Field Replaceable Unit),其記錄此系統(tǒng)板的編號、產(chǎn)品名稱等系統(tǒng)信息。相似地,當(dāng)NMU 1 NMU 3欲存取FRU 1 FRU 3時,也是由HAL 211負(fù)責(zé)存取存儲單元222,如同上述般。更甚者,HAL 211所能負(fù)責(zé)數(shù)據(jù)對應(yīng)的功能并不僅局限于SDR、SEL及FRU。IPMI規(guī)范所提及的其他功能,例如網(wǎng)絡(luò)連線序列(SOL, Serial Over LAN)、平臺事件濾波(PEF, Platform EventFilter)、感應(yīng)監(jiān)控 (Sensor Monitor)、機架控制(Chassis Control)等,NMU均可通過HAL達成對應(yīng)或轉(zhuǎn)送的功能。圖4A 圖4C顯示根據(jù)本發(fā)明實施例的通過HAL而轉(zhuǎn)送指令/信息的示意圖。如圖4A所示,系統(tǒng)管理者410與HAL 211之間的溝通是雙向的,而且HAL 211與NMU之間的溝通也是雙向的。圖4B顯示系統(tǒng)管理者410通過HAL 211而傳送IPMI指令給BMC的示意圖。如圖 4B所示,系統(tǒng)管理者410會傳送IPMI指令給HAL 211。接著,HAL 211判斷此IPMI指令是經(jīng)由系統(tǒng)接口(Si)傳輸而來(如步驟421所示)或是經(jīng)由LAN接口(LAN)傳輸而來(如步驟422所示)。如果IPMI指令是經(jīng)由SI傳輸而來,則HAL 211接著判斷此IPMI是由系統(tǒng)接口的第一個傳輸端口 SI 1(其對應(yīng)至節(jié)點1)、第二個傳輸端口 SI 2(其對應(yīng)至節(jié)點2) 或第三個傳輸端口 SI 3 (其對應(yīng)至節(jié)點幻而來,如步驟431 433所示。亦即,在本實施例中,BMC的系統(tǒng)接口有多個SI傳輸端口,其中有3個SI傳輸端口用以使BMC連接至系統(tǒng)管理者410。如果IPMI指令是經(jīng)由LAN接口傳輸而來,則HAL 211接著判斷此IPMI是由 LAN接口的第一個傳輸端口 LAN 1 (其對應(yīng)至節(jié)點1)、第二個傳輸端口 LAN 2 (其對應(yīng)至節(jié)點2)或第三個傳輸端口 LAN 3(其對應(yīng)至節(jié)點;3)而來,如步驟434 436所示。亦即,在本實施例中,BMC的LAN接口有多個LAN傳輸端口,其中有3個LAN傳輸端口用以使BMC連接至系統(tǒng)管理者410。HAL 211經(jīng)過步驟431 436的判斷之后,HAL會判斷出系統(tǒng)管理者 410所送來的此IPMI指令是要給NMUl NMU 3的那一個,接著,HAL 211將此IPMI指令送給目的NMU。圖4C顯示BMC通過HAL 211回傳信息給系統(tǒng)管理者410的示意圖。當(dāng)NMU接收到系統(tǒng)管理者410所傳來的IPMI指令后,此NMU會進行相對應(yīng)的操作,之后,此NMU會將回應(yīng)信息通過HAL 211而傳回給系統(tǒng)管理者410。如圖4C所示,NMU會送出回應(yīng)信息給HAL 211。接著,HAL 211判斷此回應(yīng)信息是經(jīng)由系統(tǒng)接口(Si)而接收到(如步驟441)或經(jīng)由 LAN接口而接收到(如步驟442)。如果此回應(yīng)信息是經(jīng)由系統(tǒng)接口而接收到,HAL 211分析所接收到的回應(yīng)信息,HAL 211可判斷此回應(yīng)信息是由那一個NMU所發(fā)出(步驟451 453 及步驟4M 456)。亦即,在本實施例中,BMC的系統(tǒng)接口有多個SI傳輸端口,其中有3個 SI傳輸端口用以使系統(tǒng)管理者410連接至BMC ;且BMC的LAN接口有多個LAN傳輸端口,其中有3個LAN傳輸端口用以使系統(tǒng)管理者410連接至BMC。HAL 211會判斷NMU是否經(jīng)由系統(tǒng)接口傳送此回應(yīng)信息,再判斷此回應(yīng)信息是由那一個NMU所發(fā)送(步驟451 453), 如此,HAL 211即可將回應(yīng)信息經(jīng)由原接收接口(比如是Si)回傳給系統(tǒng)管理者410(步驟 461 463)。相似地,HAL 211會判斷NMU是否經(jīng)由LAN接口而傳送回應(yīng)信息,接著,HAL 211判斷是此回應(yīng)信息是由那一個NMU所發(fā)送(步驟妨4 456),即可將回應(yīng)信息經(jīng)由原接收接口(LAN接口)回傳給系統(tǒng)管理者410 (步驟464 466)。也就是說,在本發(fā)明實施例中,當(dāng)系統(tǒng)管理者410通過LAN接口或系統(tǒng)接口傳送 IPMI指令給BMC時,HAL 211會辨別此IPMI指令是由那一個傳輸端口所接收并將指令送至相對應(yīng)的NMU去執(zhí)行。當(dāng)NMU執(zhí)行指令完畢,NMU會將信息回傳給HAL 211,HAL 211會將此回應(yīng)信息由原來的傳輸端口回傳給系統(tǒng)管理者410。當(dāng)然,本發(fā)明實施例并不受限于HAL 211只能經(jīng)由LAN接口或系統(tǒng)接口來轉(zhuǎn)送IPMI指令,HAL 211也可經(jīng)由IPMI規(guī)范內(nèi)所支持的接口來轉(zhuǎn)送IPMI指令。綜上所述,本發(fā)明實施例至少具有下列優(yōu)點(1)本發(fā)明實施例可減少在高密度服務(wù)器(如刀鋒型服務(wù)器)所需要的BMC芯片數(shù)量,以減低成本;以及(2)本發(fā)明實施例可有效利用空間,增加服務(wù)器的節(jié)點個數(shù)及運算能力,并且有效降低系統(tǒng)的溫度(因為BMC芯片數(shù)量減少)。綜上所述,雖然本發(fā)明已以優(yōu)選實施例公開如上,然其并非用以限定本發(fā)明。本本領(lǐng)域技術(shù)人員在不脫離本發(fā)明的精神和范圍內(nèi),當(dāng)可作各種的更動與潤飾。因此,本發(fā)明的保護范圍當(dāng)視所附權(quán)利要求書所界定者為準(zhǔn)。
權(quán)利要求
1.一種服務(wù)器系統(tǒng),包括至少一系統(tǒng)板,該系統(tǒng)板包括一基板管理控制器與多個節(jié)點,該基板管理控制器包括多個節(jié)點管理單元、一硬件抽象層與一硬件資源,這些節(jié)點管理單元個別管理這些節(jié)點,在該硬件抽象層的控制下,這些節(jié)點管理單元共用該硬件資源;一連接端口,用以連接至一外部系統(tǒng)管理者;以及一內(nèi)部通道,連接至該系統(tǒng)板與該連接端口。
2.如權(quán)利要求1所述的服務(wù)器系統(tǒng),其中,該硬件抽象層為各節(jié)點管理單元建立一邏輯硬件裝置,以對應(yīng)至該硬件資源。
3.如權(quán)利要求2所述的服務(wù)器系統(tǒng),其中,當(dāng)這些節(jié)點管理單元的其中之一節(jié)點管理單元欲使用該硬件資源時,該節(jié)點管理單元傳送一指令至該硬件抽象層,該硬件抽象層根據(jù)該指令而存取該硬件資源并將一結(jié)果回傳給該節(jié)點管理單元。
4.如權(quán)利要求2所述的服務(wù)器系統(tǒng),其中,當(dāng)這些節(jié)點管理單元的其中之一節(jié)點管理單元欲使用該硬件資源時,該節(jié)點管理單元傳送一數(shù)據(jù)至該硬件抽象層,該硬件抽象層根據(jù)該數(shù)據(jù)而存取該硬件資源。
5.如權(quán)利要求1所述的服務(wù)器系統(tǒng),其中,該系統(tǒng)板還包括多個傳輸端口,這些傳輸端口用以使該基板管理控制器連接至該外部系統(tǒng)管理者;若一外部指令通過該硬件資源而傳送至該基板管理控制器,則該硬件抽象層辨別該外部指令是由那一個傳輸端口所接收,以將該外部指令傳送至一相對應(yīng)節(jié)點管理單元執(zhí)行; 以及當(dāng)該相對應(yīng)節(jié)點管理單元執(zhí)行該外部指令后,該相對應(yīng)節(jié)點管理單元將一信息回傳給該硬件抽象層,以將該信息由該傳輸端口回傳給該外部系統(tǒng)管理者。
6.一種服務(wù)器系統(tǒng)的操作方法,該服務(wù)器系統(tǒng)包括至少一系統(tǒng)板,該系統(tǒng)板包括一基板管理控制器與多個節(jié)點,該基板管理控制器包括多個節(jié)點管理單元、一硬件抽象層與一硬件資源,這些節(jié)點管理單元個別管理這些節(jié)點,該操作方法包括(A)在該硬件抽象層的控制下,這些節(jié)點管理單元共用該硬件資源;(B)當(dāng)這些節(jié)點管理單元的其中之一節(jié)點管理單元欲使用該硬件資源時,該節(jié)點管理單元送出一指令或一數(shù)據(jù)至該硬件抽象層,該硬件抽象層據(jù)以代替該節(jié)點管理單元來使用該硬件資源;以及(C)若接收到一外部指令,則該硬件抽象層辨別該外部指令是由該硬件資源的那一個傳輸端口所接收,以傳送至一相對應(yīng)節(jié)點管理單元執(zhí)行,且當(dāng)該外部指令被執(zhí)行后,該相對應(yīng)節(jié)點管理單元將一信息回傳給該硬件抽象層,以由該硬件抽象層將該信息由該傳輸端口回傳給一外部系統(tǒng)管理者。
7.如權(quán)利要求6所述的操作方法,其中,該步驟(A)包括該硬件抽象層為各節(jié)點管理單元建立一邏輯硬件裝置,以對應(yīng)至該硬件資源。
8.如權(quán)利要求7所述的操作方法,其中,該步驟(B)包括當(dāng)這些節(jié)點管理單元的其中之一節(jié)點管理單元欲使用該硬件資源時,該節(jié)點管理單元傳送該指令至該硬件抽象層,該硬件抽象層根據(jù)該指令而存取該硬件資源并將一結(jié)果回傳給該節(jié)點管理單元。
9.如權(quán)利要求7所述的操作方法,其中,該步驟(B)包括當(dāng)這些節(jié)點管理單元的其中之一節(jié)點管理單元欲使用該硬件資源時,該節(jié)點管理單元傳送該數(shù)據(jù)至該硬件抽象層,該硬件抽象層根據(jù)該數(shù)據(jù)而存取該硬件資源。
全文摘要
服務(wù)器系統(tǒng)與其操作方法,該操作方法包括(A)在硬件抽象層的控制下,多個節(jié)點管理單元共用一硬件資源;(B)當(dāng)這些節(jié)點管理單元的其中之一節(jié)點管理單元欲使用該硬件資源時,該節(jié)點管理單元送出一指令或一數(shù)據(jù)至該硬件抽象層,該硬件抽象層據(jù)以代替該節(jié)點管理單元來使用該硬件資源;以及(C)若接收到一外部指令,則該硬件抽象層辨別該外部指令是由該硬件資源的那一個傳輸端口所接收,以傳送至一相對應(yīng)節(jié)點管理單元執(zhí)行,且當(dāng)該外部指令被執(zhí)行后,該相對應(yīng)節(jié)點管理單元將一信息回傳給該硬件抽象層,以由該硬件抽象層將該信息由該傳輸端口回傳給一外部系統(tǒng)管理者。
文檔編號G06F11/30GK102346707SQ201010243788
公開日2012年2月8日 申請日期2010年7月30日 優(yōu)先權(quán)日2010年7月30日
發(fā)明者賴德賢, 陳諭正, 龔景富 申請人:廣達電腦股份有限公司