專利名稱:一種智能平臺事件報警系統(tǒng)及其方法
技術領域:
本發(fā)明涉及一種平臺事件報警系統(tǒng)及方法,特別是涉及一種智能平臺事件報警系統(tǒng)及其方法。
背景技術:
平臺事件(Platform Event)是指平臺的韌體(如BIOS)或平臺的硬件元件(如ASIC、芯片組,微控制器或芯片等)直接產(chǎn)生的事件,這些事件獨立于操作系統(tǒng)(OS)或系統(tǒng)管理軟件和硬件,是一種警報或特定狀況需要及時通知系統(tǒng)管理單元。
現(xiàn)有的平臺事件管理方法是將這些信息傳送至網(wǎng)絡管理軟件,以通知網(wǎng)絡管理員系統(tǒng)上發(fā)生的特定事件。在管理員與操作系統(tǒng)的交互過程,系統(tǒng)出現(xiàn)異常后,硬件通過驅動程序通知OS,OS以mail方式通知管理員或者記錄在日志中供管理員查看。管理員得知異常后作進一步的處理。
請參見圖1,為現(xiàn)有事件通知機制的示意圖。如圖所示,服務器(Sever)10中的平臺20通過機制(B)將平臺事件報告給操作系統(tǒng)30,操作系統(tǒng)30通過機制(A)將平臺事件報告給管理員40。這里的機制(B)通常為硬件的驅動程序;機制(A)通常為mail或者是記錄日志。
很明顯,如果機制(B)產(chǎn)生了問題,例如由于硬件產(chǎn)生異常導致驅動程序不能正常工作,驅動程序產(chǎn)生問題便不能將異常報告給OS。而且導致硬件產(chǎn)生異常的事件可以表現(xiàn)出相同的現(xiàn)象,這在上層的驅動程序看來無法準確定位產(chǎn)生異常的位置,最終的結果或者是不能通知管理員,或者發(fā)出的通知不準確甚至是錯誤的信息。如果是后者(導致硬件產(chǎn)生異常的事件),管理員至少可以根據(jù)經(jīng)驗及時采取挽救動作,排除掉部分故障,如果是前者(硬件產(chǎn)生異常),則管理員在機器產(chǎn)生嚴重問題之后仍然不被告知,這是很危險的。
另外,由于在事件通知過程中操作系統(tǒng)30的介入必然會引起系統(tǒng)資源的損耗。例如管理員分析出解決異常的措施僅僅是將沒有插好的可熱插拔硬盤重新插好,只不過是整個過程不用關閉服務器10,不影響服務器上正在提供的服務,但是傳統(tǒng)的機制必然會產(chǎn)生大量的日志文件或者是發(fā)送許多郵件用來通知管理員,這就占用了Server的資源,而且管理員如果去訪問這些較高優(yōu)先級的日志,也必然會占用本機的資源,這就導致了本來可以平穩(wěn)解決的問題,在解決的過程中產(chǎn)生了系統(tǒng)資源的抖動,沒有做到與操作系統(tǒng)無關。
而且,如果系統(tǒng)關機,則使用傳統(tǒng)方式管理的管理員收不到任何從被管理的Server上的mail,而且Server啟動耗時很長,如果在這期間產(chǎn)生異常事件,也是沒有辦法讓管理員知道的。這就迫切需要一種跟OS無關的方案來解決此類問題。
綜上所述,可知目前采用的事件的通知方法在及時性、準確性、資源利用以及操作系統(tǒng)相關性方面還存在著很多缺點。
發(fā)明內容
本發(fā)明所要解決的技術問題在于提供一種智能平臺事件報警系統(tǒng)及其方法,無需操作系統(tǒng)的介入也可將探測到的平臺事件告知管理員,在節(jié)約系統(tǒng)資源的同時,提高通知的及時性和準確性。
為了實現(xiàn)上述目的,本發(fā)明提供了一種智能平臺事件報警系統(tǒng),其特點在于,無需通過操作系統(tǒng),即可將平臺事件信息發(fā)送給管理員,包括一事件檢測模塊,其用以檢測平臺事件;一事件信息存儲模塊,用以存儲預先配置的事件信息;及一信息發(fā)送模塊,其與該事件檢測模塊相連;其中,當該事件檢測模塊檢測到平臺事件時,在該事件信息存儲模塊中提取對應的該事件信息,并根據(jù)該事件信息中的地址信息,通過該信息發(fā)送模塊將該事件信息發(fā)送至相應地址。
上述智能平臺事件報警系統(tǒng),其特點在于,該事件信息包括策略號碼、策略集號碼、關鍵詞、地址信息、以及解釋字符串。
上述智能平臺事件報警系統(tǒng),其特點在于,所述信息發(fā)送模塊,還包括發(fā)送產(chǎn)生事件的平臺信息,包括時間、事件類型、嚴重性、產(chǎn)生事件的實體以及事件數(shù)據(jù)。
本發(fā)明還提供一種智能平臺事件報警方法,其特點在于,無需通過操作系統(tǒng),即可將平臺事件信息發(fā)送給管理員,該方法包括如下步驟狀態(tài)檢測器檢測平臺事件;根據(jù)該平臺事件,在事件信息存儲模塊中提取對應的事件信息;提取該事件信息中的地址信息;及根據(jù)該地址信息,將該事件信息通過網(wǎng)卡發(fā)送至相應地址。
上述智能平臺事件報警方法,其特點在于,該事件信息包括策略號碼、策略集號碼、關鍵詞、地址信息、以及解釋字符串。
上述智能平臺事件報警方法,其特點在于,該發(fā)送事件信息的步驟,還包括發(fā)送產(chǎn)生事件的平臺信息,包括時間、事件類型、嚴重性、產(chǎn)生事件的實體以及事件數(shù)據(jù)。
上述智能平臺事件報警方法,其特點在于,該發(fā)送事件信息的步驟,若該地址信息為多個,則根據(jù)該地址信息分別進行發(fā)送。
本發(fā)明還提供一種智能平臺事件報警裝置,其特點在于,無需通過操作系統(tǒng),即可將平臺事件信息發(fā)送給管理員,包括一儲存單元,其用以儲存預先配置的平臺事件信息;一狀態(tài)傳感器,其用來檢測硬件元件的狀態(tài),接收平臺事件;一基板管理控制器,其用以收集該平臺事件;及一網(wǎng)卡,其用以提取該事件信息中的地址信息,并根據(jù)該地址信息,將該事件信息發(fā)生給管理員;其中,該儲存單元、該狀態(tài)傳感器以及該網(wǎng)卡均位于主板上,并與該基板管理控制器相連,該基板管理控制器根據(jù)收集的該平臺事件,在該儲存單元中搜索對應的事件信息,并將該事件信息傳輸至該網(wǎng)卡。
上述智能平臺事件報警裝置,其特點在于,該基板管理控制器還包含有一驅動單元,其建立該基板管理控制器與該操作系統(tǒng)的連接,并對該基板管理控制器的參數(shù)進行設置與取得。
上述智能平臺事件報警裝置,其特點在于,該網(wǎng)卡通過數(shù)據(jù)總線與該基板管理控制器相連。
上述智能平臺事件報警裝置,其特點在于,該儲存單元為一可電氣拭除式可改寫只讀存儲器。
本發(fā)明的功效,在于通過PET規(guī)范實現(xiàn)了及時、準確、與上層操作系統(tǒng)無關的解決方案,通過在主板上放置BMC檢測硬件系統(tǒng)發(fā)生的異常事件,將異常事件通過網(wǎng)卡發(fā)送給已經(jīng)配置好的地址,而要發(fā)送的地址,攜帶的內容等信息是事先配置好存放在可擦寫的內存中(如EPROM),并通過一定的策略組織起來供發(fā)送時查詢,這樣,由于BMC自己有處理能力,所以是獨立于OS工作的,解決了傳統(tǒng)方法的缺點,具有及時、準確、OS無關的優(yōu)點,即使是在OS關閉狀態(tài)下,只要主板供電,就能夠將異常事件的消息發(fā)送出去,可以讓管理員不在現(xiàn)場卻能第一時間得知所監(jiān)控的服務器出現(xiàn)了哪些異常,以便及時采取措施。
以下結合附圖和具體實施例對本發(fā)明進行詳細描述,但不作為對本發(fā)明的限定。
圖1為現(xiàn)有事件通知機制的示意圖;圖2為本發(fā)明智能平臺事件報警系統(tǒng)的模塊結構圖;圖3為本發(fā)明智能平臺事件報警方法的流程圖;圖4為本發(fā)明事件通知機制的示意圖;圖5為本發(fā)明平臺事件報警裝置示意圖;及圖6為本發(fā)明實施例策略發(fā)送的流程圖。
其中,附圖標記10-服務器,20-平臺,30-操作系統(tǒng)40-管理員,50-BMC,60-BMC驅動單元70-主板,80-狀態(tài)傳感器,90-EEPROM100-網(wǎng)卡11-軟件層,12-硬件層210-事件檢測模塊,220-事件信息存儲模塊230-信息發(fā)送模塊步驟310-狀態(tài)檢測器檢測平臺事件步驟320-根據(jù)該平臺事件,在事件信息存儲模塊中提取對應的事件信息步驟330-提取該事件信息中的地址信息步驟340-根據(jù)該地址信息,將該事件信息通過網(wǎng)卡發(fā)送至相應地址步驟610-檢測到平臺事件步驟620-通過關鍵詞或策略集號碼確定該事件的相關策略?步驟631-解析策略號碼步驟641-在所有策略中收集與策略集號碼相匹配的所有策略步驟632-解析該關鍵詞步驟642-在所有策略中收集與關鍵詞相匹配的所有策略步驟650-根據(jù)相關信息填充事件信息步驟660-將該事件發(fā)送至策略中所包含的目標地址步驟670-判斷是否最后一個事件發(fā)送成功?步驟680-所有的事件均成功發(fā)送具體實施方式
首先,請參考圖2,為本發(fā)明所提的智能平臺事件報警系統(tǒng)的模塊結構圖,說明如下事件檢測模塊210,其用以檢測平臺事件。事件信息存儲模塊220,用以存儲預先配置的事件信息,其中所述事件信息包括策略號碼、策略集號碼、關鍵詞、地址信息、以及解釋字符串。信息發(fā)送模塊230,其與該事件檢測模塊210相連。該信息發(fā)送模塊230,還包括發(fā)送產(chǎn)生事件的平臺信息,包括時間、事件類型、嚴重性、產(chǎn)生事件的實體以及事件數(shù)據(jù)。其中,當該事件檢測模塊210檢測到平臺事件時,在該事件信息存儲模塊220中提取對應的該事件信息,并根據(jù)該事件信息中的地址信息,通過該信息發(fā)送模塊230將該事件信息發(fā)送至相應地址。
接著,通過圖3來說明本發(fā)明的流程,該圖為本發(fā)明所提的智能平臺事件報警方法的運作流程圖。首先,步驟310,狀態(tài)檢測器檢測平臺事件;步驟320,然后根據(jù)該平臺事件,在事件信息存儲模塊中提取對應的事件信息,其中事件信息包括策略號碼、策略集號碼、關鍵詞、地址信息、以及解釋字符串。步驟330,再提取該事件信息中的地址信息;步驟340,最后根據(jù)該地址信息,將該事件信息通過網(wǎng)卡發(fā)送至相應地址,還包括發(fā)送產(chǎn)生事件的平臺信息,包括時間、事件類型、嚴重性、產(chǎn)生事件的實體以及事件數(shù)據(jù)。
請參閱圖4,為本發(fā)明事件通知機制的示意圖。位于硬件層12的BMC50是安裝在主板上的微控制芯片,用來檢測異常事件,BMC50將檢測到的異常事件信息直接發(fā)往配置好的地址。BMC50繞過了位軟件層11的OS30直接將事件消息發(fā)出,獨立于OS30,而且BMC50自身有處理能力,并沒有占用系統(tǒng)的資源;BMC通過系統(tǒng)總線(Bus)、網(wǎng)卡(NIC)直接獲知主板上硬件(溫度傳感器,電壓傳感器等)的工作狀態(tài),取得的信息及時、準確。
請參閱圖5,為本發(fā)明平臺事件報警裝置示意圖。包括有BMC50、以及與之相連的EEPROM90、狀態(tài)傳感器80、網(wǎng)卡100、以及BMC驅動單元60。通過安裝在主板70上的微控制器BMC50來進行數(shù)據(jù)的處理,使用EEPROM90作為存儲設備,所有的信息通過網(wǎng)卡100向外發(fā)送。其中BMC50為一微處理器,其負責處理數(shù)據(jù);EEPRom90為一存儲組件,許多配置信息存放于其中;狀態(tài)傳感器80分布于主板70上,用來檢測硬件元件的狀態(tài),如CPU溫度、風扇轉速;網(wǎng)卡100,通過總線與BMC50連接,BMC50可以將數(shù)據(jù)通過總線傳送給網(wǎng)卡100進行發(fā)送;BMC驅動單元60聯(lián)系著OS30與BMC50,用過KCS接口訪問BMC50,使用IPMI1.5的規(guī)范定義的命令對BMC的諸多參數(shù)進行設置與取得,包括(A)表示BMC與EEPRom的通信機制(B)表示OS通過驅動與BMC的通信機制(C)表示BMC通過BUS與網(wǎng)卡的通信機制(D)表示Sensor與BMC的通信機制在PET中,一個策略(Policy)就成為一種規(guī)則,策略的組合稱為策略集(Policy Set)。策略包括策略的號碼(Policy Number),策略集的號碼(SetNumber)。在若干策略中需要迅速定位策略所需要的關鍵詞(Key),要發(fā)送的IP地址(Destination Address),攜帶的固定信息(Alert String)等。一個典型的策略包含的信息如下表1所示
表1本實施例中有4條Policy,所攜帶的信息如下表2
表2其中●Policy Number當作唯一的編號來標識該Policy;●Policy Set Number相同的一些Policy是一個集合。例如,所有跟電壓有關的系統(tǒng)錯誤可以歸納成一個集合,便于管理,在這個電壓錯誤的集合中,有表示危險電壓錯誤的Policy,有表示電壓過高錯誤的Policy,有表示電壓過低錯誤的Policy。表2中,Policy Number為1、3、4的Policy同時屬于一個集合,因為它們的Policy Set Number都為1;●Key作為關鍵詞,可以在若干Policy中查找與一定查詢條件匹配的Policy,比如,以“Voltage”作為關鍵詞查詢,則會找到Policy Number為1、3、4的Policy;●Destination Address決定PET將事件發(fā)向何處;●Alert String當作與該類事件有關的解釋字符串。
該策略存放于EEPRom90中,可以通過BMC驅動單元60從OS30上執(zhí)行IPMI標準命令來設定,也可以通過網(wǎng)絡建立Session然后執(zhí)行IPMI標準命令來設定。
在發(fā)送的同時,事件的詳細信息將被臨時組成一個Trap封包,封包的格式由IPMI Platform Event Trap Format Specification v 1.0定義。主要包含了產(chǎn)生事件的平臺的一些信息、時間、事件的類型、嚴重性、產(chǎn)生事件的實體(Entity),以及事件數(shù)據(jù)等一系列信息。按照一定的編碼格式組成一格完整的SNMP Trap封包,經(jīng)過上面策略中的地址發(fā)送出去。如果一條事件BMC收集了與該事件相關的很多策略,可以按照以下幾種“發(fā)送策略”來進行發(fā)送1.Trap被發(fā)送到每一個目標地址。
2.如果第一條Trap發(fā)送成功,下一條要發(fā)向在該策略集中的不同的地址。
3.一旦成功發(fā)送了一條Trap,則停止發(fā)送。
請參閱圖6,為本發(fā)明實施例策略發(fā)送的流程圖。步驟610,檢測到平臺事件;步驟620,之后,判斷通過關鍵詞或策略集號碼確定該事件的相關策略;步驟631,如果選擇通過策略集號碼,則對策略號碼進行解析;步驟641,在所有策略中收集與策略集號碼相匹配的所有策略;步驟632,如果選擇通過關鍵詞收集策略,則解析該關鍵詞;步驟642,在所有策略中收集與關鍵詞相匹配的所有策略。步驟650,然后根據(jù)相關信息(包括狀態(tài)檢測器檢測到的信息以及攜帶的固定信息等)填充事件信息;步驟660,再將該事件發(fā)送至策略中所包含的目標地址。然后步驟670,判斷是否最后一個事件發(fā)送成功?如果最后一個事件發(fā)送成功,步驟680,則表明所有的事件均成功發(fā)送。
當然,本發(fā)明還可有其他多種實施例,在不背離本發(fā)明精神及其實質的情況下,熟悉本領域的技術人員可根據(jù)本發(fā)明作出各種相應的改變和變形,但這些相應的改變和變形都應屬于本發(fā)明權利要求的保護范圍。
權利要求
1.一種智能平臺事件報警系統(tǒng),其特征在于,無需通過操作系統(tǒng),即可將平臺事件信息發(fā)送給管理員,包括一事件檢測模塊,其用以檢測平臺事件;一事件信息存儲模塊,用以存儲預先配置的事件信息;及一信息發(fā)送模塊,其與該事件檢測模塊相連;其中,當該事件檢測模塊檢測到平臺事件時,在該事件信息存儲模塊中提取對應的該事件信息,并根據(jù)該事件信息中的地址信息,通過該信息發(fā)送模塊將該事件信息發(fā)送至相應地址。
2.根據(jù)權利要求1所述的智能平臺事件報警系統(tǒng),其特征在于,該事件信息包括策略號碼、策略集號碼、關鍵詞、地址信息、以及解釋字符串。
3.根據(jù)權利要求1所述的智能平臺事件報警系統(tǒng),其特征在于,所述信息發(fā)送模塊,還包括發(fā)送產(chǎn)生事件的平臺信息,包括時間、事件類型、嚴重性、產(chǎn)生事件的實體以及事件數(shù)據(jù)。
4.一種智能平臺事件報警方法,其特征在于,無需通過操作系統(tǒng),即可將平臺事件信息發(fā)送給管理員,該方法包括如下步驟狀態(tài)檢測器檢測平臺事件;根據(jù)該平臺事件,在事件信息存儲模塊中提取對應的事件信息;提取該事件信息中的地址信息;及根據(jù)該地址信息,將該事件信息通過網(wǎng)卡發(fā)送至相應地址。
5.根據(jù)權利要求4所述的智能平臺事件報警方法,其特征在于,該事件信息包括策略號碼、策略集號碼、關鍵詞、地址信息、以及解釋字符串。
6.根據(jù)權利要求4所述的智能平臺事件報警方法,其特征在于,該發(fā)送事件信息的步驟,還包括發(fā)送產(chǎn)生事件的平臺信息,包括時間、事件類型、嚴重性、產(chǎn)生事件的實體以及事件數(shù)據(jù)。
7.根據(jù)權利要求4所述的智能平臺事件報警方法,其特征在于,該發(fā)送事件信息的步驟,若該地址信息為多個,則根據(jù)該地址信息分別進行發(fā)送。
8.一種智能平臺事件報警裝置,其特征在于,無需通過操作系統(tǒng),即可將平臺事件信息發(fā)送給管理員,包括一儲存單元,其用以儲存預先配置的平臺事件信息;一狀態(tài)傳感器,其用來檢測硬件元件的狀態(tài),接收平臺事件;一基板管理控制器,其用以收集該平臺事件;及一網(wǎng)卡,其用以提取該事件信息中的地址信息,并根據(jù)該地址信息,將該事件信息發(fā)生給管理員;其中,該儲存單元、該狀態(tài)傳感器以及該網(wǎng)卡均位于主板上,并與該基板管理控制器相連,該基板管理控制器根據(jù)收集的該平臺事件,在該儲存單元中搜索對應的事件信息,并將該事件信息傳輸至該網(wǎng)卡。
9.根據(jù)權利要求8所述的智能平臺事件報警裝置,其特征在于,該基板管理控制器還包含有一驅動單元,其建立該基板管理控制器與該操作系統(tǒng)的連接,并對該基板管理控制器的參數(shù)進行設置與取得。
10.根據(jù)權利要求8所述的智能平臺事件報警裝置,其特征在于,該網(wǎng)卡通過數(shù)據(jù)總線與該基板管理控制器相連。
11.根據(jù)權利要求8所述的智能平臺事件報警裝置,其特征在于,該儲存單元為一可電氣拭除式可改寫只讀存儲器。
全文摘要
本發(fā)明涉及一種智能平臺事件報警系統(tǒng),無需通過操作系統(tǒng),即可將平臺事件信息發(fā)送給管理員,包括事件檢測模塊,其用以檢測平臺事件;事件信息存儲模塊,用以存儲預先配置的事件信息;及信息發(fā)送模塊,其與該事件檢測模塊相連;其中,當事件檢測模塊檢測到平臺事件時,在事件信息存儲模塊中提取對應的事件信息,并根據(jù)事件信息中的地址信息,通過信息發(fā)送模塊將事件信息發(fā)送至相應地址。本發(fā)明由于BMC自己有處理能力,所以是獨立于OS工作的,解決了傳統(tǒng)方法的缺點,具有及時、準確、OS無關的優(yōu)點,即使是在OS關閉狀態(tài)下,也可以讓管理員不在現(xiàn)場卻能第一時間得知所監(jiān)控的服務器出現(xiàn)了哪些異常,以便及時采取措施。
文檔編號H04L12/00GK1746859SQ200410074628
公開日2006年3月15日 申請日期2004年9月9日 優(yōu)先權日2004年9月9日
發(fā)明者劉文涵, 宋建福, 崔佳 申請人:英業(yè)達股份有限公司