專利名稱:一種用于管理整機(jī)柜的故障的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是整機(jī)柜故障處理領(lǐng)域,具體涉及一種用于管理整機(jī)柜的故障的方法及裝置。
背景技術(shù):
隨著通信與網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,人們的社會(huì)活動(dòng)已經(jīng)離不開(kāi)信息技術(shù)支持,而信息技術(shù)支撐設(shè)備一般都部署在整機(jī)柜內(nèi),因此,對(duì)機(jī)柜的安全監(jiān)控與運(yùn)行維護(hù)也是信息技術(shù)支撐保障的重要一環(huán)。整機(jī)柜是由復(fù)雜的部件組成,這些部件包含節(jié)點(diǎn)、風(fēng)扇、電源等,其中節(jié)點(diǎn)還包含硬盤(pán)、中央處理器(CPU)、內(nèi)存、網(wǎng)絡(luò)等等。各個(gè)組件均有可能發(fā)生故障,因此故障的收集和處理對(duì)于保證整機(jī)柜穩(wěn)定工作、不影響正常業(yè)務(wù)運(yùn)行就顯得尤為重要。當(dāng)前,整機(jī)柜的故障收集處理主要通過(guò)網(wǎng)絡(luò)管理器收集各個(gè)整機(jī)柜的信息并通過(guò)分析這些信息來(lái)實(shí)現(xiàn),這樣的集中管理機(jī)制導(dǎo)致信息量大,信息來(lái)源多,集中分析機(jī)制不完善;同時(shí)故障信息的分析結(jié)果也不能直接反映到各故障點(diǎn)上并由此帶來(lái)故障處理的效率不聞。
發(fā)明內(nèi)容
本發(fā)明旨在至少解決現(xiàn)有技術(shù)中存在的技術(shù)問(wèn)題之一。為此,本發(fā)明的一個(gè)目的在于提出一種用于管理整機(jī)柜的故障的方法,該方法可以高效定位整機(jī)柜的故障、反映故障并且解決故障。本發(fā)明的另一個(gè)目的在于提出一種用于管理整機(jī)柜的故障的裝置。本發(fā)明的另一個(gè)目的在于提出一種整機(jī)柜。為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明第一方面的實(shí)施例的用于管理整機(jī)柜的故障的方法,包括以下步驟:收集所述整機(jī)柜的部件的信息;根據(jù)所述信息判斷所述部件是否發(fā)生故障;如果是,則對(duì)所述信息進(jìn)行處理和分析以獲得故障信息;將所述故障信息分類;以及使用指示燈指示發(fā)生故障的所述部件。根據(jù)本發(fā)明實(shí)施例的用于管理整機(jī)柜的故障的方法至少具有如下優(yōu)點(diǎn):可以高效快速收集故障信息;可以高效定位故障,能夠從大量信息中篩選出有效信息,提高分析效率以及分析正確性;可以準(zhǔn)確體現(xiàn)故障所在部件,使得運(yùn)維過(guò)程中,工作人員能夠迅速查出故障所在。為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明第二方面的實(shí)施例的用于管理整機(jī)柜的故障的裝置包括:收集模塊,所述收集模塊用于收集所述整機(jī)柜的部件的信息;第一判斷模塊,所述第一判斷模塊用于根據(jù)所述信息判斷所述部件是否發(fā)生故障;處理模塊,當(dāng)所述判斷模塊判斷所述部件發(fā)生故障時(shí),所述處理模塊對(duì)所述信息進(jìn)行處理和分析以獲得故障信息并將所述故障信息分類;以及指示模塊,所述指示模塊用于使用指示燈指示發(fā)生故障的所述部件。
根據(jù)本發(fā)明實(shí)施例的用于管理整機(jī)柜的故障的裝置至少具有如下優(yōu)點(diǎn):可以高效快速收集故障信息;可以高效定位故障,能夠從大量信息中篩選出有效信息,提高分析效率以及分析正確性;可以準(zhǔn)確體現(xiàn)故障所在部件,使得運(yùn)維過(guò)程中,工作人員能夠迅速查出故障所在。為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明第三方面的實(shí)施例的整機(jī)柜包括上述用于管理整機(jī)柜的故障的裝置。本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于管理整機(jī)柜的故障的方法的流程圖;圖2示出了根據(jù)本發(fā)明實(shí)施例的內(nèi)存GPIO觸發(fā)框圖;圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于管理整機(jī)柜的故障的方法的流程圖;圖4是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于管理整機(jī)柜的故障的方法的流程圖;圖5是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于管理整機(jī)柜的故障的方法的流程圖;圖6是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于管理整機(jī)柜的故障的裝置的結(jié)構(gòu)框圖;圖7是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于管理整機(jī)柜的故障的裝置的結(jié)構(gòu)框圖;以及圖8是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于管理整機(jī)柜的故障的裝置的結(jié)構(gòu)框圖。
具體實(shí)施例方式下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對(duì)本發(fā)明的限制。在本發(fā)明的描述中,需要理解的是,術(shù)語(yǔ)“第一”、“第二”等僅用于描述目的,而不能理解為指示或暗示相對(duì)重要性。在本發(fā)明的描述中,需要說(shuō)明的是,除非另有明確的規(guī)定和限定,術(shù)語(yǔ)“相連”、“連接”應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過(guò)中間媒介間接相連。對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可以具體情況理解上述術(shù)語(yǔ)在本發(fā)明中的具體含義。此外,在本發(fā)明的描述中,除非另有說(shuō)明,“多個(gè)”的含義是兩個(gè)或兩個(gè)以上。流程圖中或在此以其他方式描述的任何過(guò)程或方法描述可以被理解為,表示包括一個(gè)或更多個(gè)用于實(shí)現(xiàn)特定邏輯功能或過(guò)程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實(shí)施方式的范圍包括另外的實(shí)現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時(shí)的方式或按相反的順序,來(lái)執(zhí)行功能,這應(yīng)被本發(fā)明的實(shí)施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。下面參考附圖描述根據(jù)本發(fā)明實(shí)施例的管理整機(jī)柜的故障的方法、裝置及整機(jī)柜。一種用于管理整機(jī)柜的故障的方法,其特征在于,包括以下步驟:收集整機(jī)柜的部件的信息;根據(jù)信息判斷部件是否發(fā)生故障;如果是,則對(duì)信息進(jìn)行處理和分析以獲得故障信息;將故障信息分類;以及使用指示燈指示發(fā)生故障的部件。圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于管理整機(jī)柜的故障的方法的流程圖。如圖1所示,用于管理整機(jī)柜的故障的方法包括以下步驟。步驟S101,收集整機(jī)柜的部件的信息。在本發(fā)明的一個(gè)實(shí)施例中,整機(jī)柜的部件可以包括但不限于存儲(chǔ)器、硬盤(pán)、處理器、主板、電源、風(fēng)扇等。在本發(fā)明的一個(gè)實(shí)施例中,部件的信息包括部件的日志信息或狀態(tài)信息。對(duì)于存儲(chǔ)器、硬盤(pán)、處理器和主板等,可以通過(guò)不同的方法獲取這些部件的日志信息。對(duì)于電源和風(fēng)扇等,可以收集電源和風(fēng)扇的狀態(tài)信息,例如電源的輸出是否正常、電源是否斷開(kāi)或接通、風(fēng)扇的轉(zhuǎn)速、風(fēng)扇是否停轉(zhuǎn)等。在本發(fā)明的一個(gè)實(shí)施例中,日志信息可以包括但不限于系統(tǒng)事件日志、存儲(chǔ)控制器的事件日志、硬盤(pán)的智能信息和Linux操作系統(tǒng)的系統(tǒng)日志等。其中從系統(tǒng)事件日志中可以獲得內(nèi)存的日志信息,從存儲(chǔ)控制器的事件日志中可以獲得扇區(qū)的日志信息,從硬盤(pán)的智能信息中可以獲得關(guān)于硬盤(pán)的溫度等日志信息,從Linux操作系統(tǒng)的系統(tǒng)日志中可以獲得介質(zhì)錯(cuò)誤等日志信息。步驟S102,根據(jù)信息判斷部件是否發(fā)生故障。在本發(fā)明的一個(gè)實(shí)施例中,通過(guò)收集的日志信息或者狀態(tài)信息,可以判斷例如存儲(chǔ)器、硬盤(pán)、處理器、內(nèi)存、主板、電源、風(fēng)扇等的部件是否發(fā)生故障。步驟S103,如果是,則對(duì)信息進(jìn)行處理和分析以獲得故障信息。在判斷例如存儲(chǔ)器、硬盤(pán)、處理器、內(nèi)存、主板、電源、風(fēng)扇等的部件發(fā)生故障的情況下,可以進(jìn)一步對(duì)信息進(jìn)行處理和分析以得到具體的故障信息,該故障信息可以是例如電源電壓不穩(wěn),風(fēng)扇轉(zhuǎn)速低于預(yù)定閾值等。步驟S104,將故障信息分類。將所收集到的故障信息按照各個(gè)部件進(jìn)行分類。例如,將所有屬于存儲(chǔ)器的故障信息分到存儲(chǔ)器類,將所有屬于硬盤(pán)的故障信息分到硬盤(pán)類。步驟S105,使用指示燈指示發(fā)生故障的部件。使用指示燈對(duì)于故障部件進(jìn)行指示,方便了維護(hù)人員快速發(fā)現(xiàn)故障部件并對(duì)該部件進(jìn)行維修。根據(jù)本發(fā)明實(shí)施例的用于管理整機(jī)柜的故障的方法具有如下優(yōu)點(diǎn):可以高效快速收集故障信息;可以高效定位故障,能夠從大量信息中篩選出有效信息,提高分析效率以及分析正確性;可以準(zhǔn)確體現(xiàn)故障所在部件,使得運(yùn)維過(guò)程中,工作人員能夠迅速查出故障所在。 在本發(fā)明的一個(gè)實(shí)施例中,在獲取日志信息之后,然后通過(guò)Linux的批量處理程序?qū)@些日志中的故障錯(cuò)誤進(jìn)行分析和輸出,并且針對(duì)以上關(guān)注部件的故障進(jìn)行指示燈狀態(tài)輸出和指示。指示燈的硬件實(shí)現(xiàn)通過(guò)通用輸入輸出(GPIO)來(lái)進(jìn)行觸發(fā),固件層進(jìn)行閥值或者條件編程,提供API接口供Linux下程序進(jìn)行訪問(wèn),同時(shí)進(jìn)行狀態(tài)查詢。圖2示出了根據(jù)本發(fā)明實(shí)施例的內(nèi)存GPIO觸發(fā)框圖。如圖2所示,基板管理控制器(BMC)固件從Linux日志處理程序獲取內(nèi)存的日志信息,在分析內(nèi)存發(fā)生故障時(shí),BMC控制串轉(zhuǎn)并D型觸發(fā)器觸發(fā)內(nèi)存指示燈亮。
圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于管理整機(jī)柜的故障的方法的流程圖。如圖3所示,用于管理整機(jī)柜的故障的方法包括以下步驟。步驟S301,收集整機(jī)柜的部件的信息。在本發(fā)明的一個(gè)實(shí)施例中,整機(jī)柜的部件可以包括但不限于存儲(chǔ)器、硬盤(pán)、處理器、主板、電源、風(fēng)扇等。在本發(fā)明的一個(gè)實(shí)施例中,部件的信息包括部件的日志信息或狀態(tài)信息。對(duì)于存儲(chǔ)器、硬盤(pán)、處理器和主板等,可以通過(guò)不同的方法獲取這些部件的日志信息。對(duì)于電源和風(fēng)扇等,可以收集電源和風(fēng)扇的狀態(tài)信息,例如電源的輸出是否正常、電源是否斷開(kāi)或接通、風(fēng)扇的轉(zhuǎn)速、風(fēng)扇是否停轉(zhuǎn)等。在本發(fā)明的一個(gè)實(shí)施例中,日志信息可以包括但不限于系統(tǒng)事件日志、存儲(chǔ)控制器的事件日志、硬盤(pán)的智能信息和Linux操作系統(tǒng)的系統(tǒng)日志等。其中從系統(tǒng)事件日志中可以獲得內(nèi)存的日志信息,從存儲(chǔ)控制器的事件日志中可以獲得扇區(qū)的日志信息,從硬盤(pán)的智能信息中可以獲得關(guān)于硬盤(pán)的溫度等日志信息,從Linux操作系統(tǒng)的系統(tǒng)日志中可以獲得介質(zhì)錯(cuò)誤等日志信息。步驟S302,根據(jù)信息判斷部件是否發(fā)生故障。在本發(fā)明的一個(gè)實(shí)施例中,通過(guò)收集的日志信息或者狀態(tài)信息,可以判斷例如存儲(chǔ)器、硬盤(pán)、處理器、內(nèi)存、主板、電源、風(fēng)扇等的部件是否發(fā)生故障。步驟S303,如果是,則對(duì)信息進(jìn)行處理和分析以獲得故障信息。在判斷例如存儲(chǔ)器、硬盤(pán)、處理器、內(nèi)存、主板、電源、風(fēng)扇等的部件發(fā)生故障的情況下,可以進(jìn)一步對(duì)信息進(jìn)行處理和分析以得到具體的故障信息,該故障信息可以是例如電源電壓不穩(wěn),風(fēng)扇轉(zhuǎn)速低于預(yù)定閾值等。步驟S304,將故障信息分類。將所收集到的故障信息按照各個(gè)部件進(jìn)行分類。例如,將所有屬于存儲(chǔ)器的故障信息分到存儲(chǔ)器類,將所有屬于硬盤(pán)的故障信息分到硬盤(pán)類。步驟S305,判斷所述故障信息是否指示嚴(yán)重故障。故障分級(jí)的標(biāo)準(zhǔn)可以視具體應(yīng)用情況而設(shè)立。下面列舉一些故障的分級(jí)標(biāo)準(zhǔn)。在本發(fā)明的一個(gè)實(shí)施例中,按照如下標(biāo)準(zhǔn)對(duì)故障進(jìn)行分級(jí),故障為下述情況時(shí)判斷為嚴(yán)重故障。對(duì)于內(nèi)存,如果內(nèi)存出現(xiàn)超過(guò)一位的ECC錯(cuò)誤,或者內(nèi)存出現(xiàn)一位的可糾正ECC錯(cuò)誤達(dá)到一定數(shù)量或者內(nèi)存出現(xiàn)容量識(shí)別錯(cuò)誤時(shí),判斷內(nèi)存發(fā)生嚴(yán)重故障。對(duì)于硬盤(pán),如果發(fā)生不可糾正介質(zhì)錯(cuò)誤,則判斷為嚴(yán)重硬盤(pán)故障。對(duì)于處理器,如果發(fā)生QPI相關(guān)狀態(tài)寄存器中的所有故障或者發(fā)生處理器L3緩存等相關(guān)的ECC故障,則判斷為嚴(yán)重故障。對(duì)于存儲(chǔ)器,如果存儲(chǔ)器的控制芯片出現(xiàn)系統(tǒng)錯(cuò)誤,或者存儲(chǔ)器的供電電壓出現(xiàn)異常情況,包括電壓值不在范圍內(nèi),電壓沒(méi)有輸出,或者發(fā)生致命固件故障或者閃存故障,或者初始化失敗,則判斷為嚴(yán)重故障。對(duì)于主板,如果主板電壓出現(xiàn)異常情況,包括電壓值不在范圍內(nèi),電壓沒(méi)有輸出,或者在啟動(dòng)過(guò)程中檢測(cè)到Post錯(cuò)誤,則判斷為嚴(yán)重錯(cuò)誤。步驟S306,如果故障信息不指示嚴(yán)重故障,則記錄所述信息。如果不是嚴(yán)重故障,說(shuō)明部件仍然能夠工作,對(duì)于整機(jī)柜的性能不會(huì)有較大影響,在這種情況下,可以不對(duì)該部件進(jìn)行維修,但是將該信息記錄,可以用于對(duì)該部件進(jìn)行觀察,以防故障惡化。步驟S307,如果故障信息指示嚴(yán)重故障,則使用指示燈指示部件。只有在嚴(yán)重故障時(shí),才會(huì)啟用指示燈,才會(huì)需要維護(hù)人員進(jìn)行維護(hù)。使用指示燈對(duì)于故障部件進(jìn)行指示,方便了維護(hù)人員快速發(fā)現(xiàn)故障部件并對(duì)該部件進(jìn)行維修。根據(jù)本發(fā)明實(shí)施例的用于管理整機(jī)柜的故障的方法具有如下優(yōu)點(diǎn):可以高效快速收集故障信息;可以高效定位故障,能夠從大量信息中篩選出有效信息,提高分析效率以及分析正確性;可以準(zhǔn)確體現(xiàn)故障所在部件,使得運(yùn)維過(guò)程中,工作人員能夠迅速查出故障所在;并且可以在僅發(fā)生嚴(yán)重故障時(shí)才啟用指示燈,可以根據(jù)需要進(jìn)行維護(hù),降低了成本,提高了性能。圖4是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于管理整機(jī)柜的故障的方法的流程圖。如圖4所示,用于管理整機(jī)柜的故障的方法包括以下步驟。步驟S401,收集整機(jī)柜的部件的信息。在本發(fā)明的一個(gè)實(shí)施例中,整機(jī)柜的部件可以包括但不限于存儲(chǔ)器、硬盤(pán)、處理器、主板、電源、風(fēng)扇等。在本發(fā)明的一個(gè)實(shí)施例中,部件的信息包括部件的日志信息或狀態(tài)信息。對(duì)于存儲(chǔ)器、硬盤(pán)、處理器和主板等,可以通過(guò)不同的方法獲取這些部件的日志信息。對(duì)于電源和風(fēng)扇等,可以收集電源和風(fēng)扇的狀態(tài)信息,例如電源的輸出是否正常、電源是否斷開(kāi)或接通、風(fēng)扇的轉(zhuǎn)速、風(fēng)扇是否停轉(zhuǎn)等。在本發(fā)明的一個(gè)實(shí)施例中,日志信息可以包括但不限于系統(tǒng)事件日志、存儲(chǔ)控制器的事件日志、硬盤(pán)的智能信息和Linux操作系統(tǒng)的系統(tǒng)日志等。其中從系統(tǒng)事件日志中可以獲得內(nèi)存的日志信息,從存儲(chǔ)控制器的事件日志中可以獲得扇區(qū)的日志信息,從硬盤(pán)的智能信息中可以獲得關(guān)于硬盤(pán)的溫度等日志信息,從Linux操作系統(tǒng)的系統(tǒng)日志中可以獲得介質(zhì)錯(cuò)誤等日志信息。步驟S402,根據(jù)信息判斷部件是否發(fā)生故障。在本發(fā)明的一個(gè)實(shí)施例中,通過(guò)收集的日志信息或者狀態(tài)信息,可以判斷例如存儲(chǔ)器、硬盤(pán)、處理器、內(nèi)存、主板、電源、風(fēng)扇等的部件是否發(fā)生故障。步驟S403,如果是,則對(duì)信息進(jìn)行處理和分析以獲得故障信息。在判斷例如存儲(chǔ)器、硬盤(pán)、處理器、內(nèi)存、主板、電源、風(fēng)扇等的部件發(fā)生故障的情況下,可以進(jìn)一步對(duì)信息進(jìn)行處理和分析以得到具體的故障信息,該故障信息可以是例如電源電壓不穩(wěn),風(fēng)扇轉(zhuǎn)速低于預(yù)定閾值等。步驟S404,將故障信息分類。將所收集到的故障信息按照各個(gè)部件進(jìn)行分類。例如,將所有屬于存儲(chǔ)器的故障信息分到存儲(chǔ)器類,將所有屬于硬盤(pán)的故障信息分到硬盤(pán)類。步驟S405,判斷所述故障信息是否指示嚴(yán)重故障。故障分級(jí)的標(biāo)準(zhǔn)可以視具體應(yīng)用情況而設(shè)立。下面列舉一些故障的分級(jí)標(biāo)準(zhǔn)。在本發(fā)明的一個(gè)實(shí)施例中,按照如下標(biāo)準(zhǔn)對(duì)故障進(jìn)行分級(jí),故障為下述情況時(shí)判斷為嚴(yán)重故障。對(duì)于內(nèi)存,如果內(nèi)存出現(xiàn)超過(guò)一位的ECC錯(cuò)誤,或者內(nèi)存出現(xiàn)一位的可糾正ECC錯(cuò)誤達(dá)到一定數(shù)量或者內(nèi)存出現(xiàn)容量識(shí)別錯(cuò)誤時(shí),判斷內(nèi)存發(fā)生嚴(yán)重故障。對(duì)于硬盤(pán),如果發(fā)生不可糾正介質(zhì)錯(cuò)誤,則判斷為嚴(yán)重硬盤(pán)故障。對(duì)于處理器,如果發(fā)生QPI相關(guān)狀態(tài)寄存器中的所有故障或者發(fā)生處理器L3緩存等相關(guān)的ECC故障,則判斷為嚴(yán)重故障。對(duì)于存儲(chǔ)器,如果存儲(chǔ)器的控制芯片出現(xiàn)系統(tǒng)錯(cuò)誤,或者存儲(chǔ)器的供電電壓出現(xiàn)異常情況,包括電壓值不在范圍內(nèi),電壓沒(méi)有輸出,或者發(fā)生致命固件故障或者閃存故障,或者初始化失敗,則判斷為嚴(yán)重故障。對(duì)于主板,如果主板電壓出現(xiàn)異常情況,包括電壓值不在范圍內(nèi),電壓沒(méi)有輸出,或者在啟動(dòng)過(guò)程中檢測(cè)到Post錯(cuò)誤,則判斷為嚴(yán)重錯(cuò)誤。步驟S406,如果故障信息不指示嚴(yán)重故障,則記錄所述信息。如果不是嚴(yán)重故障,說(shuō)明部件仍然能夠工作,對(duì)于整機(jī)柜的性能不會(huì)有較大影響,在這種情況下,可以不對(duì)該部件進(jìn)行維修,但是將該信息記錄,可以用于對(duì)該部件進(jìn)行觀察,以防故障惡化。步驟S407,如果故障信息指示嚴(yán)重故障,則使用指示燈指示部件。只有在嚴(yán)重故障時(shí),才會(huì)啟用指示燈,才會(huì)需要維護(hù)人員進(jìn)行維護(hù)。使用指示燈對(duì)于故障部件進(jìn)行指示,方便了維護(hù)人員快速發(fā)現(xiàn)故障部件并對(duì)該部件進(jìn)行維修。 步驟S408,將指示燈集成在每個(gè)部件上。通過(guò)將指示燈集成在各個(gè)部件上,方便了維護(hù)人員快速判斷哪個(gè)部件發(fā)生故障,進(jìn)一步提高了工作效率。根據(jù)本發(fā)明實(shí)施例的用于管理整機(jī)柜的故障的方法具有如下優(yōu)點(diǎn):可以高效快速收集故障信息;可以高效定位故障,能夠從大量信息中篩選出有效信息,提高分析效率以及分析正確性;通過(guò)將指示燈與部件集成,可以準(zhǔn)確和快速體現(xiàn)故障所在部件,使得運(yùn)維過(guò)程中,工作人員能夠迅速查出故障所在;并且可以在僅發(fā)生嚴(yán)重故障時(shí)才啟用指示燈,可以根據(jù)需要進(jìn)行維護(hù),降低了成本,提高了性能。圖5是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于管理整機(jī)柜的故障的方法的流程圖。如圖5所示,用于管理整機(jī)柜的故障的方法包括以下步驟。步驟S501,收集整機(jī)柜的部件的信息。在本發(fā)明的一個(gè)實(shí)施例中,整機(jī)柜的部件可以包括但不限于存儲(chǔ)器、硬盤(pán)、處理器、主板、電源、風(fēng)扇等。在本發(fā)明的一個(gè)實(shí)施例中,部件的信息包括部件的日志信息或狀態(tài)信息。對(duì)于存儲(chǔ)器、硬盤(pán)、處理器和主板等,可以通過(guò)不同的方法獲取這些部件的日志信息。對(duì)于電源和風(fēng)扇等,可以收集電源和風(fēng)扇的狀態(tài)信息,例如電源的輸出是否正常、電源是否斷開(kāi)或接通、風(fēng)扇的轉(zhuǎn)速、風(fēng)扇是否停轉(zhuǎn)等。在本發(fā)明的一個(gè)實(shí)施例中,日志信息可以包括但不限于系統(tǒng)事件日志、存儲(chǔ)控制器的事件日志、硬盤(pán)的智能信息和Linux操作系統(tǒng)的系統(tǒng)日志等。其中從系統(tǒng)事件日志中可以獲得內(nèi)存的日志信息,從存儲(chǔ)控制器的事件日志中可以獲得扇區(qū)的日志信息,從硬盤(pán)的智能信息中可以獲得關(guān)于硬盤(pán)的溫度等日志信息,從Linux操作系統(tǒng)的系統(tǒng)日志中可以獲得介質(zhì)錯(cuò)誤等日志信息。步驟S502,根據(jù)信息判斷部件是否發(fā)生故障。在本發(fā)明的一個(gè)實(shí)施例中,通過(guò)收集的日志信息或者狀態(tài)信息,可以判斷例如存儲(chǔ)器、硬盤(pán)、處理器、內(nèi)存、主板、電源、風(fēng)扇等的部件是否發(fā)生故障。
步驟S503,如果是,則對(duì)信息進(jìn)行處理和分析以獲得故障信息。在判斷例如存儲(chǔ)器、硬盤(pán)、處理器、內(nèi)存、主板、電源、風(fēng)扇等的部件發(fā)生故障的情況下,可以進(jìn)一步對(duì)信息進(jìn)行處理和分析以得到具體的故障信息,該故障信息可以是例如電源電壓不穩(wěn),風(fēng)扇轉(zhuǎn)速低于預(yù)定閾值等。步驟S504,將故障信息分類。將所收集到的故障信息按照各個(gè)部件進(jìn)行分類。例如,將所有屬于存儲(chǔ)器的故障信息分到存儲(chǔ)器類,將所有屬于硬盤(pán)的故障信息分到硬盤(pán)類。步驟S505,判斷所述故障信息是否指示嚴(yán)重故障。故障分級(jí)的標(biāo)準(zhǔn)可以視具體應(yīng)用情況而設(shè)立。下面列舉一些故障的分級(jí)標(biāo)準(zhǔn)。在本發(fā)明的一個(gè)實(shí)施例中,按照如下標(biāo)準(zhǔn)對(duì)故障進(jìn)行分級(jí),故障為下述情況時(shí)判斷為嚴(yán)重故障。對(duì)于內(nèi)存,如果內(nèi)存出現(xiàn)超過(guò)一位的ECC錯(cuò)誤,或者內(nèi)存出現(xiàn)一位的可糾正ECC錯(cuò)誤達(dá)到一定數(shù)量或者內(nèi)存出現(xiàn)容量識(shí)別錯(cuò)誤時(shí),判斷內(nèi)存發(fā)生嚴(yán)重故障。對(duì)于硬盤(pán),如果發(fā)生不可糾正介質(zhì)錯(cuò)誤,則判斷為嚴(yán)重硬盤(pán)故障。對(duì)于處理器,如果發(fā)生QPI相關(guān)狀態(tài)寄存器中的所有故障或者發(fā)生處理器L3緩存等相關(guān)的ECC故障,則判斷為嚴(yán)重故障。對(duì)于存儲(chǔ)器,如果存儲(chǔ)器的控制芯片出現(xiàn)系統(tǒng)錯(cuò)誤,或者存儲(chǔ)器的供電電壓出現(xiàn)異常情況,包括電壓值不在范圍內(nèi),電壓沒(méi)有輸出,或者發(fā)生致命固件故障或者閃存故障,或者初始化失敗,則判斷為嚴(yán)重故障。對(duì)于主板,如果主板電壓出現(xiàn)異常情況,包括電壓值不在范圍內(nèi),電壓沒(méi)有輸出,或者在啟動(dòng)過(guò)程中檢測(cè)到Post錯(cuò)誤,則判斷為嚴(yán)重錯(cuò)誤。步驟S506,如果故障信息不指示嚴(yán)重故障,則記錄所述信息。如果不是嚴(yán)重故障,說(shuō)明部件仍然能夠工作,對(duì)于整機(jī)柜的性能不會(huì)有較大影響,在這種情況下,可以不對(duì)該部件進(jìn)行維修,但是將該信息記錄,可以用于對(duì)該部件進(jìn)行觀察,以防故障惡化。步驟S507,如果故障信息指示嚴(yán)重故障,則使用指示燈指示部件。只有在嚴(yán)重故障時(shí),才會(huì)啟用指示燈,才會(huì)需要維護(hù)人員進(jìn)行維護(hù)。使用指示燈對(duì)于故障部件進(jìn)行指示,方便了維護(hù)人員快速發(fā)現(xiàn)故障部件并對(duì)該部件進(jìn)行維修。步驟S508,將指示燈集成在每個(gè)部件上。通過(guò)將指示燈集成在各個(gè)部件上,方便了維護(hù)人員快速判斷哪個(gè)部件發(fā)生故障,進(jìn)一步提高了工作效率。步驟S509,在指示燈斷電后,啟用備用電池對(duì)指示燈進(jìn)行供電。在實(shí)際操作中,有可能發(fā)生這樣的情況:當(dāng)將節(jié)點(diǎn)從整機(jī)柜中拔出以查看具體節(jié)點(diǎn)的哪個(gè)部件發(fā)生故障時(shí),節(jié)點(diǎn)會(huì)斷電,在這種情況下,無(wú)法通過(guò)指示燈判斷故障部件,因而需要有備用電池對(duì)指示燈供電。步驟S510,用指示燈指示發(fā)生故障的部件。在指示燈由備用電池供電之后,對(duì)于發(fā)生故障的部件,指示燈再次亮起,從而指示發(fā)生故障的部件。根據(jù)本發(fā)明實(shí)施例的用于管理整機(jī)柜的故障的方法具有如下優(yōu)點(diǎn):可以高效快速收集故障信息;可以高效定位故障,能夠從大量信息中篩選出有效信息,提高分析效率以及分析正確性;通過(guò)將指示燈與部件集成,可以準(zhǔn)確和快速體現(xiàn)故障所在部件,使得運(yùn)維過(guò)程中,工作人員能夠迅速查出故障所在;并且可以在僅發(fā)生嚴(yán)重故障時(shí)才啟用指示燈,可以根據(jù)需要進(jìn)行維護(hù),降低了成本,提高了性能;在指示燈斷電之后可以通過(guò)備用電池供電,從而再現(xiàn)發(fā)生故障的部件。另外,本發(fā)明還提出一種管理整機(jī)柜的故障的裝置。該裝置包括:收集模塊,收集模塊用于收集整機(jī)柜的部件的信息;第一判斷模塊,第一判斷模塊用于根據(jù)信息判斷部件是否發(fā)生故障;處理模塊,當(dāng)判斷模塊判斷部件發(fā)生故障時(shí),處理模塊對(duì)信息進(jìn)行處理和分析以獲得故障信息并將故障信息分類;以及指示模塊,指示模塊用于使用指示燈指示發(fā)生故障的部件。圖6是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于管理整機(jī)柜的故障的裝置的結(jié)構(gòu)框圖。如圖6所示,用于管理整機(jī)柜的故障的裝置I包括收集模塊10,第一判斷模塊20,處理模塊30和指示模塊40。具體地,收集模塊10用于收集整機(jī)柜的部件的信息。在本發(fā)明的一個(gè)實(shí)施例中,整機(jī)柜的部件可以包括但不限于存儲(chǔ)器、硬盤(pán)、處理器、主板、電源、風(fēng)扇等。在本發(fā)明的一個(gè)實(shí)施例中,部件的信息包括部件的日志信息或狀態(tài)信息。對(duì)于存儲(chǔ)器、硬盤(pán)、處理器和主板等,可以通過(guò)不同的方法獲取這些部件的日志信息。對(duì)于電源和風(fēng)扇等,可以收集電源和風(fēng)扇的狀態(tài)信息,例如電源的輸出是否正常、電源是否斷開(kāi)或接通、風(fēng)扇的轉(zhuǎn)速、風(fēng)扇是否停轉(zhuǎn)等。在本發(fā)明的一個(gè)實(shí)施例中,日志信息可以包括但不限于系統(tǒng)事件日志、存儲(chǔ)控制器的事件日志、硬盤(pán)的智能信息和Linux操作系統(tǒng)的系統(tǒng)日志等。其中從系統(tǒng)事件日志中可以獲得內(nèi)存的日志信息,從存儲(chǔ)控制器的事件日志中可以獲得扇區(qū)的日志信息,從硬盤(pán)的智能信息中可以獲得關(guān)于硬盤(pán)的溫度等日志信息,從Linux操作系統(tǒng)的系統(tǒng)日志中可以獲得介質(zhì)錯(cuò)誤等日志信息。第一判斷模塊20用于根據(jù)信息判斷部件是否發(fā)生故障。在本發(fā)明的一個(gè)實(shí)施例中,第一判斷模塊20可以通過(guò)收集的日志信息或者狀態(tài)信息,可以判斷例如存儲(chǔ)器、硬盤(pán)、處理器、內(nèi)存、主板、電源、風(fēng)扇等的部件是否發(fā)生故障。處理模塊30用于當(dāng)?shù)谝慌袛嗄K20判斷部件發(fā)生故障時(shí),對(duì)信息進(jìn)行處理和分析以獲得故障信息并將故障信息分類。處理模塊30將所收集到的故障信息按照各個(gè)部件進(jìn)行分類。指示模塊40用于使用指示燈指示發(fā)生故障的部件。使用指示燈對(duì)于故障部件進(jìn)行指示,方便了維護(hù)人員快速發(fā)現(xiàn)故障部件并對(duì)該部件進(jìn)行維修。在本發(fā)明的一個(gè)實(shí)施例中,指示燈集成在每個(gè)部件上。通過(guò)將指示燈集成在各個(gè)部件上,方便了維護(hù)人員快速判斷哪個(gè)部件發(fā)生故障,進(jìn)一步提高了工作效率。根據(jù)本發(fā)明實(shí)施例的用于管理整機(jī)柜的故障的裝置具有如下優(yōu)點(diǎn):可以高效快速收集故障信息;可以高效定位故障,能夠從大量信息中篩選出有效信息,提高分析效率以及分析正確性;可以準(zhǔn)確體現(xiàn)故障所在部件,使得運(yùn)維過(guò)程中,工作人員能夠迅速查出故障所在。圖7是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于管理整機(jī)柜的故障的裝置的結(jié)構(gòu)框圖。如圖7所示,用于管理整機(jī)柜的故障的裝置2包括收集模塊10,第一判斷模塊20,處理模塊30、指示模塊40、第二判斷模塊50和記錄模塊60。
具體地,收集模塊10用于收集整機(jī)柜的部件的信息。在本發(fā)明的一個(gè)實(shí)施例中,整機(jī)柜的部件可以包括但不限于存儲(chǔ)器、硬盤(pán)、處理器、主板、電源、風(fēng)扇等。在本發(fā)明的一個(gè)實(shí)施例中,部件的信息包括部件的日志信息或狀態(tài)信息。對(duì)于存儲(chǔ)器、硬盤(pán)、處理器和主板等,可以通過(guò)不同的方法獲取這些部件的日志信息。對(duì)于電源和風(fēng)扇等,可以收集電源和風(fēng)扇的狀態(tài)信息,例如電源的輸出是否正常、電源是否斷開(kāi)或接通、風(fēng)扇的轉(zhuǎn)速、風(fēng)扇是否停轉(zhuǎn)等。在本發(fā)明的一個(gè)實(shí)施例中,日志信息可以包括但不限于系統(tǒng)事件日志、存儲(chǔ)控制器的事件日志、硬盤(pán)的智能信息和Linux操作系統(tǒng)的系統(tǒng)日志等。其中從系統(tǒng)事件日志中可以獲得內(nèi)存的日志信息,從存儲(chǔ)控制器的事件日志中可以獲得扇區(qū)的日志信息,從硬盤(pán)的智能信息中可以獲得關(guān)于硬盤(pán)的溫度等日志信息,從Linux操作系統(tǒng)的系統(tǒng)日志中可以獲得介質(zhì)錯(cuò)誤等日志信息。第一判斷模塊20用于根據(jù)信息判斷部件是否發(fā)生故障。在本發(fā)明的一個(gè)實(shí)施例中,第一判斷模塊20可以通過(guò)收集的日志信息或者狀態(tài)信息,可以判斷例如存儲(chǔ)器、硬盤(pán)、處理器、內(nèi)存、主板、電源、風(fēng)扇等的部件是否發(fā)生故障。處理模塊30用于當(dāng)?shù)谝慌袛嗄K20判斷部件發(fā)生故障時(shí),對(duì)信息進(jìn)行處理和分析以獲得故障信息并將故障信息分類。處理模塊30將所收集到的故障信息按照各個(gè)部件進(jìn)行分類。第二判斷模塊50用于判斷故障信息是否指示嚴(yán)重故障。故障分級(jí)的標(biāo)準(zhǔn)可以視具體應(yīng)用情況而設(shè)立。下面列舉一些故障的分級(jí)標(biāo)準(zhǔn)。在本發(fā)明的一個(gè)實(shí)施例中,按照如下標(biāo)準(zhǔn)對(duì)故障進(jìn)行分級(jí),故障為下述情況時(shí)判斷為嚴(yán)重故障。對(duì)于內(nèi)存,如果內(nèi)存出現(xiàn)超過(guò)一位的ECC錯(cuò)誤,或者內(nèi)存出現(xiàn)一位的可糾正ECC錯(cuò)誤達(dá)到一定數(shù)量或者內(nèi)存出現(xiàn)容量識(shí)別錯(cuò)誤時(shí),判斷內(nèi)存發(fā)生嚴(yán)重故障。對(duì)于硬盤(pán),如果發(fā)生不可糾正介質(zhì)錯(cuò)誤,則判斷為嚴(yán)重硬盤(pán)故障。對(duì)于處理器,如果發(fā)生QPI相關(guān)狀態(tài)寄存器中的所有故障或者發(fā)生處理器L3緩存等相關(guān)的ECC故障,則判斷為嚴(yán)重故障。對(duì)于存儲(chǔ)器,如果存儲(chǔ)器的控制芯片出現(xiàn)系統(tǒng)錯(cuò)誤,或者存儲(chǔ)器的供電電壓出現(xiàn)異常情況,包括電壓值不在范圍內(nèi),電壓沒(méi)有輸出,或者發(fā)生致命固件故障或者閃存故障,或者初始化失敗,則判斷為嚴(yán)重故障。對(duì)于主板,如果主板電壓出現(xiàn)異常情況,包括電壓值不在范圍內(nèi),電壓沒(méi)有輸出,或者在啟動(dòng)過(guò)程中檢測(cè)到Post錯(cuò)誤,則判斷為嚴(yán)重錯(cuò)誤。記錄模塊60用于在所述故障信息不指示嚴(yán)重故障時(shí)記錄信息。如果不是嚴(yán)重故障,說(shuō)明部件仍然能夠工作,對(duì)于整機(jī)柜的性能不會(huì)有較大影響,在這種情況下,可以不對(duì)該部件進(jìn)行維修,但是將該信息記錄,可以用于對(duì)該部件進(jìn)行觀察,以防故障惡化。如果故障信息指示嚴(yán)重故障,則指示模塊40使用指示燈指示發(fā)生所述嚴(yán)重故障的部件。只有在嚴(yán)重故障時(shí),才會(huì)啟用指示燈,才會(huì)需要維護(hù)人員進(jìn)行維護(hù)。使用指示燈對(duì)于故障部件進(jìn)行指示,方便了維護(hù)人員快速發(fā)現(xiàn)故障部件并對(duì)該部件進(jìn)行維修。在本發(fā)明的一個(gè)實(shí)施例中,指示燈集成在每個(gè)部件上。通過(guò)將指示燈集成在各個(gè)部件上,方便了維護(hù)人員快速判斷哪個(gè)部件發(fā)生故障,進(jìn)一步提高了工作效率。根據(jù)本發(fā)明實(shí)施例的用于管理整機(jī)柜的故障的裝置具有如下優(yōu)點(diǎn):可以高效快速收集故障信息;可以高效定位故障,能夠從大量信息中篩選出有效信息,提高分析效率以及分析正確性;可以準(zhǔn)確體現(xiàn)故障所在部件,使得運(yùn)維過(guò)程中,工作人員能夠迅速查出故障所在;并且可以在僅發(fā)生嚴(yán)重故障時(shí)才啟用指示燈,可以根據(jù)需要進(jìn)行維護(hù),降低了成本,提高了性能。圖8是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于管理整機(jī)柜的故障的裝置的結(jié)構(gòu)框圖。如圖8所示,用于管理整機(jī)柜的故障的裝置3包括收集模塊10,第一判斷模塊20,處理模塊30、指示模塊40、第二判斷模塊50、記錄模塊60和備用電池70。圖8的實(shí)施例和圖7的實(shí)施例的不同之處在于進(jìn)一步包括了一個(gè)備用電池70,下面將描述該備用電池70的功能,與圖7相同或相似之處不再詳細(xì)描述。備用電池70用于在所述指示燈斷電后對(duì)指示燈進(jìn)行供電。在實(shí)際操作中,有可能發(fā)生這樣的情況:當(dāng)將節(jié)點(diǎn)從整機(jī)柜中拔出以查看具體節(jié)點(diǎn)的哪個(gè)部件發(fā)生故障時(shí),節(jié)點(diǎn)會(huì)斷電,在這種情況下,無(wú)法通過(guò)指示燈判斷故障部件,因而需要有備用電池對(duì)指示燈供電。在指示燈由備用電池供電之后,對(duì)于發(fā)生故障的部件,指示燈再次亮起,從而指示發(fā)生故障的部件。根據(jù)本發(fā)明實(shí)施例的用于管理整機(jī)柜的故障的方法具有如下優(yōu)點(diǎn):可以高效快速收集故障信息;可以高效定位故障,能夠從大量信息中篩選出有效信息,提高分析效率以及分析正確性;通過(guò)將指示燈與部件集成,可以準(zhǔn)確和快速體現(xiàn)故障所在部件,使得運(yùn)維過(guò)程中,工作人員能夠迅速查出故障所在;并且可以在僅發(fā)生嚴(yán)重故障時(shí)才啟用指示燈,可以根據(jù)需要進(jìn)行維護(hù),降低了成本,提高了性能;在指示燈斷電之后可以通過(guò)備用電池供電,從而再現(xiàn)發(fā)生故障的部件。另外,本發(fā)明還提出一種整機(jī)柜。該整機(jī)柜包括上述實(shí)施例中的用于管理整機(jī)柜的故障的裝置。應(yīng)當(dāng)理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來(lái)實(shí)現(xiàn)。在上述實(shí)施方式中,多個(gè)步驟或方法可以用存儲(chǔ)在存儲(chǔ)器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來(lái)實(shí)現(xiàn)。例如,如果用硬件來(lái)實(shí)現(xiàn),和在另一實(shí)施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項(xiàng)或他們的組合來(lái)實(shí)現(xiàn):具有用于對(duì)數(shù)據(jù)信號(hào)實(shí)現(xiàn)邏輯功能的邏輯門(mén)電路的離散邏輯電路,具有合適的組合邏輯門(mén)電路的專用集成電路,可編程門(mén)陣列(PGA),現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)等。在本說(shuō)明書(shū)的描述中,參考術(shù)語(yǔ)“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說(shuō)明書(shū)中,對(duì)上述術(shù)語(yǔ)的示意性表述不一定指的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任何的一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。盡管已經(jīng)示出和描述了本發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可以理解在不脫離本發(fā)明的原理和精神的情況下可以對(duì)這些實(shí)施例進(jìn)行多種變化、修改、替換和變型,本發(fā)明的范圍由所附權(quán)利要求及其等同限定。
權(quán)利要求
1.一種用于管理整機(jī)柜的故障的方法,其特征在于,包括以下步驟: 收集所述整機(jī)柜的部件的信息; 根據(jù)所述信息判斷所述部件是否發(fā)生故障; 如果是,則對(duì)所述信息進(jìn)行處理和分析以獲得故障信息; 將所述故障信息分類;以及 使用指示燈指示發(fā)生故障的所述部件。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,進(jìn)一步包括步驟: 判斷所述故障信息是否指示嚴(yán)重故障; 如果所述故障信息不指示嚴(yán)重故障,則記錄所述信息,其中 如果所述故障信息指示嚴(yán)重故障,則使用指示燈指示發(fā)生故障的部件。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于, 所述部件包括存儲(chǔ)器、硬盤(pán)、處理器、主板、電源、風(fēng)扇。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于, 所述信息包括所述部件的日志信息或狀態(tài)信息。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,進(jìn)一步包括步驟: 將所述指示燈集成在每個(gè)部件上。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述日志信息包括: 系統(tǒng)事件日志; 存儲(chǔ)控制器的事件日志; 硬盤(pán)的智能信息;和 Linux操作系統(tǒng)的系統(tǒng)日志。
7.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,進(jìn)一步包括步驟: 在所述指示燈斷電后,啟用備用電池對(duì)所述指示燈進(jìn)行供電;以及 用所述指示燈指示發(fā)生故障的部件。
8.一種用于管理整機(jī)柜的故障的裝置,其特征在于,包括: 收集模塊,所述收集模塊用于收集所述整機(jī)柜的部件的信息; 第一判斷模塊,所述第一判斷模塊用于根據(jù)所述信息判斷所述部件是否發(fā)生故障;處理模塊,當(dāng)所述判斷模塊判斷所述部件發(fā)生故障時(shí),所述處理模塊對(duì)所述信息進(jìn)行處理和分析以獲得故障信息并將所述故障信息分類;以及 指示模塊,所述指示模塊用于使用指示燈指示發(fā)生故障的所述部件。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,進(jìn)一步包括: 第二判斷模塊,所述第二判斷模塊用于判斷所述故障信息是否指示嚴(yán)重故障;以及 記錄模塊,所述記錄模塊用于在所述故障信息不指示嚴(yán)重故障時(shí)記錄所述信息; 其中,如果所述故障信息指示嚴(yán)重故障,則所述指示模塊使用指示燈指示發(fā)生所述嚴(yán)重故障的部件。
10.根據(jù)權(quán)利要求8或9所述的裝置,其特征在于, 所述部件包括存儲(chǔ)器、硬盤(pán)、處理器、主板、電源、風(fēng)扇。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于, 所述信息包括所述部件的日志信息或狀態(tài)信息。
12.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述指示燈集成在每個(gè)部件上。
13.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述日志信息包括: 系統(tǒng)事件日志; 存儲(chǔ)控制器的事件日志; 硬盤(pán)的智能信息;和 Linux操作系統(tǒng)的系統(tǒng)日志。
14.根據(jù)權(quán)利要求8或9所述的裝置,其特征在于,進(jìn)一步包括: 備用電池,所述備用電池用于在所述指示燈斷電后對(duì)所述指示燈進(jìn)行供電。
15.一種整機(jī)柜,所述整機(jī)柜包括根據(jù)權(quán)利要求8至14中任一項(xiàng)所述的用于管理整機(jī)柜的故障的裝置 。
全文摘要
本發(fā)明提出一種用于管理整機(jī)柜的故障的方法及裝置。該方法包括以下步驟收集所述整機(jī)柜的部件的信息;根據(jù)所述信息判斷所述部件是否發(fā)生故障;如果是,則對(duì)所述信息進(jìn)行處理和分析以獲得故障信息;將所述故障信息分類;以及使用指示燈指示發(fā)生故障的所述部件。該方法能夠提高故障管理的效率及正確率。
文檔編號(hào)G06F11/32GK103207825SQ201210011568
公開(kāi)日2013年7月17日 申請(qǐng)日期2012年1月13日 優(yōu)先權(quán)日2012年1月13日
發(fā)明者劉洪梅, 陳國(guó)峰, 張家軍 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司