專(zhuān)利名稱:一種服務(wù)器故障的離線診斷方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體的說(shuō)是一種服務(wù)器故障的離線診斷方法。
背景技術(shù):
隨著用戶需求的的不斷提升和科技進(jìn)步的不斷發(fā)展,服務(wù)器的性能越來(lái)越卓越,同時(shí)也使得服務(wù)器系統(tǒng)越來(lái)越復(fù)雜。卓越的性能給用戶帶來(lái)良好體驗(yàn)的同時(shí),也引入了一個(gè)棘手的問(wèn)題一系統(tǒng)維護(hù)越來(lái)越困難。當(dāng)系統(tǒng)出現(xiàn)故障時(shí),面對(duì)如此龐大的電子系統(tǒng),數(shù)量眾多的系統(tǒng)板卡,成千上萬(wàn)的電子元器件,系統(tǒng)維護(hù)工程師往往要花費(fèi)大量的時(shí)間才能定位到故障點(diǎn),很多情況下,還需要借助于實(shí)驗(yàn)室分析才能定位,這浪費(fèi)了大量的時(shí)間和人力消耗,同時(shí)長(zhǎng)時(shí)間宕機(jī)也給客戶帶來(lái)了很大損失。芯片廠商和系統(tǒng)設(shè)計(jì)者都看到了這一問(wèn)題,他們通過(guò)各種方法來(lái)提高自診斷能力,減少故障定位時(shí)間,提高系統(tǒng)維護(hù)效率。一般情況下芯片會(huì)根據(jù)自身的工作狀態(tài)輸出一些狀態(tài)指示信號(hào),例如指示錯(cuò)誤的Error信號(hào),指示溫度異常的Hot信號(hào),指示電源質(zhì)量的PWRG00D等,系統(tǒng)設(shè)計(jì)者通過(guò)一定的手段收集這些狀態(tài)信號(hào)并作出診斷,指示系統(tǒng)故障,給系統(tǒng)維護(hù)者提供幫助。常規(guī)的故障診斷方法可稱之為在線故障診斷,其一般工作原理是
1、IC根據(jù)自身工作狀態(tài)驅(qū)動(dòng)工作狀態(tài)指示信號(hào),通過(guò)聲光器件(LED、數(shù)碼管、蜂鳴器等)指示其工作狀態(tài)(如PWRG00D、HOT、Error等);
2、系統(tǒng)管理單元(SMC)收集系統(tǒng)工作狀態(tài),包括鏈路狀態(tài),系統(tǒng)電源狀態(tài),系統(tǒng)溫度狀態(tài),濕度狀態(tài),內(nèi)存和CPU異常等,通過(guò)系統(tǒng)日志或者UI面板指示系統(tǒng)工作狀態(tài);
采用這種故障診斷方法,診斷比較全面,實(shí)現(xiàn)也比較簡(jiǎn)單,但是存在一個(gè)致命問(wèn)題可維護(hù)性較差,具體表現(xiàn)在
1、在線診斷方式,只能在芯片工作時(shí)才能指示異常,此時(shí)往往需要系統(tǒng)完全開(kāi)機(jī);然而,系統(tǒng)出了嚴(yán)重故障時(shí)可能已經(jīng)宕機(jī),在未排除系統(tǒng)故障的情況下,嘗試對(duì)系統(tǒng)再次開(kāi)機(jī)可能對(duì)設(shè)備造成災(zāi)難性損壞;
2、在線診斷和離線維護(hù)之間存在矛盾在對(duì)硬件故障維護(hù)更換時(shí),系統(tǒng)必須處于關(guān)機(jī)狀態(tài),然后在線診斷時(shí)系統(tǒng)又必須處于開(kāi)機(jī)狀態(tài),這就要求維護(hù)人員必須在開(kāi)機(jī)狀態(tài)下仔細(xì)記錄故障現(xiàn)象,然后再關(guān)機(jī)維護(hù)。一方面當(dāng)系統(tǒng)故障點(diǎn)較多時(shí),記錄比較麻煩,容易造成遺漏;另一方面,當(dāng)板卡需要返廠做專(zhuān)業(yè)維修時(shí),故障記錄也容易在傳遞過(guò)程中造成遺失或者混亂,
3、系統(tǒng)日志導(dǎo)出往往需要專(zhuān)業(yè)工具,另一方面,從龐雜的系統(tǒng)日志里提取所包含的故障信息需要較高的專(zhuān)業(yè)知識(shí),這會(huì)增加維護(hù)人員的工作難度,降低維護(hù)效率。為了解決在線故障診斷所帶來(lái)的不便,提高維護(hù)效率,本發(fā)明提出一種全新的故障診斷方式一離線診斷
發(fā)明內(nèi)容
本發(fā)明的技術(shù)任務(wù)是解決現(xiàn)有技術(shù)的不足,提供一種服務(wù)器故障的離線診斷方法。本發(fā)明的技術(shù)方案是按以下方式實(shí)現(xiàn)的,該一種服務(wù)器故障的離線診斷方法,其具體實(shí)現(xiàn)步驟為
a、在服務(wù)器內(nèi)設(shè)置管理卡和若干診斷板卡,在診斷板卡上設(shè)置有順序連接的電源管理模塊、離線指示模塊和偵測(cè)單元,在管理卡上設(shè)置有相互連通的BIOS和故障診斷中心,所述故障診斷中心與上述電源管理模塊、離線指示模塊和偵測(cè)模塊均連通;
b、偵測(cè)單元偵測(cè)各自的狀態(tài)信息,BIOS偵測(cè)系統(tǒng)底層錯(cuò)誤信息;
C、故障診斷中心收集上述步驟b中的狀態(tài)信息和錯(cuò)誤信息,并對(duì)系統(tǒng)各模塊狀態(tài)做出診斷;
d、故障診斷中心發(fā)送故障信息到離線指示模塊;
e、離線指示模塊存儲(chǔ)故障信息,并在用戶觸發(fā)后,指示故障模塊;
f、維護(hù)人員根據(jù)故障指示,完成系統(tǒng)維護(hù)更換。所述步驟a中板卡上的離線指示模塊是指低功耗微處理器MCU,偵測(cè)單元是指硬件監(jiān)控芯片或模數(shù)轉(zhuǎn)換器ADC ;所述管理卡上的故障診斷中心是指服務(wù)監(jiān)控芯片SMC。所述步驟b中偵測(cè)單元偵測(cè)的狀態(tài)信息包括所在板卡的電壓偵測(cè)、溫度偵測(cè)、濕度偵測(cè)和風(fēng)扇轉(zhuǎn)速偵測(cè);BI0S收集系統(tǒng)底層的錯(cuò)誤信息包括內(nèi)存錯(cuò)誤,CPU故障。所述故障診斷中心還負(fù)責(zé)完成電池電量偵測(cè),當(dāng)電量過(guò)低時(shí),會(huì)發(fā)出指示信號(hào)。所述步驟e的具體步驟為離線指示模塊接收來(lái)自故障診斷中心的故障數(shù)據(jù),并將其存儲(chǔ)在自身Flash或者EEPROM中;在收到離線指示觸發(fā)信號(hào)后,點(diǎn)亮故障模塊對(duì)應(yīng)的LED。所述電源管理模塊采用下述兩種方法中的一種進(jìn)行供電
1)系統(tǒng)在線狀態(tài)時(shí),采用系統(tǒng)電源給離線指示模塊供電,此時(shí)MCU處于一直工作狀態(tài),以便及時(shí)處理來(lái)自故障診斷中心的數(shù)據(jù),系統(tǒng)離線時(shí),切換到電池供電;
2)當(dāng)采用電池供電時(shí),MCU進(jìn)入睡眠狀態(tài),只有收到離線指示觸發(fā)信號(hào)才恢復(fù)正常工作,讀取自身存儲(chǔ)的故障信息,同時(shí)點(diǎn)亮指示燈,之后立即進(jìn)入睡眠狀態(tài)。本發(fā)明與現(xiàn)有技術(shù)相比所產(chǎn)生的有益效果是
本發(fā)明的一種服務(wù)器故障的離線診斷方法可以全面克服在線診斷方式的弊端,使得維護(hù)人員不再受限于系統(tǒng)工作狀態(tài),可以隨時(shí)隨地查看故障信息,完成高效維護(hù);由于錯(cuò)誤數(shù)據(jù)存儲(chǔ)在EEPROM或者Flash存儲(chǔ)器中,除非故障診斷中心去改寫(xiě)這些數(shù)據(jù),否則它會(huì)永遠(yuǎn)保留;離線診斷,指示方便直觀,便于快速定位,不再依賴于系統(tǒng)電源和系統(tǒng)運(yùn)行狀態(tài),因此維護(hù)人員完全可以將板卡拆卸下來(lái)再去定位,而且故障直接定位到模塊或者器件,維護(hù)人員只需按照指示去更換相應(yīng)的模塊即可,高效直觀,有效提高產(chǎn)品的市場(chǎng)競(jìng)爭(zhēng)力
附圖1是本發(fā)明的服務(wù)器構(gòu)架部分結(jié)構(gòu)示意框圖。
具體實(shí)施例方式下面結(jié)合附圖對(duì)本發(fā)明的一種服務(wù)器故障的離線診斷方法作以下詳細(xì)說(shuō)明。
如附圖1所示,現(xiàn)提供一種服務(wù)器故障的離線診斷方法,其具體實(shí)現(xiàn)步驟為
a、在服務(wù)器內(nèi)設(shè)置管理卡和若干診斷板卡,在診斷板卡上設(shè)置有順序連接的電源管理模塊、離線指示模塊和偵測(cè)單元,在管理卡上設(shè)置有相互連通的BIOS和故障診斷中心,所述故障診斷中心與上述電源管理模塊、離線指示模塊和偵測(cè)模塊均連通;
下面對(duì)上述各個(gè)模塊作詳細(xì)簡(jiǎn)介。偵測(cè)單元偵測(cè)單元用來(lái)偵測(cè)該模塊或者位置的狀態(tài),常見(jiàn)的偵測(cè)包括電壓偵測(cè)、溫度偵測(cè)、濕度偵測(cè)、風(fēng)扇轉(zhuǎn)速偵測(cè);偵測(cè)單元在系統(tǒng)中一般有模數(shù)轉(zhuǎn)換器ADC或者硬件監(jiān)控芯片 Hardware Monitor 完成。BIOS =BIOS用來(lái)收集系統(tǒng)底層的一些錯(cuò)誤信息,比如內(nèi)存錯(cuò)誤,CPU故障等。故障診斷中心故障診斷中心在系統(tǒng)中一般由服務(wù)監(jiān)控芯片SMC承擔(dān);故障診斷中心主要完成四個(gè)方面的工作①收集來(lái)自偵測(cè)單元的數(shù)據(jù);②收集來(lái)自BIOS的系統(tǒng)狀態(tài)信息(比如內(nèi)存和CPU錯(cuò)誤)根據(jù)收集到的信息對(duì)各模塊狀態(tài)作出診斷;④發(fā)送模塊錯(cuò)誤信息到離線指示模塊;另外故障診斷中心還負(fù)責(zé)完成電池電量偵測(cè),當(dāng)電量過(guò)低時(shí),會(huì)發(fā)出指示信號(hào),提醒用戶更換電池。離線指示模塊離線指示模塊接收來(lái)自故障診斷中心的故障數(shù)據(jù),并將其存儲(chǔ)在自身Flash或者EEPROM中;在收到離線指示觸發(fā)信號(hào)后,點(diǎn)亮故障模塊(如內(nèi)存、CPU、電源、風(fēng)扇等)對(duì)應(yīng)的LED,提示維護(hù)人員此模塊有故障;離線指示模塊在系統(tǒng)中通常由低功耗微處理器(MCU)完成,如MSP430系列微處理器,其待機(jī)電流非常低,因此可以采用電池供電方案;由于故障數(shù)據(jù)存儲(chǔ)在非易失存儲(chǔ)器中,因此即便系統(tǒng)關(guān)機(jī),電池耗盡,該故障信息也會(huì)被保留下來(lái),維護(hù)人員可以隨時(shí)查看。電源管理模塊為了節(jié)省電池功耗,電源管理模塊采用兩種策略來(lái)延長(zhǎng)電池壽命①離線指示模塊電源切換一系統(tǒng)在線狀態(tài)時(shí),采用系統(tǒng)電源給離線指示模塊供電,此時(shí)MCU處于一直工作狀態(tài),以便及時(shí)處理來(lái)自故障診斷中心的數(shù)據(jù),系統(tǒng)離線時(shí),切換到電池供電;@MCU低功耗切換機(jī)制當(dāng)采用電池供電時(shí),MCU進(jìn)入睡眠狀態(tài),只有收到離線指示觸發(fā)信號(hào)才恢復(fù)正常工作,讀取自身存儲(chǔ)的故障信息,同時(shí)點(diǎn)亮指示LED幾秒鐘,之后立即進(jìn)入睡眠狀態(tài);通過(guò)這兩種策略,可以最大程度延遲電池壽命。b、偵測(cè)單元偵測(cè)各自的狀態(tài)信息,BIOS偵測(cè)系統(tǒng)底層錯(cuò)誤信息。C、故障診斷中心收集上述步驟b中的狀態(tài)信息和錯(cuò)誤信息,并對(duì)系統(tǒng)各模塊狀態(tài)做出診斷。d、故障診斷中心發(fā)送故障信息到離線指示模塊。e、離線指示模塊存儲(chǔ)故障信息,并在用戶觸發(fā)后,指示故障模塊。f、維護(hù)人員根據(jù)故障指示,完成系統(tǒng)維護(hù)更換。本發(fā)明的一種服務(wù)器故障的離線診斷方法,區(qū)別于服務(wù)器故障在線診斷方法,該診斷方法的最大特點(diǎn)是在系統(tǒng)離線狀態(tài)下仍可指示故障點(diǎn),幫助系統(tǒng)維護(hù)人員迅速定位,維護(hù)更換備件,從而快速恢復(fù)系統(tǒng)正常運(yùn)作。該服務(wù)器故障的離線診斷方法主要包含以下技術(shù)點(diǎn)①故障定位②故障信息存儲(chǔ)③故障離線指示④電源管理方案。本文所闡述的服務(wù)器故障離線診斷方法適用于各種形式的服務(wù)器系統(tǒng),包括但不限于刀片服務(wù)器、機(jī)架服務(wù)器、塔式服務(wù)器,采用這種故障離線診斷方法可以提高系統(tǒng)維護(hù)人員工作效率,大幅縮短系統(tǒng)宕機(jī)時(shí)間,降低維護(hù)成本。
權(quán)利要求
1.一種服務(wù)器故障的離線診斷方法,其特征在于其具體實(shí)現(xiàn)步驟為: a、在服務(wù)器內(nèi)設(shè)置管理卡和若干診斷板卡,在診斷板卡上設(shè)置有順序連接的電源管理模塊、離線指示模塊和偵測(cè)單元,在管理卡上設(shè)置有相互連通的BIOS和故障診斷中心,所述故障診斷中心與上述電源管理模塊、離線指示模塊和偵測(cè)模塊均連通; b、偵測(cè)單元偵測(cè)各自的狀態(tài)信息,BIOS偵測(cè)系統(tǒng)底層錯(cuò)誤信息; C、故障診斷中心收集上述步驟b中的狀態(tài)信息和錯(cuò)誤信息,并對(duì)系統(tǒng)各模塊狀態(tài)做出診斷; d、故障診斷中心發(fā)送故障信息到離線指示模塊; e、離線指示模塊存儲(chǔ)故障信息,并在用戶觸發(fā)后,指示故障模塊; f、維護(hù)人員根據(jù)故障指示,完成系統(tǒng)維護(hù)更換。
2.根據(jù)權(quán)利要求1所述的一種服務(wù)器故障的離線診斷方法,其特征在于:所述步驟a中板卡上的離線指示模塊是指低功耗微處理器MCU,偵測(cè)單元是指硬件監(jiān)控芯片或模數(shù)轉(zhuǎn)換器ADC ;所述管理卡上的故障診斷中心是指服務(wù)監(jiān)控芯片SMC。
3.根據(jù)權(quán)利要求1所述的一種服務(wù)器故障的離線診斷方法,其特征在于:所述步驟b中偵測(cè)單元偵測(cè)的狀態(tài)信息包括所在板卡的電壓偵測(cè)、溫度偵測(cè)、濕度偵測(cè)和風(fēng)扇轉(zhuǎn)速偵測(cè);B10S收集系統(tǒng)底層的錯(cuò)誤信息包括內(nèi)存錯(cuò)誤,CPU故障。
4.根據(jù)權(quán)利要求1所述的一種 服務(wù)器故障的離線診斷方法,其特征在于:所述故障診斷中心還負(fù)責(zé)完成電池電量偵測(cè),當(dāng)電量過(guò)低時(shí),會(huì)發(fā)出指示信號(hào)。
5.根據(jù)權(quán)利要求1 4中任一所述的一種服務(wù)器故障的離線診斷方法,其特征在于:所述步驟e的具體步驟為:離線指示模塊接收來(lái)自故障診斷中心的故障數(shù)據(jù),并將其存儲(chǔ)在自身Flash或者EEPROM中;在收到離線指示觸發(fā)信號(hào)后,點(diǎn)亮故障模塊對(duì)應(yīng)的LED。
6.根據(jù)權(quán)利要求5所述的一種服務(wù)器故障的離線診斷方法,其特征在于:所述電源管理模塊采用下述兩種方法中的一種進(jìn)行供電: 1)系統(tǒng)在線狀態(tài)時(shí),采用系統(tǒng)電源給離線指示模塊供電,此時(shí)MCU處于一直工作狀態(tài),以便及時(shí)處理來(lái)自故障診斷中心的數(shù)據(jù),系統(tǒng)離線時(shí),切換到電池供電; 2)當(dāng)采用電池供電時(shí),MCU進(jìn)入睡眠狀態(tài),只有收到離線指示觸發(fā)信號(hào)才恢復(fù)正常工作,讀取自身存儲(chǔ)的故障信息,同時(shí)點(diǎn)亮指示燈,之后立即進(jìn)入睡眠狀態(tài)。
全文摘要
本發(fā)明提供一種服務(wù)器故障的離線診斷方法,屬于計(jì)算機(jī)技術(shù),其主要步驟包括①故障定位;②故障信息存儲(chǔ);③故障離線指示;④電源管理方案。該一種服務(wù)器故障的離線診斷方法和現(xiàn)有技術(shù)相比,在系統(tǒng)離線狀態(tài)下仍可指示故障點(diǎn),幫助系統(tǒng)維護(hù)人員迅速定位,維護(hù)更換備件,從而快速恢復(fù)系統(tǒng)正常運(yùn)作,提高系統(tǒng)維護(hù)人員工作效率,大幅縮短系統(tǒng)宕機(jī)時(shí)間,降低維護(hù)成本,提高系統(tǒng)可靠性。
文檔編號(hào)G06F11/22GK103077103SQ20131001880
公開(kāi)日2013年5月1日 申請(qǐng)日期2013年1月18日 優(yōu)先權(quán)日2013年1月18日
發(fā)明者薛廣營(yíng), 李博樂(lè) 申請(qǐng)人:浪潮電子信息產(chǎn)業(yè)股份有限公司