專利名稱:一種計(jì)算機(jī)風(fēng)扇故障容忍及處置的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,具體地說(shuō)是一種計(jì)算機(jī)風(fēng)扇故障容忍及處置的方法。
背景技術(shù):
隨著計(jì)算機(jī)事業(yè)的飛速發(fā)展,多核心處理器;大容量的內(nèi)存及存儲(chǔ)單元;高速的 IO擴(kuò)展設(shè)備,越來(lái)越廣泛的應(yīng)用于金融,軍工,科研等各各領(lǐng)域。當(dāng)然這些高科技的應(yīng)用會(huì)給計(jì)算機(jī)帶來(lái)更高的功耗,與此同時(shí)也為系統(tǒng)的散熱增加了壓力。這就要求當(dāng)前計(jì)算機(jī)的風(fēng)扇系統(tǒng)必須足夠穩(wěn)定可罪。傳統(tǒng)的計(jì)算機(jī)中,個(gè)別風(fēng)扇一旦損壞,散熱系統(tǒng)立即惡化,計(jì)算機(jī)通常會(huì)遭遇死機(jī)或shutdown ;業(yè)界也有許多高端計(jì)算機(jī)產(chǎn)品采用風(fēng)扇的冗余設(shè)計(jì),確實(shí)保障了風(fēng)扇系統(tǒng)的高可靠性,但是其缺點(diǎn)也是顯而易見(jiàn)的。首先冗余設(shè)計(jì)增加了風(fēng)扇的使用數(shù)量,提高了整機(jī)系統(tǒng)功耗,造成一定程度的能源浪費(fèi);同時(shí)也額外引入了不少噪音。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種計(jì)算機(jī)風(fēng)扇故障容忍及處置的方法。本發(fā)明的目的是按以下方式實(shí)現(xiàn)的,通過(guò)采用不同程度的故障容忍策略容忍風(fēng)扇故障,保證風(fēng)扇系統(tǒng)的可靠性;具體步驟如下
故障容忍方法監(jiān)控管理系統(tǒng)利用以下兩種方法降低處理器頻率及核心電壓;
1)是通過(guò)IPMI向計(jì)算機(jī)LegacyIO控制器下發(fā)指令,改變當(dāng)前各處理器的工作狀態(tài);
2)是直接通過(guò)GPIO的方式將處理器強(qiáng)制測(cè)試管腳設(shè)置為有效,強(qiáng)制處理器進(jìn)入最低工作頻率的測(cè)試狀態(tài);
故障容忍策略根據(jù)當(dāng)前系統(tǒng)溫度曲線狀況,利用4種循序漸進(jìn)的降頻降壓策略實(shí)現(xiàn)對(duì)風(fēng)扇故障的容忍;策略分別為1)調(diào)整單處理器工作狀態(tài);2)強(qiáng)制單處理器進(jìn)入測(cè)試模式;3)調(diào)整全部處理器工作狀態(tài);4)全部處理器進(jìn)入測(cè)試模式。當(dāng)有風(fēng)扇出現(xiàn)故障時(shí),監(jiān)控管理系統(tǒng)會(huì)立即響應(yīng),根據(jù)不同溫度情況,通過(guò)底層硬件實(shí)現(xiàn)對(duì)系統(tǒng)的局部或者全局降頻降壓,保證系統(tǒng)不會(huì)因?yàn)檫^(guò)熱而導(dǎo)致死機(jī)和shutdown, 包括I)強(qiáng)制處理器進(jìn)入最低工作頻率的測(cè)試狀態(tài);2)結(jié)合IPMI通過(guò)計(jì)算機(jī)Legacy IO控制器改變處理器工作狀態(tài)的方式,采取不同程度的故障容忍策略,實(shí)現(xiàn)對(duì)系統(tǒng)的局部或者全局降頻降壓。本發(fā)明有益效果是無(wú)需風(fēng)扇冗余設(shè)計(jì),通過(guò)采用不同程度的故障容忍策略,容忍風(fēng)扇故障,保證了風(fēng)扇系統(tǒng)可靠性,其創(chuàng)新性及可行性具有極高的商業(yè)價(jià)值。
圖I是A的發(fā)明的邏輯框圖結(jié)構(gòu)示意圖2是風(fēng)機(jī)故障溫度異常曲線圖和風(fēng)機(jī)溫度正常曲線圖。
具體實(shí)施例方式參照說(shuō)明書附圖對(duì)本發(fā)明的計(jì)算機(jī)風(fēng)扇故障容忍及處置的方法作以下詳細(xì)地說(shuō)明。圖2中實(shí)線曲線為風(fēng)機(jī)故障異常曲線;虛線是風(fēng)機(jī)正常溫度曲線。本發(fā)明的計(jì)算機(jī)風(fēng)扇故障容忍及處置的方法,包括故障容忍方法和故障容忍策略,處置步驟如下
故障容忍方法監(jiān)控管理系統(tǒng)可以利用兩種方法降低處理器頻率及核心電壓。一種是通過(guò)IPMI向計(jì)算機(jī)Legacy IO控制器下發(fā)指令,改變當(dāng)前各處理器的工作狀態(tài)(如 performance, Throttle);另一種是直接通過(guò)GPIO的方式將處理器強(qiáng)制測(cè)試管腳(如 F0RCE_PR)設(shè)置為有效,強(qiáng)制處理器進(jìn)入最低工作頻率的測(cè)試狀態(tài)。故障容忍策略根據(jù)當(dāng)前系統(tǒng)溫度曲線狀況,利用4種循序漸進(jìn)的降頻降壓策略實(shí)現(xiàn)對(duì)風(fēng)扇故障的容忍。策略分別為調(diào)整單處理器工作狀態(tài);強(qiáng)制單處理器進(jìn)入測(cè)試模式;調(diào)整全部處理器工作狀態(tài);全部處理器進(jìn)入測(cè)試模式。當(dāng)有風(fēng)扇出現(xiàn)故障時(shí),監(jiān)控管理系統(tǒng)會(huì)立即響應(yīng),根據(jù)不同溫度情況,通過(guò)底層硬件實(shí)現(xiàn)對(duì)系統(tǒng)的局部或者全局降頻降壓,保證系統(tǒng)不會(huì)因?yàn)檫^(guò)熱而導(dǎo)致死機(jī)和shutdown, 包括I)強(qiáng)制處理器進(jìn)入最低工作頻率的測(cè)試狀態(tài);2)結(jié)合IPMI通過(guò)計(jì)算機(jī)Legacy IO控制器改變處理器工作狀態(tài)的方式,采取不同程度的故障容忍策略,實(shí)現(xiàn)對(duì)系統(tǒng)的局部或者全局降頻降壓。
實(shí)施例如附圖2所示,當(dāng)個(gè)別風(fēng)扇遭遇故障時(shí),風(fēng)扇故障溫度曲線急劇攀升(圖2中的實(shí)線曲線);當(dāng)計(jì)算機(jī)系統(tǒng)中溫度最高的處理器溫度攀升至比其極限承受溫度低8° C時(shí),監(jiān)控管理系統(tǒng)采用策略I :調(diào)整單處理器工作狀態(tài)(通過(guò)IPMI向計(jì)算機(jī)Legacy IO控制器下發(fā)指令);當(dāng)溫度繼續(xù)攀升至比其極限承受溫度低5° C時(shí),監(jiān)控管理系統(tǒng)采用策略2 :通過(guò) GPIO強(qiáng)制此處理器進(jìn)入測(cè)試模式;當(dāng)溫度繼續(xù)攀升至比其極限承受溫度低3° C時(shí),監(jiān)控管理系統(tǒng)采用策略3 :調(diào)整全部處理器工作狀態(tài);如果溫度還繼續(xù)攀升,那么監(jiān)控管理系統(tǒng)立即執(zhí)行終極策略4 :通過(guò)GPIO使全部處理器進(jìn)入測(cè)試模式,將整個(gè)系統(tǒng)工作頻率及電壓降至最低,以降低系統(tǒng)散熱壓力。當(dāng)然一般情況下溫度不會(huì)攀升至觸發(fā)策略3或策略4的溫度點(diǎn)位。除說(shuō)明書所述的技術(shù)特征外,均為本專業(yè)技術(shù)人員的已知技術(shù)。
權(quán)利要求
1.一種計(jì)算機(jī)風(fēng)扇故障容忍及處置的方法,其特征在于通過(guò)采用不同程度的故障容忍策略容忍風(fēng)扇故障,保證風(fēng)扇系統(tǒng)的可靠性;具體步驟如下故障容忍方法監(jiān)控管理系統(tǒng)利用以下兩種方法降低處理器頻率及核心電壓;1)是通過(guò)IPMI向計(jì)算機(jī)LegacyIO控制器下發(fā)指令,改變當(dāng)前各處理器的工作狀態(tài);2)是直接通過(guò)GPIO的方式將處理器強(qiáng)制測(cè)試管腳設(shè)置為有效,強(qiáng)制處理器進(jìn)入最低工作頻率的測(cè)試狀態(tài);故障容忍策略根據(jù)當(dāng)前系統(tǒng)溫度曲線狀況,利用4種循序漸進(jìn)的降頻降壓策略實(shí)現(xiàn)對(duì)風(fēng)扇故障的容忍;策略分別為1)調(diào)整單處理器工作狀態(tài);2)強(qiáng)制單處理器進(jìn)入測(cè)試模式;3)調(diào)整全部處理器工作狀態(tài);4)全部處理器進(jìn)入測(cè)試模式。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于當(dāng)有風(fēng)扇出現(xiàn)故障時(shí),監(jiān)控管理系統(tǒng)會(huì)立即響應(yīng),根據(jù)不同溫度情況,通過(guò)底層硬件實(shí)現(xiàn)對(duì)系統(tǒng)的局部或者全局降頻降壓,保證系統(tǒng)不會(huì)因?yàn)檫^(guò)熱而導(dǎo)致死機(jī)和shutdown,包括1)強(qiáng)制處理器進(jìn)入最低工作頻率的測(cè)試狀態(tài);2)結(jié)合IPMI通過(guò)計(jì)算機(jī)Legacy IO控制器改變處理器工作狀態(tài)的方式,采取不同程度的故障容忍策略,實(shí)現(xiàn)對(duì)系統(tǒng)的局部或者全局降頻降壓。
全文摘要
本發(fā)明提供一種計(jì)算機(jī)風(fēng)扇故障容忍及處置的方法是通過(guò)采用不同程度的故障容忍策略容忍風(fēng)扇故障,保證風(fēng)扇系統(tǒng)的可靠性;具體步驟如下故障容忍方法監(jiān)控管理系統(tǒng)利用以下兩種方法降低處理器頻率及核心電壓;1)是通過(guò)IPMI向計(jì)算機(jī)LegacyIO控制器下發(fā)指令,改變當(dāng)前各處理器的工作狀態(tài);2)是直接通過(guò)GPIO的方式將處理器強(qiáng)制測(cè)試管腳設(shè)置為有效,強(qiáng)制處理器進(jìn)入最低工作頻率的測(cè)試狀態(tài);故障容忍策略根據(jù)當(dāng)前系統(tǒng)溫度曲線狀況,利用4種循序漸進(jìn)的降頻降壓策略實(shí)現(xiàn)對(duì)風(fēng)扇故障的容忍;策略分別為1)調(diào)整單處理器工作狀態(tài);2)強(qiáng)制單處理器進(jìn)入測(cè)試模式;3)調(diào)整全部處理器工作狀態(tài);4)全部處理器進(jìn)入測(cè)試模式。
文檔編號(hào)G06F11/00GK102609322SQ20121003325
公開(kāi)日2012年7月25日 申請(qǐng)日期2012年2月15日 優(yōu)先權(quán)日2012年2月15日
發(fā)明者李博樂(lè), 林楷智 申請(qǐng)人:浪潮電子信息產(chǎn)業(yè)股份有限公司