專利名稱:一種計(jì)算機(jī)系統(tǒng)故障診斷決策及處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)故障管理領(lǐng)域,具體涉及ー種計(jì)算機(jī)系統(tǒng)故障診斷、決策計(jì)劃及處理的方法。
背景技術(shù):
在科學(xué)計(jì)算、商用服務(wù)、政府職能等領(lǐng)域,各種服務(wù)器、存儲等計(jì)算機(jī)系統(tǒng)均起著神經(jīng)樞紐的作用,一旦出現(xiàn)故障,輕則導(dǎo)致服務(wù)中斷、設(shè)備故障,重則危及到國家和人民生命和財(cái)產(chǎn)的安全。用戶在追求系統(tǒng)高性能、高容量、高密度等指標(biāo)的同時,更看重的是系統(tǒng)的可靠性和穩(wěn)定性,在此需求的推動下,各種各樣的故障管理、容錯管理技術(shù)應(yīng)運(yùn)而生。目前國際上高端計(jì)算機(jī)系統(tǒng)從底層的硬件到頂層的應(yīng)用軟件,大都采用了多種類型的故障管理技術(shù),例如HP公司的Superdome服務(wù)器和IBM的Z系列服務(wù)器,全面地采用了故障檢測與校正機(jī)制、錯誤恢復(fù)功能、硬件故障隔離等故障管理能力。然而,現(xiàn)有的故障管理方法和策略大都是靜態(tài)部署的,即一旦系統(tǒng)當(dāng)中發(fā)生了某種類型的故障,系統(tǒng)會按照ー種固定的模式進(jìn)行故障檢測、進(jìn)行故障定位、故障隔離、系統(tǒng)重構(gòu)等工作,這些策略都是在系統(tǒng)部署時就已經(jīng)確定下來的,系統(tǒng)在運(yùn)行過程中很難改變。實(shí)際上,由于高端計(jì)算機(jī)系統(tǒng)自身架構(gòu)的復(fù)雜性,加之被部署的網(wǎng)絡(luò)環(huán)境及其上運(yùn)行應(yīng)用的復(fù)雜性,隨著系統(tǒng)的運(yùn)行,系統(tǒng)中的可用資源會發(fā)生很大的變化,外部環(huán)境也會發(fā)生較復(fù)雜的變化,固定模式的故障處理策略很難滿足容錯計(jì)算機(jī)在復(fù)雜環(huán)境下的長時間運(yùn)行。因此,系統(tǒng)的故障處理策略需要能夠動態(tài)的、自適應(yīng)的變化,以盡可能適應(yīng)系統(tǒng)狀態(tài)的變化和外部環(huán)境的變化。因此,在現(xiàn)有計(jì)算機(jī)故障管理領(lǐng)域,在現(xiàn)有故障處理理論的基礎(chǔ)之上,提出一種計(jì)算機(jī)系統(tǒng)故障診斷、決策計(jì)劃及處理的方法很有必要。
發(fā)明內(nèi)容
本發(fā)明提出了一種計(jì)算機(jī)系統(tǒng)故障診斷、決策計(jì)劃及處理的方法,利用這種方法,故障管理系統(tǒng)可根據(jù)被管理計(jì)算機(jī)的配置、運(yùn)行狀態(tài)及故障癥狀,智能地對故障管理知識庫中的知識進(jìn)行自主配置和優(yōu)化,以此為基礎(chǔ)對故障進(jìn)行診斷并采用適當(dāng)?shù)牟呗赃M(jìn)行處理。本發(fā)明的目的是按以下方式實(shí)現(xiàn)的,包括故障管理系統(tǒng),該系統(tǒng)能夠根據(jù)被管理計(jì)算機(jī)的配置、運(yùn)行狀態(tài)及故障癥狀,智能地利用故障管理知識庫中的知識進(jìn)行自主配置和優(yōu)化,以此為基礎(chǔ)對故障進(jìn)行診斷并采用適當(dāng)?shù)牟呗赃M(jìn)行處理,故障管理系統(tǒng)包括故障管理知識庫(1),狀態(tài)監(jiān)視模塊(2),故障知識學(xué)習(xí)分析模塊(3),決策計(jì)劃模塊(4),故障處理模塊(5),人機(jī)接ロ(6),其中
故障管理知識庫(1),包括故障診斷知識、故障處理策略知識和故障預(yù)測知識;故障管理知識庫是實(shí)現(xiàn)該方法的基礎(chǔ); 狀態(tài)監(jiān)視模塊(2),負(fù)責(zé)對系統(tǒng)狀態(tài)進(jìn)行檢測;
故障知識學(xué)習(xí)分析模塊(3),利用故障管理知識庫中的現(xiàn)有知識和從狀態(tài)監(jiān)視模塊中收集到的狀態(tài)信息加以綜合分析,并針對分析結(jié)果對故障管理知識庫中的知識進(jìn)行重新配置和更新;故障知識學(xué)習(xí)分析模塊是實(shí)現(xiàn)該方法的核心;
決策計(jì)劃模塊(4),根據(jù)從狀態(tài)監(jiān)視模塊中收集到的狀態(tài)信息,查詢故障管理知識庫,決策針對當(dāng)前系統(tǒng)是否存在故障、該種故障應(yīng)該進(jìn)行何種處理策略進(jìn)行處理、是否需要進(jìn)行預(yù)警;
故障處理模塊(5),負(fù)責(zé)根據(jù)決策計(jì)劃模塊的決策結(jié)果進(jìn)行實(shí)際的故障處理動作,包括風(fēng)扇調(diào)速、部件隔離;
人機(jī)接ロ(6),通過該接ロ由管理員采用人工的方式對故障管理知識庫中的內(nèi)容進(jìn)行更新,或執(zhí)行特定故障處理動作,人機(jī)接ロ提供管理員與故障管理系統(tǒng)進(jìn)行交互的接ロ,作為自主計(jì)算機(jī)制的有益補(bǔ)充。所述的狀態(tài)監(jiān)視模塊采用帶外/帶內(nèi)綜合監(jiān)控方式,獲取計(jì)算機(jī)系統(tǒng)中芯片級、板卡級、系統(tǒng)級的狀態(tài)/故障信息。所述的故障知識學(xué)習(xí)分析模塊,基于故障管理知識庫中的大量歷史狀態(tài)/故障知識,利用聚類分析算法對未來故障產(chǎn)生的趨勢、針對特定故障要采取的處理策略進(jìn)行智能分析,并將分析后得出的新知識更新至故障管理知識庫中。所述的故障處理模塊,結(jié)合硬件/操作系統(tǒng)級的容錯機(jī)制,對已發(fā)生的或潛在的故障進(jìn)行處理。本發(fā)明的有益效果是可以使故障管理系統(tǒng)針對被管理計(jì)算機(jī)由于發(fā)生故障或其他導(dǎo)致系統(tǒng)資源發(fā)生動態(tài)變化的條件下,能夠根據(jù)監(jiān)測到的系統(tǒng)狀態(tài)/故障信息,智能地對故障診斷知識、故障處理策略知識和故障預(yù)測知識進(jìn)行動態(tài)配置及調(diào)整,達(dá)到自主管理、自主調(diào)整的要求?;谧灾饔?jì)算的計(jì)算機(jī)系統(tǒng)故障診斷、響應(yīng)與預(yù)警方法所具有的上述優(yōu)點(diǎn),使得其彌補(bǔ)了傳統(tǒng)故障管理系統(tǒng)中由于只能采用預(yù)定義策略進(jìn)行故障診斷和處理,可能存在的故障漏檢、故障處理策略有誤、對系統(tǒng)配置/外部環(huán)境變化適應(yīng)性差等問題。
圖I是傳統(tǒng)的基于靜態(tài)故障處理策略的計(jì)算機(jī)故障管理系統(tǒng)體系結(jié)構(gòu)示意 圖2是基于自主計(jì)算的故障診斷、響應(yīng)與預(yù)警方法的計(jì)算機(jī)故障管理系統(tǒng)體系結(jié)構(gòu)示意圖。實(shí)施方式
下面參照附圖,對本發(fā)明的內(nèi)容以ー個具體實(shí)例來描述實(shí)現(xiàn)基于自主計(jì)算的故障診斷、響應(yīng)與預(yù)警方法的計(jì)算機(jī)故障管理系統(tǒng)的過程。正如發(fā)明內(nèi)容中所描述的,本發(fā)明體系結(jié)構(gòu)(參見附圖2)主要包括故障管理知識庫(1),狀態(tài)監(jiān)視模塊(2),故障知識學(xué)習(xí)分析模塊(3),決策計(jì)劃模塊(4),故障處理模塊(5),人機(jī)接ロ(6),其中
故障管理知識庫中的內(nèi)容主要包括故障診斷知識、故障處理策略知識和故障預(yù)測知識,可采用數(shù)據(jù)倉庫的方式進(jìn)行實(shí)現(xiàn);故障管理知識庫是實(shí)現(xiàn)該方法的基礎(chǔ)。故障管理知識庫保存系統(tǒng)歷史故障診斷知識、故障處理策略知識和故障預(yù)測知識,以供故障知識學(xué)習(xí)分 析模塊進(jìn)行分析使用。其中故障診斷知識包括獲得的計(jì)算機(jī)狀態(tài)監(jiān)測數(shù)據(jù)和癥狀等,用于診斷被管理資源和外部環(huán)境的狀態(tài)/故障依據(jù);故障處理策略知識定義從狀態(tài)到動作或目標(biāo)的映射,包括通過自主計(jì)算獲得的故障處理策略及預(yù)定義策略;故障預(yù)測知識包括針對已知故障推測潛在故障的問題求解。管理員可通過人機(jī)接ロ對故障管理知識庫中的知識進(jìn)行人工更新,以作為自主計(jì)算方式的補(bǔ)充;決策計(jì)劃模塊進(jìn)行故障處理策略的依據(jù)也來自故障管理知識庫。故障知識學(xué)習(xí)分析模塊利用聚類分析算法,對故障管理知識庫中的故障診斷知識、故障處理策略知識和故障預(yù)測知識進(jìn)行數(shù)據(jù)抽取、清理、轉(zhuǎn)換、和移植,對未來故障產(chǎn)生的趨勢、針對特定故障要采取的處理策略進(jìn)行智能分析,并將分析后得出的新知識更新至故障管理知識庫中。故障知識學(xué)習(xí)分析模塊是實(shí)現(xiàn)該方法的核心。該模塊可采用如系統(tǒng)聚類法、分解法、加入法、動態(tài)聚類法、有序樣品聚類、有重疊聚類和模糊聚類等經(jīng)典聚類算法進(jìn)行實(shí)現(xiàn)。狀態(tài)監(jiān)視模塊,負(fù)責(zé)對系統(tǒng)狀態(tài)進(jìn)行檢測??赏ㄟ^如下兩種方式獲取系統(tǒng)狀態(tài)信息通過帶外硬件故障管理接ロ(如I2C/SMBUS、JTAG, GPIO等)獲取計(jì)算機(jī)系統(tǒng)中芯片級、板卡級狀態(tài)/故障信息;通過帶內(nèi)操作系統(tǒng)故障管理接ロ(如調(diào)用操作系統(tǒng)API實(shí)現(xiàn)操作系 統(tǒng)狀態(tài)/故障監(jiān)視代理)獲取操作系統(tǒng)級狀態(tài)/故障信息。決策計(jì)劃模塊,根據(jù)從狀態(tài)監(jiān)視模塊中收集到的狀態(tài)信息,查詢故障管理知識庫,決策針對當(dāng)前系統(tǒng)是否存在故障、該種故障應(yīng)該進(jìn)行何種處理策略進(jìn)行處理、是否需要進(jìn)行預(yù)警,并調(diào)用故障處理模塊執(zhí)行相應(yīng)的故障處理動作。故障處理模塊,負(fù)責(zé)根據(jù)決策計(jì)劃模塊的決策結(jié)果,執(zhí)行相應(yīng)的故障處理動作,可通過如下兩種方式進(jìn)行實(shí)現(xiàn)通過帶外硬件故障管理接ロ(如I2C/SMBUS、JTAG, GPIO等)實(shí)現(xiàn)硬件級別的故障處理機(jī)制,如風(fēng)扇調(diào)速、部件隔離等;通過帶內(nèi)操作系統(tǒng)故障管理接ロ(如調(diào)用操作系統(tǒng)API實(shí)現(xiàn)操作系統(tǒng)狀態(tài)/故障處理代理)實(shí)現(xiàn)操作系統(tǒng)級的故障處理機(jī)制,如進(jìn)程遷移、頁表重映射等。人機(jī)接ロ,通過該接ロ可由管理員采用人工的方式對故障管理知識庫中的內(nèi)容進(jìn)行更新,或執(zhí)行特定故障處理動作??刹捎枚喾N方式(如Web UI、⑶I、CLI等)進(jìn)行實(shí)現(xiàn)。
權(quán)利要求
1.一種計(jì)算機(jī)系統(tǒng)故障診斷決策及處理方法,其特征在干包括故障管理系統(tǒng),該系統(tǒng)能夠根據(jù)被管理計(jì)算機(jī)的配置、運(yùn)行狀態(tài)及故障癥狀,智能地利用故障管理知識庫中的知識進(jìn)行自主配置和優(yōu)化,以此為基礎(chǔ)對故障進(jìn)行診斷并采用適當(dāng)?shù)牟呗赃M(jìn)行處理,故障管理系統(tǒng)包括故障管理知識庫(1),狀態(tài)監(jiān)視模塊(2),故障知識學(xué)習(xí)分析模塊(3),決策計(jì)劃模塊(4),故障處理模塊(5),人機(jī)接ロ(6),其中 故障管理知識庫(1),包括故障診斷知識、故障處理策略知識和故障預(yù)測知識;故障管理知識庫是實(shí)現(xiàn)該方法的基礎(chǔ); 狀態(tài)監(jiān)視模塊(2),負(fù)責(zé)對系統(tǒng)狀態(tài)進(jìn)行檢測; 故障知識學(xué)習(xí)分析模塊(3),利用故障管理知識庫中的現(xiàn)有知識和從狀態(tài)監(jiān)視模塊中收集到的狀態(tài)信息加以綜合分析,并針對分析結(jié)果對故障管理知識庫中的知識進(jìn)行重新配置和更新;故障知識學(xué)習(xí)分析模塊是實(shí)現(xiàn)該方法的核心; 決策計(jì)劃模塊(4),根據(jù)從狀態(tài)監(jiān)視模塊中收集到的狀態(tài)信息,查詢故障管理知識庫,決策針對當(dāng)前系統(tǒng)是否存在故障、該種故障應(yīng)該進(jìn)行何種處理策略進(jìn)行處理、是否需要進(jìn)行預(yù)警; 故障處理模塊(5),負(fù)責(zé)根據(jù)決策計(jì)劃模塊的決策結(jié)果進(jìn)行實(shí)際的故障處理動作,包括風(fēng)扇調(diào)速、部件隔離; 人機(jī)接ロ(6),通過該接ロ由管理員采用人工的方式對故障管理知識庫中的內(nèi)容進(jìn)行更新,或執(zhí)行特定故障處理動作,人機(jī)接ロ提供管理員與故障管理系統(tǒng)進(jìn)行交互的接ロ,作為自主計(jì)算機(jī)制的有益補(bǔ)充。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于狀態(tài)監(jiān)視模塊采用帶外/帶內(nèi)綜合監(jiān)控方式,獲取計(jì)算機(jī)系統(tǒng)中芯片級、板卡級、系統(tǒng)級的狀態(tài)/故障信息。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,故障知識學(xué)習(xí)分析模塊,基于故障管理知識庫中的大量歷史狀態(tài)/故障知識,利用聚類分析算法對未來故障產(chǎn)生的趨勢、針對特定故障要采取的處理策略進(jìn)行智能分析,并將分析后得出的新知識更新至故障管理知識庫中。
4.根據(jù)權(quán)利要求I所述的方法,其特征在于,故障處理模塊,結(jié)合硬件/操作系統(tǒng)級的容錯機(jī)制,對已發(fā)生的或潛在的故障進(jìn)行處理。
全文摘要
本發(fā)明提供一種計(jì)算機(jī)系統(tǒng)故障診斷決策及處理方法,包括故障管理系統(tǒng),該系統(tǒng)能夠根據(jù)被管理計(jì)算機(jī)的配置、運(yùn)行狀態(tài)及故障癥狀,智能地利用故障管理知識庫中的知識進(jìn)行自主配置和優(yōu)化,以此為基礎(chǔ)對故障進(jìn)行診斷并采用適當(dāng)?shù)牟呗赃M(jìn)行處理,故障管理系統(tǒng)包括故障管理知識庫,狀態(tài)監(jiān)視模塊,故障知識學(xué)習(xí)分析模塊,決策計(jì)劃模塊,故障處理模塊,人機(jī)接口,可以使故障管理系統(tǒng)針對被管理計(jì)算機(jī)由于發(fā)生故障或其他導(dǎo)致系統(tǒng)資源發(fā)生動態(tài)變化的條件下,能夠根據(jù)監(jiān)測到的系統(tǒng)狀態(tài)/故障信息,智能地對故障診斷知識、故障處理策略知識和故障預(yù)測知識進(jìn)行動態(tài)配置及調(diào)整,達(dá)到自主管理、自主調(diào)整的要求。
文檔編號G06F11/07GK102662788SQ20121012900
公開日2012年9月12日 申請日期2012年4月28日 優(yōu)先權(quán)日2012年4月28日
發(fā)明者喬英良 申請人:浪潮電子信息產(chǎn)業(yè)股份有限公司