本發(fā)明屬于計(jì)算機(jī)故障診斷,尤其涉及基于循環(huán)神經(jīng)網(wǎng)絡(luò)的服務(wù)器硬件故障預(yù)警系統(tǒng)及方法。
背景技術(shù):
1、服務(wù)器的硬件故障是指服務(wù)器系統(tǒng)的硬件如元器件、集成電路等發(fā)生實(shí)質(zhì)性的故障。在大規(guī)模數(shù)據(jù)中心和企業(yè)級服務(wù)器環(huán)境中,硬件故障是一項(xiàng)常見而嚴(yán)重的問題。硬件故障不僅會導(dǎo)致服務(wù)器停機(jī)和數(shù)據(jù)丟失,還會造成生產(chǎn)損失和維護(hù)成本的增加。
2、現(xiàn)有的服務(wù)器硬件故障預(yù)警系統(tǒng)往往存在以下挑戰(zhàn)和限制:第一,許多預(yù)警系統(tǒng)依賴于靜態(tài)規(guī)則和預(yù)設(shè)的閾值來判斷硬件故障,缺乏對系統(tǒng)動態(tài)變化的適應(yīng)性。第二,一些預(yù)警系統(tǒng)采用簡單的算法,如閾值判斷或規(guī)則引擎,無法對復(fù)雜的故障模式和時(shí)序數(shù)據(jù)進(jìn)行有效處理。第三,服務(wù)器工作參數(shù)的時(shí)序數(shù)據(jù)通常具有復(fù)雜的特性,包括周期性變化、趨勢變化和異常突發(fā),需要更復(fù)雜的分析方法來處理。第四,預(yù)警系統(tǒng)的準(zhǔn)確性和可靠性直接影響到故障的及時(shí)發(fā)現(xiàn)和處理,簡單的算法和規(guī)則可能導(dǎo)致誤報(bào)率較高或漏報(bào)現(xiàn)象。
3、現(xiàn)有的對服務(wù)器硬件故障進(jìn)行預(yù)警的系統(tǒng)包括基于閾值的靜態(tài)規(guī)則系統(tǒng):許多預(yù)警系統(tǒng)采用固定的閾值來監(jiān)測服務(wù)器工作參數(shù),一旦超過設(shè)定的閾值就觸發(fā)預(yù)警。這種方法簡單直觀,但缺乏靈活性和適應(yīng)性,無法應(yīng)對復(fù)雜的故障模式。
4、基于統(tǒng)計(jì)模型的預(yù)測系統(tǒng):采用統(tǒng)計(jì)模型和時(shí)間序列分析方法來預(yù)測服務(wù)器工作參數(shù)的變化趨勢和異常情況。雖然這些方法能夠一定程度上提高預(yù)測的準(zhǔn)確性,但對復(fù)雜的時(shí)序數(shù)據(jù)和異常模式處理能力有限。
5、因此,現(xiàn)有的服務(wù)器硬件故障預(yù)警系統(tǒng)存在的誤報(bào)率較高或漏報(bào)現(xiàn)象,缺乏靈活性和適應(yīng)性,無法應(yīng)對復(fù)雜的故障模式,準(zhǔn)確率低是目前亟需解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供通過一個(gè)掛載一個(gè)國產(chǎn)服務(wù)器的軟件故障預(yù)診斷方法及系統(tǒng),在軟件故障出現(xiàn)之前進(jìn)行預(yù)測,提高服務(wù)器軟件診斷效率,以實(shí)現(xiàn)在軟件故障出現(xiàn)之前進(jìn)行軟件和服務(wù)器維護(hù)處理,降低軟件故障出現(xiàn)的概率。
2、第一方面,提供基于循環(huán)神經(jīng)網(wǎng)絡(luò)的服務(wù)器硬件故障預(yù)警方法,包括以下步驟:
3、s1:構(gòu)建服務(wù)器硬件故障預(yù)警模型;
4、s2:對服務(wù)器各關(guān)鍵組件的時(shí)序工作數(shù)據(jù)進(jìn)行實(shí)時(shí)采集,并對采集的時(shí)序工作數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,并輸入至服務(wù)器硬件故障預(yù)警模型進(jìn)行訓(xùn)練;
5、s3:通過服務(wù)器硬件故障預(yù)警模型提取各組件的時(shí)序工作數(shù)據(jù)的故障特征;
6、s4:對服務(wù)器硬件故障預(yù)警模型提取的各組件的時(shí)序工作數(shù)據(jù)的故障特征初始化權(quán)重和閾值;
7、s5:對各組件的時(shí)序工作數(shù)據(jù)的故障特征的權(quán)重和閾值進(jìn)行優(yōu)化;
8、s6:輸入實(shí)時(shí)工作數(shù)據(jù)至服務(wù)器硬件故障預(yù)警模型,實(shí)時(shí)輸出服務(wù)器硬件故障預(yù)測結(jié)果。
9、優(yōu)選的,在步驟s1中構(gòu)建的服務(wù)器硬件故障預(yù)警模型包括輸入層、隱藏層和輸出層,其給定序列輸入學(xué)習(xí)數(shù)據(jù)為:
10、x={x1+x2+···+xt};
11、其中,x1、x2···xt為時(shí)間序列數(shù)據(jù),t為輸入學(xué)習(xí)數(shù)據(jù)的展開長度;
12、在時(shí)間t中的循環(huán)單元的公式為:
13、st=f(w*s(t-1),u*xt);
14、其中,st為隱藏層,t為循環(huán)單元時(shí)刻;s(t-1)當(dāng)前時(shí)間的st前一個(gè)時(shí)間步的隱藏層,st需要使用前一個(gè)時(shí)間步的s(t-1),f為封裝的前饋神經(jīng)網(wǎng)絡(luò),w和u分別為s(t-1)和xt。
15、優(yōu)選的,步驟s2中的對數(shù)據(jù)進(jìn)行預(yù)處理的過程如下:
16、s21:對采集的時(shí)序工作數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗處理,清理的數(shù)據(jù)包括重復(fù)數(shù)據(jù)、無效數(shù)據(jù):
17、s22:對清洗處理后的時(shí)序工作數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)化處理;
18、s23:對數(shù)據(jù)轉(zhuǎn)化處理后的時(shí)序工作數(shù)據(jù)進(jìn)行數(shù)據(jù)歸一化處理。
19、優(yōu)選的,步驟s4中對提取的各組件的時(shí)序工作數(shù)據(jù)的故障特征初始化權(quán)重和閾值的過程即對各組件的故障特征賦予預(yù)設(shè)的初始權(quán)重和閾值。
20、優(yōu)選的,步驟s5對各組件的時(shí)序工作數(shù)據(jù)的故障特征的權(quán)重和閾值進(jìn)行優(yōu)化的具體過程如下:
21、s51:設(shè)置模型的學(xué)習(xí)率、迭代次數(shù)和誤差精度;
22、s52:初始化各故障特征的的權(quán)重和閾值;
23、s53:計(jì)算當(dāng)前時(shí)間步的隱含層的輸入和輸出;
24、s54:計(jì)算當(dāng)前時(shí)間步的輸出層的輸入和輸出;
25、s55:計(jì)算當(dāng)前時(shí)間步的全局誤差;
26、s56:基于下一個(gè)時(shí)間步,執(zhí)行步驟s53,判斷全局誤差是否小于誤差精度,若是,輸出當(dāng)前權(quán)重和閾值,若否,更新當(dāng)前權(quán)重和閾值后重新執(zhí)行步驟s53。
27、優(yōu)選的,步驟s6中的服務(wù)器硬件故障預(yù)測結(jié)果包括服務(wù)器硬件正常和服務(wù)器硬件故障,服務(wù)器硬件故障的數(shù)據(jù)包括故障類別對應(yīng)的嚴(yán)重程度,嚴(yán)重程度包括輕級、中級和重級。
28、優(yōu)選的,在步驟s5后,還要對服務(wù)器故障預(yù)測模型的預(yù)測性進(jìn)行評估,評估指標(biāo)包括故障檢測率、誤報(bào)率、虛報(bào)率和漏報(bào)率;
29、其中故障檢測率是指某一類別中預(yù)測正確的數(shù)量占同類別的總數(shù)量的比例;誤報(bào)率表示某類別故障被預(yù)測稱其他故障的數(shù)量的比例;虛報(bào)率指的是示正常樣本被診斷為某類故障的百分比;漏報(bào)率是指某類故障被診斷為無故障的百分比。
30、第二方面,提供基于循環(huán)神經(jīng)網(wǎng)絡(luò)的服務(wù)器硬件故障預(yù)警系統(tǒng),用于實(shí)現(xiàn)任意一項(xiàng)所述的基于循環(huán)神經(jīng)網(wǎng)絡(luò)的服務(wù)器硬件故障預(yù)警方法,包括數(shù)據(jù)采集模塊、模型構(gòu)建模塊、模型優(yōu)化模塊和預(yù)警模塊;
31、所述數(shù)據(jù)采集模塊,用于采集服務(wù)器各關(guān)鍵組件的時(shí)序工作數(shù)據(jù);
32、所述模型構(gòu)建模塊,用于構(gòu)建服務(wù)器硬件故障預(yù)測模型;
33、所述模型優(yōu)化模塊,用于對構(gòu)建的服務(wù)器硬件故障預(yù)測模型的各項(xiàng)參數(shù)進(jìn)行優(yōu)化;
34、所述預(yù)警模塊,用于基于服務(wù)器硬件故障預(yù)測模型輸出的服務(wù)器硬件故障預(yù)測結(jié)果,對存在硬件故障時(shí)進(jìn)行預(yù)警處理;
35、構(gòu)建的服務(wù)器硬件故障預(yù)測模型為循環(huán)神經(jīng)網(wǎng)絡(luò)模型。
36、優(yōu)選的,所述預(yù)警模塊的預(yù)警信息包括故障類型、故障的嚴(yán)重程度以及相應(yīng)的故障處理建議。
37、本發(fā)明的有益效果包括:
38、本發(fā)明提供的基于循環(huán)神經(jīng)網(wǎng)絡(luò)的服務(wù)器硬件故障預(yù)警系統(tǒng)及方法,構(gòu)建服務(wù)器硬件故障預(yù)警模型;對服務(wù)器各關(guān)鍵組件的時(shí)序工作數(shù)據(jù)進(jìn)行實(shí)時(shí)采集,并對采集的時(shí)序工作數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,輸入至服務(wù)器硬件故障預(yù)警模型進(jìn)行訓(xùn)練;提取各組件的時(shí)序工作數(shù)據(jù)的故障特征;對服務(wù)器硬件故障預(yù)警模型提取的各組件的時(shí)序工作數(shù)據(jù)的故障特征初始化權(quán)重和閾值;對各組件的時(shí)序工作數(shù)據(jù)的故障特征的權(quán)重和閾值進(jìn)行優(yōu)化;輸入實(shí)時(shí)工作數(shù)據(jù)至服務(wù)器硬件故障預(yù)警模型,實(shí)時(shí)輸出服務(wù)器硬件故障預(yù)測結(jié)果。
39、提供了更精準(zhǔn)的服務(wù)器故障預(yù)測能力,并且能夠更及時(shí)地得到硬件故障結(jié)果,具備動態(tài)適應(yīng)能力,能夠?qū)ο嚓P(guān)參數(shù)進(jìn)行動態(tài)調(diào)整,增強(qiáng)了靈活性和實(shí)用性。由于系統(tǒng)能夠?qū)崟r(shí)采集、處理和分析服務(wù)器工作參數(shù)的時(shí)序數(shù)據(jù),并通過智能算法進(jìn)行預(yù)測,能夠提供更高準(zhǔn)確性和更及時(shí)的預(yù)警通知,有效降低了誤報(bào)率和漏報(bào)率。預(yù)測結(jié)果包括故障類型、故障的嚴(yán)重程度以及相應(yīng)的故障處理建議,幫助管理員快速響應(yīng)和處理故障,提高了系統(tǒng)的可靠性和穩(wěn)定性。