一種信息系統(tǒng)故障自動恢復的方法及系統(tǒng)的制作方法
【技術領域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理領域,特別涉及一種信息系統(tǒng)故障自動恢復的方法及系統(tǒng)。
【背景技術】
[0002] 隨著信息技術在各行各業(yè)的普遍應用,出現(xiàn)了大量的信息系統(tǒng),有服務全球的大 型電子商務網(wǎng)站、社交媒體,有公共事業(yè)的電力、交通、天氣等領域的調(diào)度監(jiān)控指揮系統(tǒng),有 企業(yè)的營銷、財務、人力資源等管理系信息系統(tǒng)。這些信息系統(tǒng)將各類生產(chǎn)經(jīng)營和管理業(yè)務 信息化、數(shù)據(jù)化和網(wǎng)絡化的同時,數(shù)據(jù)中心不斷投入新增的設備以承載大量的信息系統(tǒng)。為 保證用戶對信息系統(tǒng)訪問的需要,普遍要求信息系統(tǒng)7X24小時不間斷地穩(wěn)定運行,系統(tǒng)出 現(xiàn)個別軟硬件的故障和問題,能夠快速處理和恢復,不影響用戶的使用,這對系統(tǒng)的容錯能 力和魯棒性提出了更高的要求。
[0003] 目前,信息系統(tǒng)普遍采用集群架構,在信息系統(tǒng)的硬件和軟件方面提供冗余配置, 當單個節(jié)點出現(xiàn)問題或故障,盡量不影響系統(tǒng)整體運行或用戶體驗。用戶和系統(tǒng)運維人員 都希望系統(tǒng)的問題和故障可以快速解決和恢復,以不影響系統(tǒng)的處理能力、性能以及用戶 的使用。
[0004] 大型數(shù)據(jù)中心部署幾十甚至幾百套信息系統(tǒng),幾萬到十幾萬臺服務器設備,人工 的問題和故障處理已經(jīng)不能滿足系統(tǒng)運行和業(yè)務使用的要求,需要信息系統(tǒng)故障和問題自 動恢復的技術方法,減少人工干預,提高信息系統(tǒng)整體的可靠性和問題故障自愈能力,提高 運維工作的自動化和智能化水平。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是提供一種信息系統(tǒng)故障自動恢復的方法及系統(tǒng),該方法能夠自動 恢復信息系統(tǒng)故障和問題,減少人工干預,提高信息系統(tǒng)整體的可靠性和問題故障自愈能 力,提高運維工作的自動化和智能化水平。
[0006] 為解決上述技術問題,本發(fā)明提供一種信息系統(tǒng)故障自動恢復的方法,包括:
[0007] 獲取信息系統(tǒng)的監(jiān)控狀態(tài)指標的數(shù)值;
[0008] 將各個所述監(jiān)控狀態(tài)指標的數(shù)值與對應的預定狀態(tài)指標范圍進行比較,并根據(jù)比 較結(jié)果確定告警信息;
[0009] 根據(jù)所述告警信息,選擇對應的BP神經(jīng)網(wǎng)絡狀態(tài)分析程序?qū)λ龈婢畔⑦M行狀 態(tài)評估;
[0010] 根據(jù)狀態(tài)評估結(jié)果,調(diào)取相應的匹配腳本,并根據(jù)所述匹配腳本執(zhí)行恢復命令。
[0011] 其中,所述根據(jù)所述告警信息,選擇對應的BP神經(jīng)網(wǎng)絡狀態(tài)分析程序?qū)λ龈婢?信息進行狀態(tài)評估,包括:
[0012] 根據(jù)所述告警信息,判斷所述告警信息是否屬于知識庫范圍;
[0013] 若屬于,則選擇與所述告警信息對應的BP神經(jīng)網(wǎng)絡狀態(tài)分析程序?qū)λ龈婢畔?進tx狀態(tài)評估。
[0014] 其中,所述根據(jù)狀態(tài)評估結(jié)果,調(diào)取相應的匹配腳本,并根據(jù)所述匹配腳本執(zhí)行恢 復命令,包括:
[0015] S3、根據(jù)狀態(tài)評估結(jié)果,調(diào)取相應的匹配腳本;
[0016] S31、判斷所述告警信息的連續(xù)處理次數(shù)是否超過對應的閾值;
[0017] S32、若未超過,則根據(jù)所述匹配腳本執(zhí)行恢復命令,并驗證所述告警信息是否恢 復;
[0018] S33、若恢復,則結(jié)束;
[0019] S34、若未恢復,則根據(jù)所述告警信息,選擇對應的BP神經(jīng)網(wǎng)絡狀態(tài)分析程序?qū)λ?述告警信息進行狀態(tài)評估,并進入S3。
[0020] 其中,還包括:
[0021 ]記錄所述信息系統(tǒng)的故障自動恢復過程日志。
[0022] 其中,還包括:
[0023] 定期根據(jù)信息系統(tǒng)故障自動恢復系統(tǒng)的日志,對BP神經(jīng)網(wǎng)絡狀態(tài)分析程序及匹配 腳本進行維護。
[0024] 本發(fā)明提供一種信息系統(tǒng)故障自動恢復的系統(tǒng),包括:
[0025] 獲取模塊,用于獲取信息系統(tǒng)的監(jiān)控狀態(tài)指標的數(shù)值;
[0026] 告警信息模塊,用于將各個所述監(jiān)控狀態(tài)指標的數(shù)值與對應的預定狀態(tài)指標范圍 進行比較,并根據(jù)比較結(jié)果確定告警信息;
[0027]狀態(tài)評估模塊,用于根據(jù)所述告警信息,選擇對應的BP神經(jīng)網(wǎng)絡狀態(tài)分析程序?qū)?所述告警信息進行狀態(tài)評估;
[0028]恢復模塊,用于根據(jù)狀態(tài)評估結(jié)果,調(diào)取相應的匹配腳本,并根據(jù)所述匹配腳本執(zhí) 行恢復命令。
[0029]其中,所述狀態(tài)評估模塊包括:
[0030] 范圍判斷單元,用于根據(jù)所述告警信息,判斷所述告警信息是否屬于知識庫范圍;
[0031] 狀態(tài)評估單元,用于若屬于,則選擇與所述告警信息對應的BP神經(jīng)網(wǎng)絡狀態(tài)分析 程序?qū)λ龈婢畔⑦M行狀態(tài)評估。
[0032]其中,所述恢復模塊包括:
[0033]調(diào)取單元,用于根據(jù)狀態(tài)評估結(jié)果,調(diào)取相應的匹配腳本;
[0034]第一判斷單元,用于判斷所述告警信息的連續(xù)處理次數(shù)是否超過對應的閾值; [0035]執(zhí)行單元,用于若未超過,則根據(jù)所述匹配腳本執(zhí)行恢復命令;
[0036]驗證單元,用于驗證所述告警信息是否恢復;
[0037]若未恢復,則觸發(fā)所述狀態(tài)評估模塊根據(jù)所述告警信息,選擇對應的BP神經(jīng)網(wǎng)絡 狀態(tài)分析程序?qū)λ龈婢畔⑦M行狀態(tài)評估。
[0038] 其中,還包括:
[0039] 日志模塊,用于記錄所述信息系統(tǒng)的故障自動恢復過程日志。
[0040] 其中,還包括:
[0041 ]維護模塊,用于定期根據(jù)信息系統(tǒng)故障自動恢復系統(tǒng)的日志,對BP神經(jīng)網(wǎng)絡狀態(tài) 分析程序及匹配腳本進行維護。
[0042]本發(fā)明所提供的信息系統(tǒng)故障自動恢復的方法及系統(tǒng),包括:獲取信息系統(tǒng)的監(jiān) 控狀態(tài)指標的數(shù)值;將各個所述監(jiān)控狀態(tài)指標的數(shù)值與對應的預定狀態(tài)指標范圍進行比 較,并根據(jù)比較結(jié)果確定告警信息;根據(jù)所述告警信息,選擇對應的BP神經(jīng)網(wǎng)絡狀態(tài)分析程 序?qū)λ龈婢畔⑦M行狀態(tài)評估;根據(jù)狀態(tài)評估結(jié)果,調(diào)取相應的匹配腳本,并根據(jù)所述匹 配腳本執(zhí)行恢復命令;該方法能夠自動恢復信息系統(tǒng)的故障和問題,減少人工干預,提高信 息系統(tǒng)整體的可靠性和問題故障自愈能力,提高運維工作的自動化和智能化水平。
【附圖說明】
[0043] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn) 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù) 提供的附圖獲得其他的附圖。
[0044] 圖1為本發(fā)明實施例所提供的信息系統(tǒng)故障自動恢復的方法的流程圖;
[0045] 圖2為本發(fā)明實施例所提供的典型信息系統(tǒng)架構示意圖;
[0046] 圖3為本發(fā)明實施例所提供的信息系統(tǒng)故障自動恢復的處理機制的示意圖;
[0047] 圖4為本發(fā)明實施例所提供的信息系統(tǒng)故障自動恢復的方法的示意圖;
[0048]圖5為本發(fā)明實施例所提供的系統(tǒng)集成的認證系統(tǒng)的結(jié)構框圖。
【具體實施方式】
[0049] 本發(fā)明的核心是提供一種信息系統(tǒng)故障自動恢復的方法及系統(tǒng),該方法能夠自動 恢復信息系統(tǒng)故障和問題,減少人工干預,提高信息系統(tǒng)整體的可靠性和問題故障自愈能 力,提高運維工作的自動化和智能化水平。
[0050] 為使本發(fā)明實施例的目的、技術方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例 中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是 本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員 在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0