本發(fā)明涉及高校教學服務器系統(tǒng)領(lǐng)域。更具體地,涉及一種用于高校教學服務器故障診斷的方法及專家系統(tǒng)。
背景技術(shù):
隨著高校辦學規(guī)模的不斷擴大和學生數(shù)量的不斷增加,現(xiàn)代化的教學方式已經(jīng)離不開教學服務器的輔助。雖然近些年來云計算技術(shù)發(fā)展迅速,高校可以租用云資源作為教學服務器,但多數(shù)高校仍然選擇就近部署服務器在各子單位的機房中,用于滿足不同子單位的教學及管理需求。
服務器數(shù)量的不斷增加,給學校IT服務人員日常維護及故障排查帶來了極大的不便,主要體現(xiàn)在:
(1)IT服務人員由于不清楚出現(xiàn)故障的教學服務器的問題原因,經(jīng)常要去現(xiàn)場排查,大大延長了維修時間;
(2)由于服務器的數(shù)量很可能非常多,其地理位置分散,需要很多IT服務人員共同協(xié)作完成檢修,大大增加了人力資源成本;
(3)對于一些故障很難確定原因,對于低級別的IT服務人員根本無法判斷故障原因所在,也無法給出處理方法,而專家的數(shù)量有限,造成一些故障很難在第一時間得到解決,影響教學需要。
與現(xiàn)有的IT服務人員直接進行日常維護及故障排查不同,專家系統(tǒng)是一個智能計算機程序系統(tǒng),其內(nèi)部含有大量的某個領(lǐng)域?qū)<宜降闹R與經(jīng)驗,能夠利用人類專家的知識和解決問題的方法來處理該領(lǐng)域問題。因此,專家系統(tǒng)是一個具有大量專門知識與經(jīng)驗的程序系統(tǒng),應用人工智能技術(shù)和計算機技術(shù),根據(jù)某領(lǐng)域一個或多個專家提供的知識和經(jīng)驗,進行推理和判斷,模擬人類專家的決策過程,以便解決那些需要人類專家處理的復雜問題。簡而言之,專家系統(tǒng)是一種模擬人類專家解決領(lǐng)域問題的計算機程序系統(tǒng)。
因此,需要提供一種用于高校教學服務器故障診斷的方法及專家系統(tǒng),用于解決上述不便,及時給出故障服務器的失效原因及解決方法,降低人力資源成本,提高高校教學服務器的日常維護和故障診斷效率,滿足教學及管理需求。
技術(shù)實現(xiàn)要素:
本發(fā)明的一個目的在于提供一種用于高校教學服務器故障診斷的方法,用于高校教學服務器的故障診斷檢測與診斷。
本發(fā)明基于教學服務器集群的故障信息采集和整理,分析并建立故障診斷專家系統(tǒng),在對教學服務器集群日志故障信息分析的基礎(chǔ)上,設計生成故障樹,進一步通過故障樹知識建立專家系統(tǒng)的知識庫,并根據(jù)該知識庫進行故障診斷,用于高校教學服務器的日常維護和故障診斷,實現(xiàn)教學服務器故障診斷專家系統(tǒng)的功能。
為達到上述目的,本發(fā)明采用下述技術(shù)方案:
一種用于高校教學服務器的故障診斷方法,該方法包括以下步驟:
獲得專家知識;
基于專家知識建立故障樹;
將故障樹存儲于知識庫中;
獲取教學服務器集群的故障信息;
將故障信息存儲于輔助存儲庫中;
將故障樹與故障信息進行比對,獲得服務器故障處理辦法;
對故障處理辦法進行解釋;
輸出解釋過的故障處理辦法。
優(yōu)選地,故障樹還包括每個故障的邏輯表、條件表、結(jié)論表和數(shù)據(jù)集表,其中
邏輯表,包括邏輯推理代碼字段、邏輯名稱字段、邏輯描述字段和邏輯分類字段;
條件表,用于存放與該邏輯推理代碼相匹配的條件信息;
結(jié)論表,用于存放決策信息;
數(shù)據(jù)集表,用于保存推理過程中條件值類型、范圍和默認值信息。
進一步優(yōu)選地,步驟“將故障樹與故障信息進行比對,獲得服務器故障處理辦法”具體包括:
推理機從輔助存儲庫中讀取故障信息,并提取故障信息描述關(guān)鍵詞;
通過模糊匹配算法計算匹配相似度來區(qū)分故障信息類別,并以此建立故障類別優(yōu)先級排序;
逐一讀取知識庫中邏輯表優(yōu)先級最高的故障樹規(guī)則;
通過讀取與之關(guān)聯(lián)的條件表和數(shù)據(jù)集表中提供的條件值,與故障發(fā)生時的對應參數(shù)值進行對比,若條件滿足,則選取該故障樹規(guī)則;若條件不滿足,則進入下一個低級別優(yōu)先級故障類別中;
重復上述步驟直至找到與之匹配的故障樹規(guī)則;
讀取與該故障樹相關(guān)聯(lián)結(jié)論表中的決策信息,完成本次推理工作。
優(yōu)選地,專家知識通過人機交互模塊獲得,包括基于對教學服務器故障產(chǎn)生原因分析得出的故障樹邏輯。
優(yōu)選地,知識庫包括用于保存故障樹中的規(guī)則,每一條規(guī)則由多個IF<條件>與Then<結(jié)論>組成。
優(yōu)選地,故障信息獲取模塊實時獲取各個教學服務器集群的故障信息。
優(yōu)選地,輔助存儲庫用于保存故障信息,包括故障發(fā)生具體時間、位置、表現(xiàn)、優(yōu)先級、以及關(guān)聯(lián)信息。
優(yōu)選地,知識庫與輔助存儲庫為MySQL關(guān)系型數(shù)據(jù)庫。
本發(fā)明的另一個目的在于提供一種應用上述專家系統(tǒng)的教學服務器故障診斷的專家系統(tǒng)。
一種用于高校教學服務器故障診斷的專家系統(tǒng),該專家系統(tǒng)包括人機交互模塊、故障樹建立模塊、知識庫、故障信息獲取模塊、輔助存儲庫、推理機和解釋器;故障樹建立模塊基于通過人機交互模塊獲得的專家信息建立故障樹并存儲于知識庫中,故障信息獲取模塊用于獲得教學服務器集群的故障信息并存儲于輔助存儲庫中,解釋器通過將故障信息與故障樹進行比對得出故障處理辦法,解釋器將故障處理辦法進行解釋并通過人機交互模塊輸出。
本發(fā)明的有益效果如下:
本發(fā)明采取故障樹分析方法準確找出服務器出現(xiàn)故障原因并給出檢修方案,可用于高校教學用服務器的故障診斷及維護使用,克服了原有面臨IT服務人員短缺而無法及時做出修復的不便,大幅度降低高校教學服務器運行成本和維護費用,顯著提高服務器的穩(wěn)定性及可靠性。
附圖說明
下面結(jié)合附圖對本發(fā)明的具體實施方式作進一步詳細的說明。
圖1示出用于高校教學服務器故障診斷的專家系統(tǒng)的組成示意圖。
圖2示出用于高校教學服務器的故障診斷方法步驟圖。
圖3示出實施例中故障信息描述表。
具體實施方式
為了更清楚地說明本發(fā)明,下面結(jié)合優(yōu)選實施例和附圖對本發(fā)明做進一步的說明。附圖中相似的部件以相同的附圖標記進行表示。本領(lǐng)域技術(shù)人員應當理解,下面所具體描述的內(nèi)容是說明性的而非限制性的,不應以此限制本發(fā)明的保護范圍。
本發(fā)明基于教學服務器集群的故障信息采集和整理,分析并建立故障診斷專家系統(tǒng),在對教學服務器集群日志故障信息分析的基礎(chǔ)上,設計生成故障樹,進一步通過故障樹知識建立專家系統(tǒng)的知識庫,并根據(jù)該知識庫進行故障診斷,用于高校教學服務器的日常維護和故障診斷,實現(xiàn)教學服務器故障診斷專家系統(tǒng)的功能。
本發(fā)明中,一種用于高校教學服務器故障診斷的專家系統(tǒng),該專家系統(tǒng)包括人機交互模塊、故障樹建立模塊、知識庫、故障信息獲取模塊、輔助存儲庫、推理機和解釋器;故障樹建立模塊基于通過人機交互模塊獲得的專家信息建立故障樹并存儲于知識庫中,故障信息獲取模塊用于獲得教學服務器集群的故障信息并存儲于輔助存儲庫中,解釋器通過將故障信息與故障樹進行比對得出故障處理辦法,解釋器將故障處理辦法進行解釋并通過人機交互模塊輸出。
下面對本發(fā)明中的各模塊做進一步地解釋:人機交互模塊指人機接口,人機接口是指人與計算機之間建立聯(lián)系、交換信息的輸入/輸出設備的接口,這些設備包括鍵盤、顯示器、打印機、鼠標器等;知識庫是結(jié)構(gòu)化、易操作、易利用、全面有組織的知識集群,是針對高校教學服務器故障診斷需要,采用存儲、組織、管理和使用的互相聯(lián)系的知識片集合;輔助存儲庫為一種數(shù)據(jù)庫,數(shù)據(jù)庫(Database)是按照數(shù)據(jù)結(jié)構(gòu)來組織、存儲和管理數(shù)據(jù)的倉庫;推理機(Inference Engine)是專家系統(tǒng)中實現(xiàn)基于知識推理的部件,是基于知識的推理在計算機中的實現(xiàn),主要包括推理和控制二個方面,是知識系統(tǒng)中不可缺少的重要組成部分;解釋器(Interpreter),又譯為直譯器,是一種計算機程序,能夠把本發(fā)明中推理機產(chǎn)生的決策信息逐行直接轉(zhuǎn)譯成用戶可以識別的文本信息。
本發(fā)明中,一種用于高校教學服務器的故障診斷方法,該方法包括以下步驟:
步驟一:獲得專家知識,專家知識通過人機交互模塊獲得,包括基于對教學服務器故障產(chǎn)生原因分析得出的故障樹邏輯。
步驟二:基于專家知識建立故障樹,故障樹還包括每個故障的邏輯表、條件表、結(jié)論表和數(shù)據(jù)集表,其中邏輯表,包括邏輯推理代碼字段、邏輯名稱字段、邏輯描述字段和邏輯分類字段;條件表,用于存放與該邏輯推理代碼相匹配的條件信息;結(jié)論表,用于存放決策信息;數(shù)據(jù)集表,用于保存推理過程中條件值類型、范圍和默認值信息。
步驟三:將故障樹存儲于知識庫中,知識庫包括用于保存故障樹中的規(guī)則,每一條規(guī)則由多個IF<條件>與Then<結(jié)論>組成。
步驟四:獲取教學服務器集群的故障信息,故障信息獲取模塊實時獲取各個教學服務器集群的故障信息。
步驟五:將故障信息存儲于輔助存儲庫中,輔助存儲庫用于保存故障信息,包括故障發(fā)生具體時間、位置、表現(xiàn)、優(yōu)先級、以及關(guān)聯(lián)信息。
本發(fā)明中,知識庫與輔助存儲庫為MySQL關(guān)系型數(shù)據(jù)庫。
步驟六:將故障樹與故障信息進行比對,獲得服務器故障處理辦法,具體包括以下步驟:推理機從輔助存儲庫中讀取故障信息,并提取故障信息描述關(guān)鍵詞;通過模糊匹配方法計算匹配相似度來區(qū)分故障信息類別,并以此建立故障類別優(yōu)先級排序;逐一讀取知識庫中邏輯表優(yōu)先級最高的故障樹規(guī)則;通過讀取與之關(guān)聯(lián)的條件表和數(shù)據(jù)集表中提供的條件值,與故障發(fā)生時的對應參數(shù)值進行對比,若條件滿足,則選取該故障樹規(guī)則;若條件不滿足,則進入下一個低級別優(yōu)先級故障類別中;重復上述步驟直至找到與之匹配的故障樹規(guī)則;讀取與該故障樹相關(guān)聯(lián)結(jié)論表中的決策信息,完成本次推理工作。
步驟七:對故障處理辦法進行解釋,解釋器將處理辦法翻譯成用戶可以識別的文字信息。
步驟八:通過人機交互模塊輸出解釋過的故障處理辦法,用于幫助前端IT服務人員解決服務器故障。
本發(fā)明中,用于高校教學服務器故障診斷的方法及專家系統(tǒng),其工作方式如下:(1)、專家或IT服務人員分析服務器的故障原因,并考慮可能的故障因素,設計并生成故障樹;(2)、保存故障樹至知識庫;(3)、故障信息獲取模塊實時采集各服務器集群的故障信息;(4)、根據(jù)采集到的故障信息調(diào)用推理機結(jié)合知識庫判定產(chǎn)生故障的原因;(5)、生成故障解決方案至人機界面,供前端IT服務人員用于解決服務器故障。
下面結(jié)合一個具體實施例進行說明
如圖1所示,一種用于高校教學服務器故障診斷的專家系統(tǒng),該專家系統(tǒng)包括人機交互模塊、故障樹建立模塊、知識庫、故障信息獲取模塊、輔助存儲庫、推理機和解釋器;故障樹建立模塊基于通過人機交互模塊獲得的專家信息建立故障樹并存儲于知識庫中,故障信息獲取模塊用于獲得教學服務器集群的故障信息并存儲于輔助存儲庫中,解釋器通過將故障信息與故障樹進行比對得出故障處理辦法,解釋器將故障處理辦法進行解釋并通過人機交互模塊輸出。上述專家系統(tǒng)支持Window、Linux操作系統(tǒng),通過以太網(wǎng)與教學服務器相連接。
如圖2所示,一種用于高校教學服務器的故障診斷方法,該方法包括以下步驟:
首先專家或IT服務人員通過分析教學服務器故障產(chǎn)生原因,給出故障樹邏輯,通過故障樹建立模塊預置數(shù)據(jù)庫并保存故障樹;故障信息獲取模塊實時采集教學服務器集群中故障信息,并保存至輔助存儲庫;推理機通過輔助存儲返回的故障信息,與知識庫中存在的故障樹進行比對,獲得服務器故障處理辦法,通過解釋器模塊把處理辦法翻譯成用戶可以識別的文字信息;在推理的過程中,若遇到故障樹中某一信息缺失,則該信息可以通過詢問用戶方式獲取。
本實施例中,一個具體的故障信息描述表如圖3所示。
推理機中故障樹與故障信息比對算法描述如下:1)推理機從輔助存儲數(shù)據(jù)庫中讀取一條故障信息,并提取故障信息描述關(guān)鍵詞,通過模糊匹配方法計算匹配相似度來區(qū)分故障信息類別,并以此建立故障類別優(yōu)先級排序,如W1->W2->W3;2)根據(jù)預先設置的故障診斷程序,在優(yōu)先級高的故障類別中逐一讀取知識庫邏輯表(LogicTable)中W類別中故障樹規(guī)則,通過讀取與之關(guān)聯(lián)的條件表(ConditionTable)和數(shù)據(jù)集表(DatasetTable)中提供的條件值,并與故障發(fā)生時的對應參數(shù)值進行對比,若條件滿足,則選取故障樹規(guī)則;若條件不滿足,進入下一個低級別優(yōu)先級故障類別中,重復2)直到找到與之匹配的故障樹規(guī)則;3)讀取與該故障樹相關(guān)聯(lián)結(jié)論表(ConclusionTable)中的決策信息,完成本次推理工作。
該故障診斷的專家系統(tǒng),可單獨部署在一個的服務器上,通過局域網(wǎng)與教學服務器集群進行連接,適用于目前主流的操作系統(tǒng)(如Windows、Linux系列),實現(xiàn)跨平臺連接。知識庫與輔助存儲都采用MySQL關(guān)系型數(shù)據(jù)庫。知識庫用于保存故障樹中的所有規(guī)則,每一條規(guī)則由若干IF<條件>與Then<結(jié)論>組成。輔助存儲用于保存故障信息,包括故障發(fā)生具體時間、位置、表現(xiàn)、優(yōu)先級、以及關(guān)聯(lián)信息(包括電源、散熱空調(diào)等輔助設施狀況)。
故障樹規(guī)則設計是以處理策略的推理邏輯為基礎(chǔ),本發(fā)明設計四個基本的表結(jié)構(gòu),分別是:1)邏輯表(LogicTable),其中包含邏輯推理代碼字段(LogicID)、邏輯名稱字段(LogicName)、邏輯描述字段(LogicDescription)、邏輯分類字段(LogicClassification);2)條件表(ConditionTable)存放與該邏輯推理代碼相匹配的條件信息;3)結(jié)論表(ConclusionTable)中存放決策有關(guān)的信息;4)數(shù)據(jù)集表(DatasetTable)用于保存推理過程中條件值類型、范圍、默認值信息。四個表中都包含LogicID字段作為唯一主鍵,實現(xiàn)各表結(jié)構(gòu)之間的關(guān)聯(lián)。在實施過程中,一條故障樹規(guī)則被分解成上述4類信息,分別存放于上述四個表中。比如更換服務器電源規(guī)則存儲表示如下:LogicTable表存放ReplacePower(LogicID字段),更換服務器電源(LogicName字段);條件表中存放條件名稱(如該故障服務器的停機時間tstop、間隔停機次數(shù)ninterval);數(shù)據(jù)詞典表中提供電源故障狀態(tài)下停機時間值tz1與間隔停機次數(shù)值nz1;結(jié)論表中用于存放電源狀態(tài)結(jié)論電源工作異常pfault及處理策略建議更換電源策略tr1。高校教學服務器故障診斷專家知識庫的建立是以有經(jīng)驗的IT服務人員提供的知識為依據(jù),根據(jù)故障樹建立模塊進行提取,細分成邏輯描述,分別對應上述四個表中,形成知識庫。
以故障樹規(guī)則中電源更換邏輯舉例如下:
本發(fā)明中高校教學服務器故障診斷的方法及專家系統(tǒng),能實現(xiàn)遠程診斷高校教學服務器故障,便于IT服務人員實時準確定位故障地點,給出故障原因及維修辦法,節(jié)約了維修時間與成本。
顯然,本發(fā)明的上述實施例僅僅是為清楚地說明本發(fā)明所作的舉例,而并非是對本發(fā)明的實施方式的限定,對于所屬領(lǐng)域的普通技術(shù)人員來說,在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或變動,這里無法對所有的實施方式予以窮舉,凡是屬于本發(fā)明的技術(shù)方案所引伸出的顯而易見的變化或變動仍處于本發(fā)明的保護范圍之列。