數(shù)據(jù)中心故障事件管理自動(dòng)化系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種數(shù)據(jù)中心故障事件管理自動(dòng)化系統(tǒng)及方法,更具體地講,涉及一種能夠自動(dòng)管理在數(shù)據(jù)中心發(fā)生的故障事件的系統(tǒng)及方法。
【背景技術(shù)】
[0002]最近,伴隨著云環(huán)境的增長(zhǎng)勢(shì)頭,數(shù)據(jù)中心的有效的運(yùn)行管理逐漸成為非常重要的問(wèn)題?,F(xiàn)有的數(shù)據(jù)中心管理方法中的大部分依賴于過(guò)去的運(yùn)行記錄,并且由人來(lái)手動(dòng)管理數(shù)據(jù)中心的故障。在此情況下,存在無(wú)法進(jìn)行對(duì)故障事件發(fā)生的預(yù)測(cè)和實(shí)施迅速的自動(dòng)應(yīng)對(duì)及措施的問(wèn)題。此外,還存在難以進(jìn)行對(duì)過(guò)去沒有發(fā)生的新的形態(tài)的故障事件的事先準(zhǔn)備及預(yù)測(cè)的問(wèn)題。
[0003]如上所述的現(xiàn)有的代表性的故障管理系統(tǒng)中有IBM公司提出的自動(dòng)監(jiān)控分析與報(bào)告技術(shù)(Self-Monitoring Analysis and Reporting Technology:S.M.A.R.T)。S.M.A.R.T對(duì)存儲(chǔ)器的工作異常與否進(jìn)行監(jiān)控,并追蹤問(wèn)題發(fā)生原因,并提供關(guān)于今后會(huì)發(fā)生的故障的預(yù)測(cè)結(jié)果。此時(shí),被稱為預(yù)測(cè)性故障分析(Predictive Failure Analysis:PFA)的技術(shù)得到使用,PFA基于存盤(Disk)過(guò)去的數(shù)據(jù)而通過(guò)機(jī)器學(xué)習(xí)、數(shù)學(xué)建模等方法來(lái)追蹤裝備的工作異常與否(包括正常運(yùn)行監(jiān)控)及發(fā)生問(wèn)題時(shí)的關(guān)聯(lián)的潛在原因等。
[0004]這種S.M.A.R.T的問(wèn)題和局限性如下。
[0005]首先,關(guān)于故障及誤運(yùn)行的對(duì)象局限于硬盤驅(qū)動(dòng)器。由此導(dǎo)致硬盤具有的屬性(例:Read Error Rate, Reallocated Sectors Count 等)受到制約。
[0006]第二,即使基于在硬盤產(chǎn)生的各種數(shù)據(jù)采用機(jī)器學(xué)習(xí)、數(shù)學(xué)建模方法來(lái)建立預(yù)測(cè)模型,這也僅可適用于目前為止內(nèi)部所發(fā)生的誤運(yùn)行模式。因此,S.M.A.R.T基于過(guò)去的工作性能記錄數(shù)據(jù)而獲得導(dǎo)出的臨界值來(lái)工作。此外,出于這樣的原因,盡管沒有系統(tǒng)的誤運(yùn)行警告,發(fā)生硬盤故障的情況達(dá)到全體的50%。
[0007]第三,S.M.A.R.T具有如下的局限性:無(wú)法對(duì)因軟件(例如系統(tǒng)軟件、中間件應(yīng)用等)的按版本的沖突等而可能發(fā)生的系統(tǒng)停機(jī)之類的潛在故障事件進(jìn)行預(yù)測(cè)及應(yīng)對(duì)。
[0008]第四,S.M.A.R.T通過(guò)監(jiān)控告知用戶的消息僅存在兩種形態(tài)(“Device is 0K”或者“Drive is likely to fail soon,,)。
[0009]圖1示出用于S.M.A.R.T的PFA的整體結(jié)構(gòu)。
[0010]由于以上說(shuō)明的現(xiàn)有技術(shù)針對(duì)內(nèi)部發(fā)生的數(shù)據(jù)采用以機(jī)器學(xué)習(xí)、數(shù)學(xué)建模為基礎(chǔ)并基于分析模型和可視為正常運(yùn)行的臨界值而進(jìn)行監(jiān)控的方法,因此存在難以對(duì)內(nèi)部突發(fā)性的系統(tǒng)錯(cuò)誤之類的故障事件進(jìn)行預(yù)測(cè)和應(yīng)對(duì)的問(wèn)題。此外,現(xiàn)有技術(shù)存在如下的問(wèn)題:只將特定設(shè)備(即,硬盤)作為對(duì)象,因此對(duì)設(shè)置于系統(tǒng)而運(yùn)用的軟件所引起的多種形態(tài)的故障事件不存在應(yīng)對(duì)方案。此外,現(xiàn)有技術(shù)的主要作用為監(jiān)控,這會(huì)導(dǎo)致許多故障誤檢測(cè)的發(fā)生,從而引起系統(tǒng)運(yùn)行者的不必要的額外工作。
[0011]【現(xiàn)有技術(shù)文獻(xiàn)】
[0012]【專利文獻(xiàn)】
[0013]韓國(guó)公開專利第2008-0097254號(hào)(發(fā)明名稱:統(tǒng)合管理系統(tǒng)環(huán)境中的故障及性能信息綜合監(jiān)控方法及其系統(tǒng),公開日:2008年11月5日);
[0014]韓國(guó)公開專利第2010-0133168號(hào)(發(fā)明名稱:IT服務(wù)中的應(yīng)用故障分析監(jiān)視系統(tǒng)及方法,公開日:2010年12月21日);
[0015]美國(guó)公開專利第2013/0073913號(hào)(發(fā)明名稱:B2B網(wǎng)絡(luò)管理事件檢測(cè)及對(duì)應(yīng)系統(tǒng)及方法,公開日:2013年3月21日)。
【發(fā)明內(nèi)容】
[0016]本發(fā)明所要解決的技術(shù)問(wèn)題在于,提供一種能夠通過(guò)數(shù)據(jù)中心的運(yùn)行及管理自動(dòng)化來(lái)對(duì)內(nèi)部突發(fā)性的系統(tǒng)錯(cuò)誤之類的故障事件進(jìn)行預(yù)測(cè)及應(yīng)對(duì)的系統(tǒng)及方法。
[0017]用于解決所述技術(shù)問(wèn)題的根據(jù)本發(fā)明的數(shù)據(jù)中心故障事件管理自動(dòng)化系統(tǒng)包括:故障事件分析單元,通過(guò)對(duì)存儲(chǔ)于故障事件存儲(chǔ)單元的故障事件關(guān)聯(lián)資料進(jìn)行分析來(lái)生成關(guān)于各個(gè)故障事件關(guān)聯(lián)資料的概要信息,并通過(guò)分析對(duì)應(yīng)于各個(gè)故障事件關(guān)聯(lián)資料而生成的概要信息之間的關(guān)聯(lián)關(guān)系來(lái)生成應(yīng)對(duì)各個(gè)類型的故障事件的應(yīng)對(duì)方法;故障事件信息知識(shí)存儲(chǔ)單元,存儲(chǔ)通過(guò)將所述各個(gè)類型的故障事件和應(yīng)對(duì)各個(gè)類型的故障事件的應(yīng)對(duì)方法關(guān)聯(lián)起來(lái)而生成的故障事件模式;故障事件關(guān)聯(lián)措施方法存儲(chǔ)單元,存儲(chǔ)針對(duì)發(fā)生的故障事件的經(jīng)驗(yàn)證的措施方法;故障事件監(jiān)控單元,通過(guò)檢驗(yàn)服務(wù)器的狀態(tài)來(lái)感測(cè)故障事件的發(fā)生與否,并且在發(fā)生故障事件時(shí)判斷能否采取自動(dòng)措施;故障事件關(guān)聯(lián)措施方法推薦單元,針對(duì)由所述故障事件監(jiān)控單元新感測(cè)到的或者被判斷為難以通過(guò)存儲(chǔ)于所述故障事件關(guān)聯(lián)措施方法存儲(chǔ)單元的措施方法來(lái)解決的故障事件,從積累于所述故障事件信息知識(shí)存儲(chǔ)單元的信息檢索并提取與被判斷為難以解決的故障事件相關(guān)聯(lián)的信息,并基于提取的信息來(lái)生成并輸出針對(duì)被判斷為難以解決的故障事件的自動(dòng)措施方法候選群;故障事件措施單元,針對(duì)由故障事件監(jiān)控單元感測(cè)的故障事件利用積累于所述故障事件關(guān)聯(lián)措施方法存儲(chǔ)單元的措施方法來(lái)采取自動(dòng)措施。
[0018]用于解決所述技術(shù)問(wèn)題的根據(jù)本發(fā)明的數(shù)據(jù)中心故障事件管理自動(dòng)化方法包括如下步驟:(a)通過(guò)對(duì)存儲(chǔ)于故障事件存儲(chǔ)單元的故障事件關(guān)聯(lián)資料進(jìn)行分析來(lái)生成關(guān)于各個(gè)故障事件關(guān)聯(lián)資料的概要信息,并通過(guò)分析對(duì)應(yīng)于各個(gè)故障事件關(guān)聯(lián)資料而生成的概要信息之間的關(guān)聯(lián)關(guān)系來(lái)生成應(yīng)對(duì)各個(gè)類型的故障事件的應(yīng)對(duì)方法;(b)存儲(chǔ)通過(guò)將所述各個(gè)類型的故障事件和應(yīng)對(duì)各個(gè)類型的故障事件的應(yīng)對(duì)方法關(guān)聯(lián)起來(lái)而生成的故障事件模式;(C)通過(guò)檢驗(yàn)服務(wù)器的狀態(tài)來(lái)感測(cè)故障事件的發(fā)生與否,并且在發(fā)生故障事件時(shí)判斷能否采取自動(dòng)措施;(d)如果被判斷為針對(duì)發(fā)生的所述故障事件難以通過(guò)存儲(chǔ)有經(jīng)驗(yàn)證的措施方法的故障事件關(guān)聯(lián)措施方法存儲(chǔ)單元中所存儲(chǔ)的措施方法來(lái)解決,則從積累于故障事件信息知識(shí)存儲(chǔ)單元的信息檢索并提取與被判斷為難以解決的所述故障事件相關(guān)聯(lián)的信息,并基于提取的所述信息來(lái)生成并輸出針對(duì)被判斷為難以解決的所述故障事件的自動(dòng)措施方法候選群;(e)針對(duì)發(fā)生的所述故障事件利用積累于所述故障事件關(guān)聯(lián)措施方法存儲(chǔ)單元的措施方法來(lái)采取自動(dòng)措施。
[0019]基于根據(jù)本發(fā)明的數(shù)據(jù)中心故障事件管理自動(dòng)化系統(tǒng)及方法,具有如下的有益效果:能夠利用持續(xù)積累的故障事件知識(shí)來(lái)對(duì)在執(zhí)行特定的應(yīng)用時(shí)可能突然發(fā)生的故障事件、系統(tǒng)停機(jī)現(xiàn)象等系統(tǒng)軟件關(guān)聯(lián)故障事件進(jìn)行感測(cè)及應(yīng)對(duì)。此外,基于持續(xù)累積的故障事件外部信息分析結(jié)果,可以有效地阻斷過(guò)去僅發(fā)生在當(dāng)前運(yùn)行中的數(shù)據(jù)中心內(nèi)的故障事件,除此之外還可有效地阻斷可能新發(fā)生的故障事件。此外,可通過(guò)對(duì)探測(cè)的故障事件的自動(dòng)處理來(lái)從根本上減少運(yùn)行工作負(fù)荷,并且在執(zhí)行故障事件的事先感測(cè)及自動(dòng)措施之后,還可支持通過(guò)持續(xù)性的確認(rèn)的系統(tǒng)的穩(wěn)定性。
【附圖說(shuō)明】
[0020]圖1為示出用于S.M.A.R.T的PFA的整體結(jié)構(gòu)的圖。
[0021]圖2是示出針對(duì)根據(jù)本發(fā)明的數(shù)據(jù)中心故障事件管理自動(dòng)化系統(tǒng)的優(yōu)選實(shí)施例的結(jié)構(gòu)的圖。
[0022]圖3是示出從根據(jù)按故障類型的分析單元222的原始資料生成按類型的故障事件的操作的圖。
[0023]圖4是示出根據(jù)按故障類型的應(yīng)對(duì)方法分析單元224的按故障類型的應(yīng)對(duì)方法生成過(guò)程的圖。
[0024]圖5是示出在故障事件分析單元220執(zhí)行的故障事件分析及應(yīng)對(duì)方法導(dǎo)出過(guò)程的優(yōu)選實(shí)施例的流程圖。
[0025]圖6是示出原始數(shù)據(jù)及從原始數(shù)據(jù)提取的概要信息的圖。
[0026]圖7是示出利用故障事件信息概要結(jié)果來(lái)生成故障事件應(yīng)對(duì)方案的示例的圖。
[0027]圖8是示出針對(duì)基于故障事件信息來(lái)自動(dòng)管理故障事件的方法的優(yōu)選實(shí)施例的執(zhí)行過(guò)程的流程圖。
【具體實(shí)施方式】
[0028]以下,將參照附圖對(duì)根據(jù)本發(fā)明的數(shù)據(jù)中心故障事件管理自動(dòng)化系統(tǒng)及方法的優(yōu)選實(shí)施例進(jìn)行詳細(xì)說(shuō)明。
[0029]圖2是示出關(guān)于根據(jù)本發(fā)明的數(shù)據(jù)中心故障事件管理自動(dòng)化系統(tǒng)的優(yōu)選實(shí)施例的結(jié)構(gòu)的圖。
[0030]參照?qǐng)D2,根據(jù)本發(fā)明的數(shù)據(jù)中心故障事件管理自動(dòng)化系統(tǒng)的優(yōu)選實(shí)施例包括:資料收集單元210、故障事件存儲(chǔ)單元215、故障事件分析單元220、故障事件信息知識(shí)存儲(chǔ)單元225、系統(tǒng)接口單元230、故障事