本發(fā)明涉及運維服務(wù)管理技術(shù)領(lǐng)域,更為具體來說,本發(fā)明為一種運維服務(wù)管理方法及管理平臺。
背景技術(shù):
目前,隨著燃?xì)庑袠I(yè)的不斷發(fā)展,燃?xì)馄髽I(yè)的信息系統(tǒng)也越來越復(fù)雜;雖然有些燃?xì)馄髽I(yè)建立了相關(guān)的監(jiān)控和運維管理系統(tǒng),但往往是面向設(shè)備的單方面分散管理,傳統(tǒng)的管理方式存在諸多問題,主要體現(xiàn)在以下幾個方面。
一、故障處理效率低:由于傳統(tǒng)的運維服務(wù)管理方式無法直觀地反映整個企業(yè)信息系統(tǒng)的運行狀態(tài)和告警情況,直接導(dǎo)致單一問題出現(xiàn)后多處報警、多方排查等問題,而且完全依靠人工排查、人工報修及人工維護,這個過程浪費了大量人力和物力,故障處理效率非常低;嚴(yán)重影響了燃?xì)鈽I(yè)務(wù)的正常開展。
二、故障處理響應(yīng)遲:傳統(tǒng)運維管理方法只有在故障發(fā)生之后才進行維護,這種“后知后覺”的常規(guī)運維管理方案導(dǎo)致了故障報警過于滯后的問題,從而延長了故障的排除時間,更嚴(yán)重影響了燃?xì)鈽I(yè)務(wù)的正常開展。
因此,如何提高故障處理效率、提前對故障作出響應(yīng),成為了本領(lǐng)域技術(shù)人員亟待解決的技術(shù)問題和始終研究的重點。
技術(shù)實現(xiàn)要素:
為解決常規(guī)燃?xì)馄髽I(yè)運維服務(wù)管理方法存在的故障處理效率低、故障處理響應(yīng)遲等諸多問題,本發(fā)明創(chuàng)新提出了一種運維服務(wù)管理方法及管理平臺,通過本發(fā)明能夠?qū)崿F(xiàn)故障發(fā)生時進行報警和故障發(fā)生前進行預(yù)警,本發(fā)明能夠有效指導(dǎo)管理人員迅速確定故障根源并及時解決,最大程度地減少燃?xì)鈽I(yè)務(wù)的服務(wù)中斷時間,本發(fā)明還可通過綜合實時監(jiān)控展示為相關(guān)負(fù)責(zé)人提供不同的視圖,幫助其進行管理決策和運維支持工作。
為實現(xiàn)上述技術(shù)目的,本發(fā)明公開了一種運維服務(wù)管理方法,該管理方法包括如下步驟:
狀態(tài)獲取步驟,獲取以關(guān)系矩陣的形式設(shè)置的各個被監(jiān)控對象的運行狀態(tài)信息;
狀態(tài)分析步驟,自動識別所述運行狀態(tài)信息,根據(jù)識別結(jié)果判斷當(dāng)前運行狀態(tài)信息對應(yīng)的被監(jiān)控對象是否發(fā)生或可能發(fā)生故障,并在故障發(fā)生或可能發(fā)生的情況下執(zhí)行故障報警步驟;
故障報警步驟,自動判斷已發(fā)生或可能發(fā)生的故障的故障等級,根據(jù)所述故障等級所處級別發(fā)出對應(yīng)的報警信息;
故障鎖定步驟,報警信息產(chǎn)生后,利用所述故障等級和關(guān)系矩陣鎖定故障根源;
故障排除步驟,對鎖定的故障根源進行修復(fù)、排除被監(jiān)控對象已發(fā)生或可能發(fā)生的故障。
基于關(guān)系矩陣的設(shè)計,本發(fā)明將燃?xì)馄髽I(yè)下的所有相關(guān)設(shè)備進行統(tǒng)一監(jiān)控,達到從總體上管理燃?xì)馄髽I(yè)的信息系統(tǒng)的目的,避免單一問題導(dǎo)致多處報警、多處排查的問題,有效地提高了故障處理效率;基于事先預(yù)警機制,實現(xiàn)故障發(fā)生前進行報警,本發(fā)明解決了常規(guī)運維方案存在的故障處理響應(yīng)遲的問題;因此,本發(fā)明能夠達到避免燃?xì)鈽I(yè)務(wù)因故障而中斷、保護燃?xì)鈽I(yè)務(wù)的正常開展的目的。
進一步地,在所述狀態(tài)分析步驟中,包括對被監(jiān)控對象的當(dāng)前運行狀態(tài)信息和歷史運行狀態(tài)信息進行識別的步驟,通過識別被監(jiān)控對象的當(dāng)前運行狀態(tài)信息生成第一識別結(jié)果,通過識別被監(jiān)控對象的歷史運行狀態(tài)信息生成第二識別結(jié)果;通過所述第一識別結(jié)果判斷被監(jiān)控對象是否發(fā)生故障,通過所述第一識別結(jié)果和第二識別結(jié)果共同預(yù)測被監(jiān)控對象是否可能發(fā)生故障。
基于上述改進的技術(shù)方案,本發(fā)明能夠更準(zhǔn)確地判斷出被監(jiān)控對象的狀態(tài),實現(xiàn)對被監(jiān)控對象的有效預(yù)警,從而保證燃?xì)鈽I(yè)務(wù)的正常開展。
進一步地,該管理方法還包括關(guān)系構(gòu)建步驟;
所述關(guān)系構(gòu)建步驟,在狀態(tài)獲取步驟之前,通過層次分析法和/或?qū)<医?jīng)驗法的方式將所有被監(jiān)控對象劃分為相互聯(lián)系的元素,根據(jù)元素間上下層次之間的隸屬關(guān)系和同一層次兩兩元素之間的依賴關(guān)系構(gòu)建所述關(guān)系矩陣。
基于上述改進的技術(shù)方案,本發(fā)明能夠更科學(xué)、合理地對被監(jiān)控對象進行客觀劃分,不僅實現(xiàn)了對被監(jiān)控對象的全局管理,而且為故障根源的定位做了充足的準(zhǔn)備,提高了本發(fā)明故障處理的效率。
進一步地,在所述關(guān)系構(gòu)建步驟中,識別出被監(jiān)控對象的類別,根據(jù)被監(jiān)控對象的類別確定其監(jiān)控方式,所述監(jiān)控方式包括周期監(jiān)控和實時監(jiān)控。
基于分類監(jiān)控的方式,本發(fā)明能夠在保證監(jiān)控質(zhì)量的基礎(chǔ)上有效減少對平臺資源的占用,在實現(xiàn)本發(fā)明運維服務(wù)功能的基礎(chǔ)上降低資源投入,從而極大地節(jié)約成本。
進一步地,在所述狀態(tài)獲取步驟中,對發(fā)生過故障且其監(jiān)控方式為周期監(jiān)控的被監(jiān)控對象,將此被監(jiān)控對象的監(jiān)控方式調(diào)整為實時監(jiān)控。
基于上述改進的技術(shù)方案,本發(fā)明能夠更有針對性地對易發(fā)生故障的被監(jiān)控對象進行重點監(jiān)控,從而更有效地提高了本發(fā)明的預(yù)警能力和報警能力。
為實現(xiàn)上述的技術(shù)目的,本發(fā)明還公開了一種運維服務(wù)管理平臺,該管理平臺包括狀態(tài)獲取模塊、狀態(tài)分析模塊、故障報警模塊、故障鎖定模塊及故障排除模塊;
所述狀態(tài)獲取模塊,用于獲取以關(guān)系矩陣的形式設(shè)置的各個被監(jiān)控對象的運行狀態(tài)信息;
所述狀態(tài)分析模塊,用于自動識別所述運行狀態(tài)信息,根據(jù)識別結(jié)果判斷當(dāng)前運行狀態(tài)信息對應(yīng)的被監(jiān)控對象是否發(fā)生或可能發(fā)生故障,并在故障發(fā)生或可能發(fā)生的情況下通知故障報警模塊;
所述故障報警模塊,用于自動判斷已發(fā)生或可能發(fā)生的故障的故障等級,根據(jù)所述故障等級所處級別發(fā)出對應(yīng)的報警信息;
所述故障鎖定模塊,用于在報警信息產(chǎn)生后利用所述故障等級和關(guān)系矩陣鎖定故障根源;
所述故障排除模塊,用于對鎖定的故障根源進行修復(fù)、排除被監(jiān)控對象已發(fā)生或可能發(fā)生的故障。
基于關(guān)系矩陣的設(shè)計,本發(fā)明將燃?xì)馄髽I(yè)下的所有相關(guān)設(shè)備進行統(tǒng)一監(jiān)控,達到從總體上管理燃?xì)馄髽I(yè)的信息系統(tǒng)的目的,避免單一問題導(dǎo)致多處報警、多處排查的問題,有效地提高了故障處理效率;基于事先預(yù)警機制,實現(xiàn)故障發(fā)生前進行報警,本發(fā)明解決了常規(guī)運維方案存在的故障處理響應(yīng)遲的問題;因此,本發(fā)明能夠達到避免燃?xì)鈽I(yè)務(wù)因故障而中斷、保護燃?xì)鈽I(yè)務(wù)的正常開展的目的。
進一步地,所述狀態(tài)分析模塊包括第一分析單元和第二分析單元;
所述第一分析單元,用于對被監(jiān)控對象的當(dāng)前運行狀態(tài)信息進行識別,通過識別被監(jiān)控對象的當(dāng)前運行狀態(tài)信息生成第一識別結(jié)果,通過所述第一識別結(jié)果判斷被監(jiān)控對象是否發(fā)生故障;
所述第二分析單元,用于對被監(jiān)控對象的歷史運行狀態(tài)信息進行識別,通過識別被監(jiān)控對象的歷史運行狀態(tài)信息生成第二識別結(jié)果,通過所述第一識別結(jié)果和第二識別結(jié)果共同預(yù)測被監(jiān)控對象是否可能發(fā)生故障。
基于上述改進的技術(shù)方案,本發(fā)明能夠更準(zhǔn)確地判斷出被監(jiān)控對象的狀態(tài),實現(xiàn)對被監(jiān)控對象的有效預(yù)警,從而保證燃?xì)鈽I(yè)務(wù)的正常開展。
進一步地,該管理平臺還包括關(guān)系構(gòu)建模塊;
所述關(guān)系構(gòu)建模塊,用于在狀態(tài)獲取步驟之前通過層次分析法和/或?qū)<医?jīng)驗法的方式將所有被監(jiān)控對象劃分為相互聯(lián)系的元素,根據(jù)元素間上下層次之間的隸屬關(guān)系和同一層次兩兩元素之間的依賴關(guān)系構(gòu)建所述關(guān)系矩陣。
基于上述改進的技術(shù)方案,本發(fā)明能夠更科學(xué)、合理地對被監(jiān)控對象進行客觀劃分,不僅實現(xiàn)了對被監(jiān)控對象的全局管理,而且為故障根源的定位做了充足的準(zhǔn)備,提高了本發(fā)明故障處理的效率。
進一步地,所述關(guān)系構(gòu)建模塊包括監(jiān)控方式確定單元;
所述監(jiān)控方式確定單元,用于識別出被監(jiān)控對象的類別,根據(jù)被監(jiān)控對象的類別確定其監(jiān)控方式,所述監(jiān)控方式包括周期監(jiān)控和實時監(jiān)控。
基于分類監(jiān)控的方式,本發(fā)明能夠在保證監(jiān)控質(zhì)量的基礎(chǔ)上有效減少對平臺資源的占用,在實現(xiàn)本發(fā)明運維服務(wù)功能的基礎(chǔ)上降低資源投入,從而極大地節(jié)約成本。
進一步地,所述狀態(tài)獲取模塊包括監(jiān)控方式調(diào)整單元,對發(fā)生過故障且其監(jiān)控方式為周期監(jiān)控的被監(jiān)控對象,監(jiān)控方式調(diào)整單元用于將此被監(jiān)控對象的監(jiān)控方式調(diào)整為實時監(jiān)控。
基于上述改進的技術(shù)方案,本發(fā)明能夠更有針對性地對易發(fā)生故障的被監(jiān)控對象進行重點監(jiān)控,從而有效地提高了本發(fā)明的預(yù)警和報警能力。
本發(fā)明的有益效果為:本發(fā)明有效實現(xiàn)了對燃?xì)馄髽I(yè)各業(yè)務(wù)系統(tǒng)實現(xiàn)統(tǒng)一、集中、標(biāo)準(zhǔn)、規(guī)范的監(jiān)控和預(yù)警,提高了運維管理的能力和效率,提升了信息化服務(wù)水平,為燃?xì)馄髽I(yè)信息化提供穩(wěn)定、可靠的支撐和保障,為燃?xì)馄髽I(yè)的信息化發(fā)展提供詳實、準(zhǔn)確的信息化基礎(chǔ)資料。本發(fā)明還具有良好的系統(tǒng)性、先進性、開放性、實用性、經(jīng)濟性、擴展性、穩(wěn)定性及安全性等突出優(yōu)點。
本發(fā)明既可以豐富開發(fā)新業(yè)務(wù)系統(tǒng)時的非業(yè)務(wù)功能需求,使開發(fā)團隊在系統(tǒng)設(shè)計階段,把以后運維階段需要關(guān)注的監(jiān)控指標(biāo)內(nèi)嵌到應(yīng)用系統(tǒng)中,起到事前預(yù)防的作用;又可以在舊系統(tǒng)改造過程中增加指標(biāo)的監(jiān)控功能,起到事后補充完善的效果;同時,本發(fā)明對于運維管理團隊全面、有效地部署和配置各類運維監(jiān)控管理工具也起到有效的指導(dǎo)作用。
附圖說明
圖1為本發(fā)明運維服務(wù)管理方法流程示意圖。
圖2為本發(fā)明運維服務(wù)管理平臺結(jié)構(gòu)示意圖。
具體實施方式
下面結(jié)合說明書附圖對本發(fā)明進行詳細(xì)的解釋和說明。
實施例一:
如圖1所示,本發(fā)明公開了一種運維服務(wù)管理方法,該管理方法具體包括如下步驟。
關(guān)系構(gòu)建步驟,在狀態(tài)獲取步驟之前,通過層次分析法和/或?qū)<医?jīng)驗法的方式將所有被監(jiān)控對象劃分為相互聯(lián)系的元素,根據(jù)元素間上下層次之間的隸屬關(guān)系和同一層次兩兩元素之間的依賴關(guān)系構(gòu)建關(guān)系矩陣。本實施例以層次分析法(ahp)為例進行舉例說明:通過層次分析法將網(wǎng)絡(luò)、主機、中間件、數(shù)據(jù)庫、應(yīng)用等監(jiān)控對象劃分為相互聯(lián)系的各個元素,各個元素的數(shù)據(jù)顆粒度根據(jù)業(yè)務(wù)需要和實際環(huán)境而定,之后依據(jù)維護人員和技術(shù)人員經(jīng)驗比較客觀地將這些元素進行有效結(jié)合,根據(jù)上下層次之間的隸屬關(guān)系以及同一層次內(nèi)兩兩元素之間的依賴關(guān)系進行定量描述,構(gòu)建出一個關(guān)系矩陣,最后通過對所有層次內(nèi)所有元素計算相對權(quán)重的方式進行總排序。本實施例以四個層次為例進行說明:從上至下分別是應(yīng)用服務(wù)層、系統(tǒng)資源層、網(wǎng)絡(luò)服務(wù)層和基礎(chǔ)設(shè)施層,全面覆蓋應(yīng)用系統(tǒng)、數(shù)據(jù)庫、中間件、服務(wù)器、存儲、網(wǎng)絡(luò)和機房環(huán)境各個領(lǐng)域,確保任何一個領(lǐng)域出現(xiàn)風(fēng)險隱患時,運維人員均可以主動、及時地發(fā)現(xiàn)、預(yù)警、分析和處置,把風(fēng)險控制在初始狀態(tài),確保燃?xì)鈽I(yè)務(wù)連續(xù)性。在應(yīng)用服務(wù)層面上可以分為業(yè)務(wù)進程類、業(yè)務(wù)數(shù)據(jù)類、日常自動處理運行類和日志、報文類、錯誤信息類,能夠?qū)崟r反映業(yè)務(wù)應(yīng)用進程的運行狀態(tài)。其中業(yè)務(wù)進程類指標(biāo)包括業(yè)務(wù)功能隊列的使用情況、資源消耗情況;業(yè)務(wù)數(shù)據(jù)類指標(biāo)包括業(yè)務(wù)事件數(shù)、業(yè)務(wù)平均響應(yīng)時間、在線用戶數(shù);與業(yè)務(wù)相關(guān)文件類指標(biāo)包括業(yè)務(wù)報文數(shù)量、業(yè)務(wù)日志中的錯誤信息等。在系統(tǒng)資源層面可以分為數(shù)據(jù)庫類、中間件、操作系統(tǒng)類和存儲四大類。其中數(shù)據(jù)庫類的指標(biāo)可以分別反映服務(wù)器的運行狀態(tài)、實例的運行狀態(tài)、會話數(shù)、監(jiān)聽器的運行狀態(tài)。中間件類根據(jù)不同的使用特性,如業(yè)務(wù)中間件、消息中間件等,細(xì)分為tomcat、weblogic和iis三種。操作系統(tǒng)類可以按照使用環(huán)境分為windows、linux和unix三種,客觀反映各種主流操作系統(tǒng)的運行狀態(tài)。存儲系統(tǒng)類可分為光纖交換機、光纖交換機端口、存儲系統(tǒng)和光纖鏈路,客觀反映存儲系統(tǒng)端到端的運行狀況。在網(wǎng)絡(luò)層面按照管理特性可分為網(wǎng)絡(luò)或安全設(shè)備的處理器、內(nèi)存、風(fēng)扇、溫度、電源、系統(tǒng)、設(shè)備端口、運行協(xié)議等不同維度客觀反映網(wǎng)絡(luò)環(huán)境的運行情況和運行質(zhì)量。在機房基礎(chǔ)設(shè)施層面可以按照管理設(shè)備種類分為電量、ups、空調(diào)等,反映機房基礎(chǔ)設(shè)施的使用情況和運行質(zhì)量。通過標(biāo)準(zhǔn)化的數(shù)據(jù)采集接口收集整理、分類匯總和關(guān)聯(lián)分析,進行信息化統(tǒng)一運維監(jiān)控管理,實現(xiàn)了事件管理、性能管理、告警管理、故障分析等風(fēng)險處置功能。同時還能提高運維管理工作的日常監(jiān)督和及時提醒功能。為了促進監(jiān)控指標(biāo)有效落地,充分發(fā)揮監(jiān)控預(yù)警作用,需開發(fā)和運維團隊積極配合,圍繞逐步優(yōu)化和完善指標(biāo)體系開展工作,從指標(biāo)梳理、指標(biāo)設(shè)置、指標(biāo)權(quán)重計算、指標(biāo)評估、體系建立五個階段,形成持續(xù)優(yōu)化的閉環(huán)工作過程。開發(fā)和運維團隊需要根據(jù)業(yè)務(wù)特點和系統(tǒng)情況,結(jié)合實際運維工作需要,可以采用專家經(jīng)驗法,以調(diào)查問卷的方式選取相應(yīng)的監(jiān)控指標(biāo)形成特定的監(jiān)控指標(biāo)集,即所有被監(jiān)控對象的集合。
在關(guān)系構(gòu)建步驟中,還包括:識別出被監(jiān)控對象的類別,根據(jù)被監(jiān)控對象的類別確定其監(jiān)控方式,在本實施例中,監(jiān)控方式包括周期監(jiān)控和實時監(jiān)控,例如,可以對服務(wù)器進行實時監(jiān)控,對存儲器進行周期監(jiān)控等。
具體實施時,本發(fā)明可利用基于tcp/ip協(xié)議的簡單網(wǎng)絡(luò)管理協(xié)議(snmp,全稱為simplenetworkmanagementprotocol)進行信息化監(jiān)控,通過使用嵌入到設(shè)備中的代理軟件來收集網(wǎng)絡(luò)通信信息和有關(guān)設(shè)備的統(tǒng)計數(shù)據(jù),代理軟件不斷地收集統(tǒng)計數(shù)據(jù),并把這些數(shù)據(jù)記錄到管理信息庫(mib)中。其中,具體的被監(jiān)控對象可包括機房、燃?xì)饩W(wǎng)絡(luò)、服務(wù)器、存儲器、數(shù)據(jù)庫、中間元件、應(yīng)用系統(tǒng)中至少一個;比如,eam設(shè)備資產(chǎn)管理系統(tǒng)、物資管理系統(tǒng)、用戶管理系統(tǒng)、第三方繳費平臺、用戶發(fā)展管理系統(tǒng)、呼叫平臺、財務(wù)銀企互聯(lián)系統(tǒng)、協(xié)同管理平臺、人力資源管理系統(tǒng)、集團門戶網(wǎng)站等業(yè)務(wù)系統(tǒng)中的至少一個系統(tǒng);再比如,營業(yè)收費站點的接入層與匯聚層設(shè)備、鏈路、網(wǎng)絡(luò)設(shè)備;再比如,現(xiàn)有信息中心機房監(jiān)控管理軟件的集成,包括電源、空調(diào)、視頻監(jiān)控、門禁、環(huán)境溫濕度等的機房環(huán)境的監(jiān)控等;再比如,服務(wù)器和網(wǎng)絡(luò)的硬件資源、性能、帶寬、端口、進程、服務(wù)等。且本發(fā)明通過建立關(guān)系矩陣等手段消除管理對象之間的差別、數(shù)據(jù)采集手段的差別、管理軟件的差別,對各種不同數(shù)據(jù)來源實現(xiàn)統(tǒng)一管理、統(tǒng)一規(guī)范、統(tǒng)一處理、統(tǒng)一展現(xiàn)、統(tǒng)一用戶登錄以及統(tǒng)一權(quán)限控制,從而實現(xiàn)了一個貫穿整個信息化系統(tǒng)全過程且實現(xiàn)了規(guī)范化、自動化、智能化的信息化資源大運維的監(jiān)控管理。
狀態(tài)獲取步驟,獲取以關(guān)系矩陣的形式設(shè)置的各個被監(jiān)控對象的運行狀態(tài)信息;在狀態(tài)獲取步驟中,對發(fā)生過故障且其監(jiān)控方式為周期監(jiān)控的被監(jiān)控對象,將此被監(jiān)控對象的監(jiān)控方式調(diào)整為實時監(jiān)控,但是如果此監(jiān)控對象在一定時間內(nèi)再次發(fā)生故障,可以考慮采取更換元件等措施,以避免故障重復(fù)出現(xiàn),導(dǎo)致系統(tǒng)運行效率低,更換新元件后,監(jiān)控方式可以采用初始監(jiān)控方式,比如,周期監(jiān)控。
狀態(tài)分析步驟,自動識別運行狀態(tài)信息,根據(jù)識別結(jié)果判斷當(dāng)前運行狀態(tài)信息對應(yīng)的被監(jiān)控對象是否發(fā)生或可能發(fā)生故障,并在故障發(fā)生或可能發(fā)生的情況下執(zhí)行故障報警步驟;具體來說,本實施例中,在狀態(tài)分析步驟中,包括對被監(jiān)控對象的當(dāng)前運行狀態(tài)信息和歷史運行狀態(tài)信息進行識別的步驟,通過識別被監(jiān)控對象的當(dāng)前運行狀態(tài)信息生成第一識別結(jié)果,通過識別被監(jiān)控對象的歷史運行狀態(tài)信息生成第二識別結(jié)果;通過第一識別結(jié)果判斷被監(jiān)控對象是否發(fā)生故障,通過第一識別結(jié)果和第二識別結(jié)果共同預(yù)測被監(jiān)控對象是否可能發(fā)生故障。其中,具體的故障可以包括網(wǎng)絡(luò)故障、服務(wù)器故障、信息系統(tǒng)故障等。
故障報警步驟,自動判斷已發(fā)生或可能發(fā)生的故障的故障等級,根據(jù)故障等級所處級別發(fā)出對應(yīng)的報警信息;對于故障等級的劃分,本發(fā)明可采用閾值衡量的方式,將閾值分為基準(zhǔn)閾值、關(guān)注閾值和告警閾值三種;閾值的設(shè)置可遵循“基準(zhǔn)閾值<關(guān)注閾值<告警閾值”的原則;閾值的初始設(shè)置可依據(jù)系統(tǒng)的運行特性,結(jié)合維護團隊技術(shù)人員經(jīng)驗而定,在實際使用過程中,可根據(jù)指標(biāo)監(jiān)控情況進行調(diào)整。比如,當(dāng)某被監(jiān)控對象的某項閾值達到關(guān)注閾值時,則可認(rèn)為其可能發(fā)生故障;當(dāng)某被監(jiān)控對象的某項閾值達到告警閾值時,則可認(rèn)為其已經(jīng)發(fā)生故障。其中,具體的報警信息可以包括蜂鳴報警信息、網(wǎng)絡(luò)報警信息、電話報警信息等;例如,當(dāng)燃?xì)獬渲到K端發(fā)生故障時,可以先在終端平板上顯示故障;當(dāng)服務(wù)器發(fā)生故障時,可以通過網(wǎng)絡(luò)告警,例如發(fā)送警報郵件給管理員或者發(fā)出蜂鳴警報給管理員等;本發(fā)明也可以開展網(wǎng)絡(luò)、電話等方式的告警服務(wù)等。
故障鎖定步驟,報警信息產(chǎn)生后,利用故障等級和關(guān)系矩陣鎖定故障根源;具體地,根據(jù)故障等級確定導(dǎo)致當(dāng)前被監(jiān)控對象故障的目標(biāo)范圍,在該目標(biāo)范圍內(nèi)根據(jù)關(guān)系矩陣鎖定出故障根源或故障根源范圍,從而減少故障根源的查找時間,提高故障處理效率。
故障排除步驟,對鎖定的故障根源進行修復(fù)、排除被監(jiān)控對象已發(fā)生或可能發(fā)生的故障。具體實施時,如果能夠通過管理平臺自動修復(fù)的方式排除故障,則進行自動修復(fù)工作;如果不能,則通知相應(yīng)的管理人員進行手動修復(fù)。
實施例二:
如圖2所示,本實施例與實施例一具有相同的發(fā)明構(gòu)思,對應(yīng)實施例一中公開的一種運營服務(wù)管理方法,本實施例公開了一種運維服務(wù)管理平臺,該管理平臺包括關(guān)系構(gòu)建模塊、狀態(tài)獲取模塊、狀態(tài)分析模塊、故障報警模塊、故障鎖定模塊及故障排除模塊,具體內(nèi)容如下。
關(guān)系構(gòu)建模塊,用于在狀態(tài)獲取步驟之前通過層次分析法和/或?qū)<医?jīng)驗法的方式將所有被監(jiān)控對象劃分為相互聯(lián)系的元素,根據(jù)元素間上下層次之間的隸屬關(guān)系和同一層次兩兩元素之間的依賴關(guān)系構(gòu)建關(guān)系矩陣。本實施例中,關(guān)系構(gòu)建模塊包括監(jiān)控方式確定單元。具體的構(gòu)建過程參考實施例一中內(nèi)容所述。
監(jiān)控方式確定單元,用于識別出被監(jiān)控對象的類別,根據(jù)被監(jiān)控對象的類別確定其監(jiān)控方式,監(jiān)控方式包括周期監(jiān)控和實時監(jiān)控。
狀態(tài)獲取模塊,用于獲取以關(guān)系矩陣的形式設(shè)置的各個被監(jiān)控對象的運行狀態(tài)信息;本實施例中,狀態(tài)獲取模塊包括監(jiān)控方式調(diào)整單元,對發(fā)生過故障且其監(jiān)控方式為周期監(jiān)控的被監(jiān)控對象,監(jiān)控方式調(diào)整單元用于將此被監(jiān)控對象的監(jiān)控方式調(diào)整為實時監(jiān)控。
狀態(tài)分析模塊,用于自動識別運行狀態(tài)信息,根據(jù)識別結(jié)果判斷當(dāng)前運行狀態(tài)信息對應(yīng)的被監(jiān)控對象是否發(fā)生或可能發(fā)生故障,并在故障發(fā)生或可能發(fā)生的情況下通知故障報警模塊;本實施例中,狀態(tài)分析模塊包括第一分析單元和第二分析單元。
第一分析單元,用于對被監(jiān)控對象的當(dāng)前運行狀態(tài)信息進行識別,通過識別被監(jiān)控對象的當(dāng)前運行狀態(tài)信息生成第一識別結(jié)果,通過第一識別結(jié)果判斷被監(jiān)控對象是否發(fā)生故障。
第二分析單元,用于對被監(jiān)控對象的歷史運行狀態(tài)信息進行識別,通過識別被監(jiān)控對象的歷史運行狀態(tài)信息生成第二識別結(jié)果,通過第一識別結(jié)果和第二識別結(jié)果共同預(yù)測被監(jiān)控對象是否可能發(fā)生故障。
故障報警模塊,用于自動判斷已發(fā)生或可能發(fā)生的故障的故障等級,根據(jù)故障等級所處級別發(fā)出對應(yīng)的報警信息。
故障鎖定模塊,用于在報警信息產(chǎn)生后利用故障等級和關(guān)系矩陣鎖定故障根源。
故障排除模塊,用于對鎖定的故障根源進行修復(fù)、排除被監(jiān)控對象已發(fā)生或可能發(fā)生的故障。
在本發(fā)明的基礎(chǔ)上,可開發(fā)故障顯示模塊,用于顯示故障相關(guān)信息,比如,故障相關(guān)信息可包括故障的元件、故障代碼、故障對應(yīng)的解決方案、故障對應(yīng)的聯(lián)系人等信息。具體實施時,若是在管理平臺發(fā)現(xiàn)故障前人為發(fā)現(xiàn)故障,故障申報人通過故障顯示模塊的顯示信息,可以直接獲取故障解決方案信息,也可以直接聯(lián)系故障處理人,從而可以加速故障處理時間,加快信息系統(tǒng)的運行,故障報警模塊可以核實故障申報人發(fā)出的故障申報信息,并在核實通過后進行報警,使得故障管理人員可以及時發(fā)現(xiàn)故障,及時解決。
在本發(fā)明的基礎(chǔ)上,還可開發(fā)故障統(tǒng)計模塊,用于根據(jù)故障信息生成分類顯示信息,比如故障部門信息、故障崗位信息、故障處理信息、故障發(fā)生頻率信息等。通過對故障信息進行統(tǒng)計整理,可及時掌握系統(tǒng)的運行情況,對系統(tǒng)內(nèi)的運行元件有所掌握,便于及時維修更換設(shè)備。通過提供全局資源統(tǒng)計報表和運維分析報表,從各個側(cè)面、各個角度反映信息化運維工作的開展情況、人員的配置、績效情況,為運維工作質(zhì)量評估、運維人員績效考核以及下一階段運維組織改進和優(yōu)化提供科學(xué)依據(jù)。
本發(fā)明能夠?qū)崿F(xiàn)對燃?xì)庑畔⑾到y(tǒng)進行7*24小時的實時監(jiān)控,在監(jiān)測到信息系統(tǒng)內(nèi)的對象發(fā)生故障時及時報警,并可根據(jù)本發(fā)明迅速找到故障根源,以及時進行解決、最大程度減少信息化服務(wù)的中斷時間,并可以在本發(fā)明的基礎(chǔ)上進行綜合實時監(jiān)控顯示,為信息化運維管理層、支持團隊提供不同的視圖,幫助其進行管理決策和運維服務(wù)支持工作。
本發(fā)明有效地發(fā)揮了運維服務(wù)管理的預(yù)警作用,有效提升了各類運維監(jiān)控指標(biāo)的覆蓋率和完備率。在管理層面,本發(fā)明減少了管理人員花費在了解復(fù)雜、繁瑣的信息系統(tǒng)架構(gòu)和技術(shù)細(xì)節(jié)上的時間,而有更多的時間在決策上;而從服務(wù)定義、服務(wù)水平管理、服務(wù)監(jiān)控、服務(wù)診斷的角度,本發(fā)明實現(xiàn)信息系統(tǒng)實時精準(zhǔn)告警,有效減少和降低告警總體次數(shù),使管理人員隨時動態(tài)了解信息系統(tǒng)運行健康情況,從而既滿足了企業(yè)要求的服務(wù)水平、確保最佳的業(yè)務(wù)系統(tǒng)運行狀態(tài),又輔助支撐燃?xì)馄髽I(yè)的業(yè)務(wù)運營與信息化決策。
此外,術(shù)語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個該特征。在本發(fā)明的描述中,“多個”的含義是至少兩個,例如兩個,三個等,除非另有明確具體的限定。
在本說明書的描述中,參考術(shù)語“本實施例”、“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不必須針對的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任一個或多個實施例或示例中以合適的方式結(jié)合。此外,在不相互矛盾的情況下,本領(lǐng)域的技術(shù)人員可以將本說明書中描述的不同實施例或示例以及不同實施例或示例的特征進行結(jié)合和組合。
附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個實施案例的平臺的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實現(xiàn)中,方框中所標(biāo)記的功能也可以以不同于附圖中所標(biāo)記的順序發(fā)生。例如,兩個連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明實質(zhì)內(nèi)容上所作的任何修改、等同替換和簡單改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。