一種雙重過濾的數(shù)據(jù)中心監(jiān)控系統(tǒng)故障告警方法
【專利摘要】本發(fā)明公開了一種雙重過濾的數(shù)據(jù)中心監(jiān)控系統(tǒng)故障告警方法,結(jié)合故障告警多種故障狀態(tài)、多種通知方式和多個系統(tǒng)管理員的關(guān)聯(lián)關(guān)系,采用以資源監(jiān)控模塊為基礎(chǔ),配合資源故障告警過濾器和告警通知方式過濾器的雙重過濾設(shè)計方法,實現(xiàn)以通知處理引擎為連接點的雙重過濾體系,由通知處理引擎產(chǎn)生告警通知,再通過由不同告警級別、不同告警方式及不同類型管理員構(gòu)建的立體通知策略的過濾。該一種雙重過濾的數(shù)據(jù)中心監(jiān)控系統(tǒng)故障告警方法與現(xiàn)有技術(shù)相比,實現(xiàn)以通知處理引擎為連接點的雙重過濾體系,大大提高了監(jiān)控系統(tǒng)故障告警的合理性和準(zhǔn)確性,避免了因告警產(chǎn)生不合理、通知發(fā)送不準(zhǔn)確和管理員權(quán)限分配受限制等的問題,實用性強。
【專利說明】一種雙重過濾的數(shù)據(jù)中心監(jiān)控系統(tǒng)故障告警方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)中心監(jiān)控告警【技術(shù)領(lǐng)域】,具體地說是一種實用性強、雙重過濾的數(shù)據(jù)中心監(jiān)控系統(tǒng)故障告警方法。
【背景技術(shù)】
[0002]隨著數(shù)據(jù)中心的飛速發(fā)展,現(xiàn)代化的數(shù)據(jù)中心越來越龐大、容納的設(shè)備資源越來越復(fù)雜、規(guī)模也越來越大。在數(shù)據(jù)中心的監(jiān)控過程中,當(dāng)產(chǎn)生故障告警時的通知策略則顯得尤其重要,傳統(tǒng)的故障告警方式如附圖1所示,只是單一的將某種故障告警以不同的告警方式將通知發(fā)送給所有的系統(tǒng)管理員,其告警通知的合理性和準(zhǔn)確性都存在很大的問題。例如,一個具有十萬資源的現(xiàn)代化數(shù)據(jù)中心的監(jiān)控,用傳統(tǒng)的故障告警策略進行告警通知,會將一個普通的故障告警不分級別和嚴(yán)重程度,以所能支持的幾種告警方式,同時發(fā)送給當(dāng)前可以接收通知的各種角色的管理員,浪費告警資源的同時,也不同角色管理員之間的權(quán)限分配無法真正實現(xiàn),往往造成有了故障不知道該哪些管理員去確認(rèn)、去處理,嚴(yán)重影響了監(jiān)控系統(tǒng)的可用性。以上挑戰(zhàn)為大規(guī)模數(shù)據(jù)中心的故障告警級別劃分、告警方式選擇和管理員權(quán)限分配等均帶了極大的局限性,嚴(yán)重影響大規(guī)模數(shù)據(jù)中心監(jiān)控系統(tǒng)的發(fā)展,基于此,現(xiàn)提供一種可有效解決上述難題的雙重過濾的數(shù)據(jù)中心監(jiān)控系統(tǒng)故障告警方法。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的技術(shù)任務(wù)是針對以上不足之處,提供一種實用性強、雙重過濾的數(shù)據(jù)中心監(jiān)控系統(tǒng)故障告警方法。
[0004]一種雙重過濾的數(shù)據(jù)中心監(jiān)控系統(tǒng)故障告警方法,其具體實現(xiàn)過程為:
設(shè)計資源監(jiān)控模塊、資源故障告警過濾器、告警通知方式過濾器、通知處理引擎模塊,基于上述四種模塊,其具體告警過程為:
資源監(jiān)控模塊根據(jù)監(jiān)測參數(shù),經(jīng)過細(xì)粒度的劃分,生成以監(jiān)測參數(shù)為單位的監(jiān)測項,并以此監(jiān)測項為單位進行數(shù)據(jù)采集,產(chǎn)生各自的故障告警狀態(tài)并選擇各自的告警方式;
然后,資源故障告警過濾器和告警通知方式過濾器模塊根據(jù)資源下屬各監(jiān)測項進行輪詢數(shù)據(jù)采集時的故障狀態(tài),將故障告警狀態(tài)、故障告警方式組合生成的第一層過濾器,基于該第一層過濾器產(chǎn)生的故障推送到通知處理引擎模塊進入下一層過濾;
最后,通知處理引擎模塊接收到經(jīng)過第一層過濾器過濾的故障告警,生成告警通知后,再經(jīng)由以資源故障告警狀態(tài)、故障告警方式和系統(tǒng)管理員的選擇組合為依據(jù)的第二層過濾器,將故障告警通知發(fā)送到負(fù)責(zé)處理故障的管理員處。
[0005]所述故障告警狀態(tài)包括故障恢復(fù)、一級警告、二級警告和無法連通四種,告警方式包括郵件、短信、窗口和聲音四種;
相對應(yīng)的,第一層過濾器的生成過程為:
以資源故障級別為依據(jù)的故障恢復(fù)、一級警告、二級警告和無法連通四種級別自由組合的告警策略,以告警方式為依據(jù)的郵件、短信、窗口和聲音四種告警方式自由組合的告警策略,將兩種告警策略進行組合后生成上述第一層過濾器。
[0006]所述系統(tǒng)管理員包括多種角色,該系統(tǒng)管理員包括數(shù)據(jù)庫管理員、網(wǎng)絡(luò)設(shè)備管理員和機房環(huán)境管理;相對應(yīng)的,所述第二層過濾器則以上述四種資源故障告警狀態(tài)、四種故障告警方式和多種系統(tǒng)管理員自由組合而成。本發(fā)明的一種雙重過濾的數(shù)據(jù)中心監(jiān)控系統(tǒng)故障告警方法,具有以下優(yōu)點:
該發(fā)明的一種雙重過濾的數(shù)據(jù)中心監(jiān)控系統(tǒng)故障告警方法采用資源故障告警過濾器和告警通知方式過濾器的雙重過濾器設(shè)計方法,實現(xiàn)以通知處理引擎為連接點的雙重過濾體系,大大提高了監(jiān)控系統(tǒng)故障告警的合理性和準(zhǔn)確性,避免了因告警產(chǎn)生不合理、通知發(fā)送不準(zhǔn)確和管理員權(quán)限分配受限制等的問題,實用性強,適用范圍廣泛,易于推廣。
【專利附圖】
【附圖說明】
[0007]附圖1為傳統(tǒng)的數(shù)據(jù)中心監(jiān)控系統(tǒng)故障告警策略原理示意圖。
[0008]附圖2為資源故障告警過濾器與告警通知方式過濾器原理示意圖。
[0009]附圖3為通知處理引擎模塊示意圖。
[0010]附圖4為雙重過濾的數(shù)據(jù)中心監(jiān)控系統(tǒng)故障告警策略原理示意圖。
【具體實施方式】
[0011]下面結(jié)合附圖和具體實施例對本發(fā)明作進一步說明。
[0012]本發(fā)明提出一種雙重過濾的數(shù)據(jù)中心監(jiān)控系統(tǒng)故障告警方法,該方法充分發(fā)揮雙重過濾機制在數(shù)據(jù)中心監(jiān)控系統(tǒng)故障告警時的優(yōu)勢,考慮故障告警時多種故障狀態(tài)、多種通知方式和多個系統(tǒng)管理員之間非常復(fù)雜的關(guān)聯(lián)關(guān)系的特點,采用以資源監(jiān)控模塊為基礎(chǔ),配合資源故障告警過濾器和告警通知方式過濾器的雙重過濾設(shè)計方法,實現(xiàn)以通知處理引擎為連接點的雙重過濾體系,資源發(fā)生故障時可以觸發(fā)由不同告警級別、不同告警方式組成的告警策略,經(jīng)由通知處理引擎產(chǎn)生告警通知對象,再通過由不同告警級別、不同告警方式及各種類型管理員構(gòu)建的立體通知策略的過濾,最終達到當(dāng)一個資源產(chǎn)生告警后可以迅速地、準(zhǔn)確地將告警通知發(fā)送到負(fù)責(zé)處理此故障的管理員處,從而大大提高了監(jiān)控系統(tǒng)故障告警的合理性和準(zhǔn)確性,避免了因告警產(chǎn)生不合理、通知發(fā)送不準(zhǔn)確和管理員權(quán)限分配受限制等的問題。如附圖2、圖3、圖4所示,其具體實現(xiàn)過程為:
設(shè)計資源監(jiān)控模塊、資源故障告警過濾器、告警通知方式過濾器、通知處理引擎模塊,基于上述四種模塊,其具體告警過程為:
資源監(jiān)控模塊設(shè)計按不同的監(jiān)測參數(shù),經(jīng)過細(xì)粒度的劃分,生成以每種監(jiān)測參數(shù)為單位的監(jiān)測項(如Windows操作系統(tǒng)的CPU利用率、Linux操作系統(tǒng)的CPU負(fù)載等),并以此監(jiān)測項為單位進行數(shù)據(jù)采集,產(chǎn)生各自的故障告警狀態(tài)(故障恢復(fù)、一級警告、二級警告和無法連通共四種),選擇各自的告警方式(郵件、短信、窗口和聲音共四種)。
[0013]資源故障告警過濾器和告警通知方式過濾器根據(jù)資源下屬各監(jiān)測項進行輪詢數(shù)據(jù)采集時的故障狀態(tài),設(shè)計以資源故障級別為依據(jù)的故障恢復(fù)、一級警告、二級警告和無法連通四種級別自由組合的告警策略,設(shè)計以告警方式為依據(jù)的郵件、短信、窗口和聲音四種告警方式自由組合的告警策略,并將兩種告警策略再進行組合后生成第一層過濾器,基于此將產(chǎn)生的故障告警推送到通知處理引擎模塊進入下一層過濾。
[0014]通知處理引擎模塊接收到上述的經(jīng)過第一層過濾器過濾的故障告警,啟動通知處理引擎將故障告警轉(zhuǎn)化為告警通知。告警通知生成后,開始進入第二層過濾器進行第二次過濾。其中,第二層過濾器在以四種資源故障級別為依據(jù)和以四種告警方式為依據(jù)的前提下,又增加了多種角色的系統(tǒng)管理員的選擇和組合,也就是說,第二層過濾器是由四種資源故障級別(故障恢復(fù)、一級警告、二級警告和無法連通)、四種告警方式(郵件、短信、窗口和聲音)和η種角色的系統(tǒng)管理員(如數(shù)據(jù)庫管理員、網(wǎng)絡(luò)設(shè)備管理員和機房環(huán)境管理等)自由組合而成。
[0015]實施例:
如附圖4所示,所述Windows服務(wù)器資源共設(shè)置三個監(jiān)測項,分別為服務(wù)器內(nèi)存狀態(tài)、服務(wù)器所在機房運行環(huán)境情況和服務(wù)器網(wǎng)卡狀態(tài),每個監(jiān)測項進行各自的輪詢數(shù)據(jù)采集,將采集到的數(shù)據(jù)與預(yù)設(shè)告警閥值對比后,產(chǎn)生各自的監(jiān)測狀態(tài),當(dāng)出現(xiàn)故障恢復(fù)、一級警告、二級警告或無法連通狀態(tài)時則產(chǎn)生故障告警。例如,第一種情況服務(wù)器內(nèi)存壞了,則需要通過雙重過濾的故障告警策略進行過濾,當(dāng)為一級警告或二級警告狀態(tài)的故障告警時,以郵件、短信的方式將告警通知發(fā)送給負(fù)責(zé)服務(wù)器運行的管理員;當(dāng)為無法連通狀態(tài)的故障告警時,以聲音或短信的方式將告警通知發(fā)送給負(fù)責(zé)服務(wù)器硬件維護的管理員。第二種情況服務(wù)器網(wǎng)卡出現(xiàn)故障時,當(dāng)為一級警告或二級警告狀態(tài)時,以郵件或窗口的方式將告警通知發(fā)送給負(fù)責(zé)服務(wù)器運行的管理員和負(fù)責(zé)網(wǎng)絡(luò)運行的管理員;當(dāng)為無法連通狀態(tài)時,以短信、聲音或窗口的方式將告警通知發(fā)送給負(fù)責(zé)服務(wù)器硬件維護的管理員、負(fù)責(zé)網(wǎng)絡(luò)設(shè)備維護的管理員、負(fù)責(zé)網(wǎng)絡(luò)運行的管理員等。
[0016]上述【具體實施方式】僅是本發(fā)明的具體個案,本發(fā)明的專利保護范圍包括但不限于上述【具體實施方式】,任何符合本發(fā)明的一種雙重過濾的數(shù)據(jù)中心監(jiān)控系統(tǒng)故障告警方法的權(quán)利要求書的且任何所述【技術(shù)領(lǐng)域】的普通技術(shù)人員對其所做的適當(dāng)變化或替換,皆應(yīng)落入本發(fā)明的專利保護范圍。
【權(quán)利要求】
1.一種雙重過濾的數(shù)據(jù)中心監(jiān)控系統(tǒng)故障告警方法,其特征在于,其具體實現(xiàn)過程為: 設(shè)計資源監(jiān)控模塊、資源故障告警過濾器、告警通知方式過濾器、通知處理引擎模塊,基于上述四種模塊,其具體告警過程為: 資源監(jiān)控模塊根據(jù)監(jiān)測參數(shù),經(jīng)過細(xì)粒度的劃分,生成以監(jiān)測參數(shù)為單位的監(jiān)測項,并以此監(jiān)測項為單位進行數(shù)據(jù)采集,產(chǎn)生各自的故障告警狀態(tài)并選擇各自的告警方式; 然后,資源故障告警過濾器和告警通知方式過濾器模塊根據(jù)資源下屬各監(jiān)測項進行輪詢數(shù)據(jù)采集時的故障狀態(tài),將故障告警狀態(tài)、故障告警方式組合生成的第一層過濾器,基于該第一層過濾器產(chǎn)生的故障推送到通知處理引擎模塊進入下一層過濾; 最后,通知處理引擎模塊接收到經(jīng)過第一層過濾器過濾的故障告警,生成告警通知后,再經(jīng)由以資源故障告警狀態(tài)、故障告警方式和系統(tǒng)管理員的選擇組合為依據(jù)的第二層過濾器,將故障告警通知發(fā)送到負(fù)責(zé)處理故障的管理員處。
2.根據(jù)權(quán)利要求1所述的一種雙重過濾的數(shù)據(jù)中心監(jiān)控系統(tǒng)故障告警方法,其特征在于,所述故障告警狀態(tài)包括故障恢復(fù)、一級警告、二級警告和無法連通四種,告警方式包括郵件、短?目、窗口和聲音四種; 相對應(yīng)的,第一層過濾器的生成過程為: 以資源故障級別為依據(jù)的故障恢復(fù)、一級警告、二級警告和無法連通四種級別自由組合的告警策略,以告警方式為依據(jù)的郵件、短信、窗口和聲音四種告警方式自由組合的告警策略,將兩種告警策略進行組合后生成上述第一層過濾器。
3.根據(jù)權(quán)利要求2所述的一種雙重過濾的數(shù)據(jù)中心監(jiān)控系統(tǒng)故障告警方法,其特征在于,所述系統(tǒng)管理員包括多種角色,該系統(tǒng)管理員包括數(shù)據(jù)庫管理員、網(wǎng)絡(luò)設(shè)備管理員和機房環(huán)境管理;相對應(yīng)的,所述第二層過濾器則以上述四種資源故障告警狀態(tài)、四種故障告警方式和多種系統(tǒng)管理員自由組合而成。
【文檔編號】H04L12/24GK104468224SQ201410785902
【公開日】2015年3月25日 申請日期:2014年12月18日 優(yōu)先權(quán)日:2014年12月18日
【發(fā)明者】陸峰, 劉成平, 李鋒 申請人:浪潮電子信息產(chǎn)業(yè)股份有限公司