本發(fā)明涉及信息技術(shù)領(lǐng)域,尤其涉及一種信息技術(shù)系統(tǒng)監(jiān)控方法及裝置。
背景技術(shù):
隨著信息化的不斷發(fā)展和深入,信息技術(shù)(informationtechnology,it)系統(tǒng)功能日益強大,涉及的信息種類也日益增多,這導(dǎo)致現(xiàn)有it系統(tǒng)也逐漸復(fù)雜。為及時發(fā)現(xiàn)it系統(tǒng)故障、識別潛在風險及安全隱患,企業(yè)內(nèi)部通常設(shè)定專門的運維部門和運維人員監(jiān)管企業(yè)的it系統(tǒng),維護企業(yè)it系統(tǒng)正常、穩(wěn)定運行,保障企業(yè)業(yè)務(wù)正常開展和運營。同時,為了提高發(fā)現(xiàn)系統(tǒng)故障的及時性、系統(tǒng)維護的專業(yè)性,企業(yè)還會建立it監(jiān)控系統(tǒng)實現(xiàn)監(jiān)控手段平臺化、自動化。
現(xiàn)有的it系統(tǒng)監(jiān)控方法通常為:信息技術(shù)部門提出系統(tǒng)運行目標,運維部門將系統(tǒng)運行目標轉(zhuǎn)化為系統(tǒng)監(jiān)控指標,并在it監(jiān)控系統(tǒng)中通過定義監(jiān)控指標、設(shè)定監(jiān)控數(shù)據(jù)源、配置監(jiān)控校驗規(guī)則、部署監(jiān)控調(diào)度作業(yè)實現(xiàn)系統(tǒng)監(jiān)控,其中監(jiān)控校驗規(guī)則配置采用最小值、最大值的值域配置或采用百分比的波動配置等方式。當系統(tǒng)的某個部件運行狀況超出預(yù)設(shè)閾值時,監(jiān)控系統(tǒng)識別告警并發(fā)送相關(guān)的告警通知。這種告警識別機制通常不分系統(tǒng)運行時段,或者只能設(shè)置某幾個特定時段內(nèi)的系統(tǒng)監(jiān)控。
上述it監(jiān)控系統(tǒng)的監(jiān)控方法,存在以下問題:
第一:監(jiān)控閾值單一、監(jiān)控時段粗放,告警誤報多、處理成本高:同一個監(jiān)控指標通常只設(shè)置一個監(jiān)控閾值、且監(jiān)控閾值在所有時段都有效,如果監(jiān)控閾值設(shè)置過低會導(dǎo)致正常業(yè)務(wù)高峰期時段頻繁觸發(fā)系統(tǒng)告警、增加運維人員對異常告警識別復(fù)雜度和告警處理成本。
第二:系統(tǒng)性能波動趨勢識別低,系統(tǒng)性能風險預(yù)警能力不足:如果監(jiān)控 閾值設(shè)置過高則不能及時獲知非業(yè)務(wù)高峰期時段系統(tǒng)性能的異常波動、無法準確及時識別和預(yù)警系統(tǒng)中存在的潛在問題。it系統(tǒng)的性能峰谷隨著企業(yè)業(yè)務(wù)發(fā)展會呈現(xiàn)一定的變化,現(xiàn)有的監(jiān)控方法缺少一種系統(tǒng)峰谷波動的趨勢跟蹤。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明實施例期望提供一種信息技術(shù)系統(tǒng)監(jiān)控方法及裝置,至少部分解決監(jiān)控結(jié)果不夠精確的問題。
為達到上述目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:
本發(fā)明實施例第一方面提供一種信息技術(shù)系統(tǒng)監(jiān)控方法,所述方法包括:
收集n個監(jiān)控周期的性能數(shù)據(jù);所述n為不小于1的整數(shù);
根據(jù)所述性能數(shù)據(jù)形成性能基線;
采集監(jiān)控數(shù)據(jù)并確定所述監(jiān)控數(shù)據(jù)對應(yīng)的監(jiān)控時間;
從所述性能基線中提取對應(yīng)于所述監(jiān)控時間的基線值;
比對所述監(jiān)控數(shù)據(jù)和所述基線值,形成監(jiān)控結(jié)果。
基于上述方案,所述采集監(jiān)控數(shù)據(jù)之后,還包括:
根據(jù)所述監(jiān)控數(shù)據(jù)動態(tài)校準所述性能基線。
基于上述方案,所述采集監(jiān)控數(shù)據(jù)之后,還包括:
基于所述監(jiān)控數(shù)據(jù),判斷指定時長內(nèi)的所述性能數(shù)據(jù)的變化率是否滿足校準條件;
若所述性能數(shù)據(jù)的變化率滿足所述校準條件,根據(jù)所述監(jiān)控數(shù)據(jù)校準所述性能基線。
基于上述方案,所述根據(jù)所述監(jiān)控數(shù)據(jù)校準所述性能基線,包括:
基于所述監(jiān)控數(shù)據(jù)輸出修正建議曲線;
接收基于所述修正建議曲線形成的操作指示;
根據(jù)所述操作指示,調(diào)整所述性能基線。
基于上述方案,所述方法還包括:
在獲得校準后的性能基線后,存儲歷史版本的性能基線;
所述歷史版本的性能基線用于在預(yù)設(shè)條件下取代當前版本的性能基線提供所述基線值。
基于上述方案,所述形成監(jiān)控結(jié)果之后,還包括:
若所述監(jiān)控結(jié)果表示性能參數(shù)異常,則按照預(yù)設(shè)告警發(fā)送模板生成告警信息;
通過預(yù)設(shè)方式處理所述告警信息。
本發(fā)明實施例第二方面提供一種信息技術(shù)系統(tǒng)監(jiān)控裝置,所述裝置包括:
收集單元,用于收集n個監(jiān)控周期的性能數(shù)據(jù);所述n為不小于1的整數(shù);
形成單元,用于根據(jù)所述性能數(shù)據(jù)形成性能基線;
監(jiān)控單元,用于采集監(jiān)控數(shù)據(jù)并確定所述監(jiān)控數(shù)據(jù)對應(yīng)的監(jiān)控時間;從所述性能基線中提取對應(yīng)于所述監(jiān)控時間的基線值;比對所述監(jiān)控數(shù)據(jù)和所述基線值,形成監(jiān)控結(jié)果。
基于上述方案,所述裝置還包括:
校準單元,用于在所述采集監(jiān)控數(shù)據(jù)之后,根據(jù)所述監(jiān)控數(shù)據(jù)校準所述性能基線。
基于上述方案,所述校準單元,具體用于基于所述監(jiān)控數(shù)據(jù),判斷指定時長內(nèi)的所述性能數(shù)據(jù)的變化率是否滿足校準條件;若所述性能數(shù)據(jù)的變化率滿足所述校準條件,基于所述監(jiān)控數(shù)據(jù)校準所述性能基線。
基于上述方案,所述校準單元,還具體用于基于所述監(jiān)控數(shù)據(jù)輸出修正建議曲線;接收基于所述修正建議曲線形成的操作指示;根據(jù)所述操作指示,調(diào)整所述性能基線。
基于上述方案,所述裝置還包括:
存儲單元,用于在獲得校準后的性能基線后,存儲歷史版本的性能基線;
所述歷史版本的性能基線用于在預(yù)設(shè)條件下取代當前版本的性能基線提供所述基線值。
基于上述方案,所述裝置還包括:
告警單元,用于在所述形成監(jiān)控結(jié)果之后,若所述監(jiān)控結(jié)果表示性能參數(shù) 異常,則按照預(yù)設(shè)告警發(fā)送模板生成告警信息;通過預(yù)設(shè)方式處理所述告警信息。
本發(fā)明實施例提供的信息技術(shù)系統(tǒng)監(jiān)控方法及裝置,通過收集n個監(jiān)控周期的性能參數(shù),可以繪制出對應(yīng)于整個監(jiān)控周期內(nèi)各個時間點的性能基線,在進行it系統(tǒng)的監(jiān)控時,可以根據(jù)監(jiān)控時間提取性能基線上對應(yīng)時間的基線值進行比對分析,顯然這相對于單一閾值的監(jiān)控,能夠提升監(jiān)控的精確度。
附圖說明
圖1為本發(fā)明實施例提供的第一種信息技術(shù)it系統(tǒng)監(jiān)控方法的流程示意圖;
圖2為本發(fā)明實施例提供的第二種信息技術(shù)it系統(tǒng)監(jiān)控方法的流程示意圖;
圖3為本發(fā)明實施例提供的一種it系統(tǒng)監(jiān)控裝置的結(jié)構(gòu)示意圖;
圖4本發(fā)明實施例提供第三種it系統(tǒng)監(jiān)控方法的流程示意圖。
具體實施方式
以下結(jié)合說明書附圖及具體實施例對本發(fā)明的技術(shù)方案做進一步的詳細闡述。
如圖1所示,本實施例提供一種信息技術(shù)it系統(tǒng)監(jiān)控方法,所述方法包括:
步驟s110:收集n個監(jiān)控周期的性能數(shù)據(jù);所述n為不小于1的整數(shù);
步驟s120:根據(jù)所述性能數(shù)據(jù)形成性能基線;
步驟s130:采集監(jiān)控數(shù)據(jù)并確定所述監(jiān)控數(shù)據(jù)對應(yīng)的監(jiān)控時間;
步驟s140:從所述性能基線中提取對應(yīng)于所述監(jiān)控時間的基線值;
步驟s150:比對所述監(jiān)控數(shù)據(jù)和所述基線值,形成監(jiān)控結(jié)果。
本發(fā)明實施例it系統(tǒng),可為能夠進行各種會進行信息處理的系統(tǒng),例如,購物系統(tǒng)、企業(yè)運維系統(tǒng)、流水線操作系統(tǒng)等各種信息技術(shù)系統(tǒng)。
本實施例所述的it系統(tǒng)監(jiān)控方法可應(yīng)用于各種it系統(tǒng)的監(jiān)控設(shè)備中,例 如監(jiān)控服務(wù)器。所述步驟s110將收集n個監(jiān)控周期的性能數(shù)據(jù)。這里的性能數(shù)據(jù)為能夠表征it系統(tǒng)某一方面性能參數(shù)的數(shù)據(jù)。例如,能夠表征it系統(tǒng)的可用資源的閑置資源百分比值等性能參數(shù)。本實施例所述的監(jiān)控周期可為預(yù)先設(shè)定的監(jiān)控時長,例如,可為一周、一天。在本實施例中所述監(jiān)控周期具體可以根據(jù)被監(jiān)控的it系統(tǒng)的變化周期而確定。通常一個監(jiān)控周期可等于一個it系統(tǒng)的一個變化周期。
在步驟s120中將分析這些性能數(shù)據(jù),確定出性能參數(shù)在監(jiān)控周期內(nèi)的變化規(guī)律,從而確定出性能基線。本實施例中的性能基線可包括上基線和/或下基線,通常這里的上基線對應(yīng)的性能數(shù)據(jù)的取值通常大于下基線對應(yīng)的性能數(shù)據(jù)的取值。在本實施例中所述性能基線可為一個監(jiān)控周期內(nèi)各個時間點的性能數(shù)據(jù)的連線。故通過該性能基線能夠獲得監(jiān)控周期內(nèi)每一個時間點對應(yīng)的性能數(shù)據(jù)的取值,該取值在本實施例中稱之為基線值。當然在所述步驟s130中采集的監(jiān)控參數(shù)可為所述性能數(shù)據(jù)表征it系統(tǒng)的同一性能參數(shù)的數(shù)據(jù)。
在步驟s130中,將采集監(jiān)控數(shù)據(jù)并確定監(jiān)控數(shù)據(jù)對應(yīng)的監(jiān)控時間。根據(jù)該監(jiān)控時間可確定出對應(yīng)于監(jiān)控周期內(nèi)的對應(yīng)時間,解析所述性能基線,讀取該對應(yīng)時間對應(yīng)的基線值。
在步驟s150中將比對監(jiān)控數(shù)據(jù)和基線值,通過比對可以知道當前監(jiān)控得到的性能數(shù)據(jù)的取值是大于基線值,還是小于基線值,這樣就根據(jù)與基線值的比對,確定出it系統(tǒng)的當前狀態(tài)是否正常。
具體地如,在本實施中所述性能基線可分為上基線和下基線,所述基線值可包括根據(jù)上基線確定的上基線值,和根據(jù)下基線確定的下基線值。
若上基線和下基線之間的取值為正常取值,則根據(jù)所述監(jiān)控數(shù)據(jù)得到的當前性能數(shù)據(jù)的取值小于所述下基線可認為是出現(xiàn)異常,及當前性能數(shù)據(jù)的取值大于所述上基線值,也可以認為是出現(xiàn)異常。若上基線以上的取值和下基線以下的取值為正常取值,則根據(jù)所述監(jiān)控數(shù)據(jù)得到的當前性能數(shù)據(jù)的取值大于所述下基線且小于所述上基線值,則可認為出現(xiàn)異常。
在本實施例中由于性能基線能夠給出一個監(jiān)控周期內(nèi)所有時間點的基線 值,這樣的話,相當于給出了多個應(yīng)用于不同時間點的閾值,顯然相對于單一閾值,考慮不同時間點it系統(tǒng)各個性能參數(shù)的波動變化,不會因為導(dǎo)致單一閾值造成的異常監(jiān)測不夠精確的問題。同時,在步驟s150中將基于監(jiān)控給數(shù)據(jù)獲得的當前性能數(shù)據(jù)的取值與下基線值的比較,可實現(xiàn)對it系統(tǒng)的性能波谷的監(jiān)控,從而能夠更好的、更全面的監(jiān)控所述it系統(tǒng)。
進一步地,如圖2所示,所述采集監(jiān)控數(shù)據(jù)之后,還包括:
步驟s121:根據(jù)所述監(jiān)控數(shù)據(jù)動態(tài)校準所述性能基線。
在本實施例中還會動態(tài)的校準所述性能基線,以期望所述性能基線能夠更加精確的反饋it系統(tǒng)正常時的特點。
在本實施例中,可周期性的校準所述步驟s121。進行周期性校準時的校準周期可為時長可為監(jiān)控周期的整數(shù)倍。在進行所述采集的監(jiān)控數(shù)據(jù)進行校準時,可以排除it系統(tǒng)確定為出現(xiàn)異常狀態(tài)時的監(jiān)控數(shù)據(jù),以獲得更能反映it系統(tǒng)正常運行的性能基線。通常,發(fā)現(xiàn)當前監(jiān)控周期內(nèi)性能數(shù)據(jù)都普遍偏高時,根據(jù)基線生成算法或基線校準算法,形成的校準后的性能基線的上基線可能會向取值大的方向偏移。
在本實施例中,所述步驟s121可包括:
基于所述監(jiān)控數(shù)據(jù),判斷指定時長內(nèi)的所述性能數(shù)據(jù)的變化率是否滿足校準條件;
若所述性能數(shù)據(jù)的變化率滿足所述校準條件,根據(jù)所述監(jiān)控數(shù)據(jù)校準所述性能基線。
這里的指定時長可為預(yù)先設(shè)定的時長,可以比監(jiān)控周期對應(yīng)的時長短、也可以等于所述監(jiān)控周期對應(yīng)的時長,或大于監(jiān)控周期對應(yīng)的時長。
例如,若所述指定時長為兩個監(jiān)控周期,發(fā)現(xiàn)在最近兩個監(jiān)控周期內(nèi),某一個性能參數(shù)波動巨大,導(dǎo)致連續(xù)兩個周期的變化率都大于校準閾值,或,最近兩個監(jiān)控周期內(nèi)的整體變化率都大于校準閾值,則認為在指定時長內(nèi)的所述性能數(shù)據(jù)的變化率滿足所述校準條件。
當滿足了校準條件,就將根據(jù)監(jiān)控數(shù)據(jù)調(diào)整性能基線。在本實施例中所述 校準性能基線可包括重新根據(jù)監(jiān)控數(shù)據(jù)重新形成新的性能基線,也包括在原來版本的性能基線的基礎(chǔ)上,根據(jù)當前得到的監(jiān)控數(shù)據(jù),基于校準算法調(diào)整原來的性能基線,從而得到校準后的性能基線。
在本實施例中通過條件的校準條件是否滿足的觸發(fā)條件,動態(tài)觸發(fā)性能基線的校準,避免在it系統(tǒng)的正常運行的性能參數(shù)變化很小,因頻繁校準導(dǎo)致的校準消耗,也可以避免在it系統(tǒng)的正常運行的性能參數(shù)變化劇烈的情況下,因校準頻次低導(dǎo)致的未來的及校準造成的異常監(jiān)控不精確的問題。
在本實施例中,所述若所述性能數(shù)據(jù)的變化率滿足所述校準條件,基于所述監(jiān)控數(shù)據(jù)校準所述性能基線,包括:基于所述監(jiān)控數(shù)據(jù)輸出修正建議曲線;接收基于所述修正建議曲線形成的操作指示;根據(jù)所述操作指示,調(diào)整所述性能基線。在有些情況下,例如it系統(tǒng)基于用戶操作,在進行性能極限的測試,此時,監(jiān)控到變化率達到校準條件,基于監(jiān)控給數(shù)據(jù)獲得的修正建議曲線,若直接投入運行,反而會影響it系統(tǒng)的正常監(jiān)控。故在本實施例中,在得到修正建議曲線之后,將會輸出所述修正建議曲線。這里的輸出可包括顯示輸出等輸出方式。在輸出所述修正建議曲線之后,可從人際交互接口或通信接口,接收工作人員輸出的操作指示。這里的操作指示可包括指示應(yīng)用該修正建議曲線,或不應(yīng)用該修正建議曲線,還可包括調(diào)整所述修正建議曲線的操作指示等??傊?,最后將根據(jù)所述操作指示調(diào)整所述性能基線。例如,在本實施例中的操作指示為指示應(yīng)用給修正建議曲線的指示,則可能直接利用當前的修正建議曲線取代正在運用的性能基線。
在本實施例中根據(jù)接收的操作指示來校準性能基線,能夠確保性能基線在一些特殊狀況下的校準,導(dǎo)致的異常。
在本實施例中,所述方法還包括:
在獲得校準后的性能基線后,存儲歷史版本的性能基線;
所述歷史版本的性能基線用于在預(yù)設(shè)條件下取代當前版本的性能基線提供所述基線值。
在本實施例中存儲歷史版本的性能基線,若發(fā)現(xiàn)校準后的性能基線在運行 過程中出現(xiàn)異常時,可以方便恢復(fù)到原來的版本的性能基線對it系統(tǒng)進行監(jiān)控。
在具體實現(xiàn)時,可以根據(jù)需要將性能基線的應(yīng)用分為試用期和正式應(yīng)用期,所述歷史版本的性能基線至少在所述試用期需要保存好。若在試用期出現(xiàn)監(jiān)控異常,根據(jù)出現(xiàn)監(jiān)控異常的次數(shù)或頻率信息,確定對應(yīng)的試用的性能基線是否在正式應(yīng)用期投入使用。
在本實施例中存儲的所述歷史版本的性能基線可包括前一個版本的性能基線,也可以是前多個歷史版本的性能基線。
在具體的實現(xiàn)過程中,所述方法還可包括:在一條性能基線被應(yīng)用的過程中,還可統(tǒng)計形成異常監(jiān)控效果。例如,當利用性能基線監(jiān)控到it系統(tǒng)異常時,工作人員或核查設(shè)備會核查it系統(tǒng)是否真的出現(xiàn)異常,異常點是否監(jiān)控準確等信息,這些信息將可作為形成異常監(jiān)測效果。存儲這些異常監(jiān)控效果,可方便后續(xù)利用歷史版本的性能基線進行監(jiān)控時,為選擇歷史版本的性能基線提供依據(jù)。
進一步地,所述形成監(jiān)控結(jié)果之后,所述方法還包括:若所述監(jiān)控結(jié)果表示性能參數(shù)異常,則按照預(yù)設(shè)告警發(fā)送模板生成告警信息。
通過預(yù)設(shè)方式處理所述告警信息。
在本實施例中所述預(yù)設(shè)方式可包括燈光警報、語音警報、消息警報。燈光警報根據(jù)告警信息發(fā)送相應(yīng)顏色或相應(yīng)閃爍頻率的燈光。所述語音報警可以通過廣播等方式發(fā)送告警信息。所述消息報警,包括向工作人員指定的設(shè)備,例如工作人員的手機、平板電腦等攜帶的終端設(shè)備,或向工作人員的工作電腦發(fā)送所述告警信息。這樣工作人員就可以及時的獲知告警,進行相應(yīng)的異常處理。在本實施例中還可包括:向異常處理設(shè)備發(fā)送所述告警信息,方便所述異常處理設(shè)備根據(jù)告警信息進行異常核查和處理。
如圖3所示,本實施例還提供一種,所述裝置包括:
收集單元110,用于收集n個監(jiān)控周期的性能數(shù)據(jù);所述n為不小于1的整數(shù);
形成單元120,用于根據(jù)所述性能數(shù)據(jù)形成性能基線;
監(jiān)控單元130,用于采集監(jiān)控數(shù)據(jù)并確定所述監(jiān)控數(shù)據(jù)對應(yīng)的監(jiān)控時間;從所述性能基線中提取對應(yīng)于所述監(jiān)控時間的基線值;比對所述監(jiān)控數(shù)據(jù)和所述基線值,形成監(jiān)控結(jié)果。
本實施例所述的信息技術(shù)系統(tǒng)監(jiān)控裝置可為各種應(yīng)用于監(jiān)控設(shè)備的裝置,例如應(yīng)用監(jiān)控服務(wù)器中的裝置。
所述收集單元110可對應(yīng)于通信接口,能夠從各種采集設(shè)備或傳感設(shè)備中接收所述性能數(shù)據(jù),也可以對應(yīng)于采集器或傳感器,自身采集和/或檢測所述性能數(shù)據(jù)。
形成單元120及所述監(jiān)控單元130可對應(yīng)于設(shè)備中的處理器或處理電路。所述處理器可對應(yīng)于中央處理器、微處理器、數(shù)字處理器或可編程陣列等。所述處理電路可包括專用集成電路等。所述處理器或處理電路能夠通過執(zhí)行預(yù)定指令,實現(xiàn)上述形成單元120和監(jiān)控單元130對應(yīng)的功能。
本實施例中所述性能基線、監(jiān)控周期等相關(guān)描述可以參見前述實施例中的對應(yīng)部分,在此就不重復(fù)了。
總之,本實施例提供了一種信息技術(shù)系統(tǒng)監(jiān)控裝置,可為實現(xiàn)上述信息技術(shù)系統(tǒng)監(jiān)控方法的實現(xiàn)結(jié)構(gòu),通過性能基線的確定,能夠?qū)ΡO(jiān)控周期內(nèi)各個時間段的it系統(tǒng)進行精確的監(jiān)控,避免單一監(jiān)控閾值造成的異常誤報等問題,且能夠設(shè)置下基線對性能系統(tǒng)的性能波谷時間段進行很好的監(jiān)控。
進一步地,所述裝置還包括:
校準單元,用于在所述采集監(jiān)控數(shù)據(jù)之后,根據(jù)所述監(jiān)控數(shù)據(jù)校準所述性能基線。
本實施例所述的校準單元同樣可對應(yīng)于處理器或處理電路,這里的處理器或處理電路的結(jié)構(gòu)可參見前述部分,同樣處理器或處理電路能夠通過存儲在存儲介質(zhì)中的預(yù)設(shè)指令的執(zhí)行,能夠?qū)π阅芑€進行校準。
所述校準單元,具體用于基于所述監(jiān)控數(shù)據(jù),判斷指定時長內(nèi)的所述性能數(shù)據(jù)的變化率是否滿足校準條件;若所述性能數(shù)據(jù)的變化率滿足所述校準條件, 根據(jù)所述監(jiān)控數(shù)據(jù)校準所述性能基線。在本實施例中所述校準單元,僅有在指定時長內(nèi)所述性能數(shù)據(jù)的變化率滿足校準條件,才開始對性能基線進行校準,這樣可以避免不要的校準,減少冗余校準導(dǎo)致的能耗和資源的消耗;同時也會在性能數(shù)據(jù)的變化率足夠大的時候,及時的調(diào)整性能基線,以獲得更能反映it系統(tǒng)的正常工作的性能基線,以進一步提升監(jiān)控結(jié)果。
所述校準單元,還具體用于基于所述監(jiān)控數(shù)據(jù)輸出修正建議曲線;接收基于所述修正建議曲線形成的操作指示;根據(jù)所述操作指示,調(diào)整所述性能基線。為了避免一些特殊情況下,自動校準導(dǎo)致的校準故障,在本實施例中將基于監(jiān)控數(shù)據(jù)輸出形成的修正建議曲線。在接收工作人員或有權(quán)限的用戶輸入的操作指令,最終根據(jù)操作指示調(diào)整性能基線,避免某些特定情況導(dǎo)致的不必要的校準。
此外,所述裝置還包括:
存儲單元,用于在獲得校準后的性能基線后,存儲歷史版本的性能基線;
所述歷史版本的性能基線用于在預(yù)設(shè)條件下取代當前版本的性能基線提供所述基線值。
所述存儲單元可對應(yīng)于各種類型的存儲介質(zhì),該存儲介質(zhì)將會存儲當前版本以前的歷史版本的性能基線,以備當前版本的性能基線不適用時的使用。
所述裝置還包括:
告警單元,用于在所述形成監(jiān)控結(jié)果之后,若所述監(jiān)控結(jié)果表示性能參數(shù)異常,則按照預(yù)設(shè)告警發(fā)送模板生成告警信息;通過預(yù)設(shè)方式處理所述告警信息。
本實施例所述的告警單元可對應(yīng)于中告警設(shè)備,例如燈光告警設(shè)備、聲音告警設(shè)備,還可對應(yīng)于通信接口,通過向其他電子設(shè)備發(fā)送所述告警信息,這樣能夠方便工作人員或異常處理設(shè)備,能夠及時獲得該告警信息,啟動對應(yīng)的異常處理流程。
以下結(jié)合上述實施例提供幾個示例:
示例一:
本示例提出一種基于全時段監(jiān)控指標配置的系統(tǒng)監(jiān)控方法,通過一種性能基線建立和基線校正機制實現(xiàn)it系統(tǒng)性能監(jiān)控的全時段覆蓋和監(jiān)控差異化,采用自動化性能基線采集、可視化局部基線校正和智能化性能基線演進,實現(xiàn)系統(tǒng)監(jiān)控的高精度、可預(yù)測、易管理,從而全面掌控系統(tǒng)的運行狀態(tài)。
本示例it系統(tǒng)監(jiān)控方法是:收集至少一個監(jiān)控周期內(nèi)的系統(tǒng)性能數(shù)據(jù),建立系統(tǒng)的性能基線版本,通過若干個監(jiān)控周期的性能數(shù)據(jù)、迭代分析系統(tǒng)性能的波動規(guī)律,根據(jù)性能基線版本和波動規(guī)律、自動校正性能基線并完成全域全時段的系統(tǒng)性能監(jiān)控配置,持續(xù)分析系統(tǒng)性能波動規(guī)律、保持系統(tǒng)監(jiān)控的智能演進。
如圖4所示,本示例的it系統(tǒng)監(jiān)控方法包括以下主要操作:
數(shù)據(jù)采集:定義采集指標、采集數(shù)據(jù)源、采集引擎,數(shù)據(jù)采集與監(jiān)控校驗分離,可以通過簡化數(shù)據(jù)采集方法降低對監(jiān)控源系統(tǒng)的影響、并增強原始采集數(shù)據(jù)的完整性。
數(shù)據(jù)加工:對原始采集數(shù)據(jù)進行適當加工,作為后續(xù)系統(tǒng)監(jiān)控的數(shù)據(jù)源;數(shù)據(jù)加工可以實現(xiàn)原始采集數(shù)據(jù)的信息過濾和聚合匯總,提高系統(tǒng)監(jiān)控的性能和數(shù)據(jù)參考維度。
監(jiān)控定義:定義監(jiān)控指標、監(jiān)控源、監(jiān)控類型、監(jiān)控周期;監(jiān)控定義中通過不同監(jiān)控策略、多維度定義實現(xiàn)系統(tǒng)監(jiān)控的全面覆蓋。
性能基線確定:定義系統(tǒng)性能的基線數(shù)據(jù)范圍、自動化分析和建立系統(tǒng)的性能基線,根據(jù)若干個周期性系統(tǒng)性能數(shù)據(jù)的自動化分析,運維人員可以快速、準確校正性能基線。
作業(yè)調(diào)度:定義數(shù)據(jù)采集、數(shù)據(jù)加工、系統(tǒng)監(jiān)控等作業(yè)任務(wù),并完成作業(yè)任務(wù)的執(zhí)行調(diào)度。
告警發(fā)送:定義告警發(fā)送模板,在系統(tǒng)監(jiān)控中觸發(fā)告警時自動調(diào)度告警發(fā)送中的模板、生成告警信息,并通過短信、郵件、語音、sns等不同發(fā)送途徑完成告警發(fā)送。
數(shù)據(jù)分析:定義數(shù)據(jù)分析模板,設(shè)置監(jiān)控指標的數(shù)據(jù)分析屬性,自動化分 析和生成數(shù)據(jù)分析結(jié)果。
基線校正:根據(jù)數(shù)據(jù)分析分析結(jié)果,自動提示系統(tǒng)運行過程中出現(xiàn)的性能基線偏差,生成性能基線的校正預(yù)判數(shù)據(jù),運維人員分析基線校正,確認或修正校正數(shù)據(jù)后性能基線校正即可生效、若校正后出現(xiàn)系統(tǒng)監(jiān)控不符合預(yù)期則可以支持基線回退,通過校正預(yù)判、確認或修正、生效或回退實現(xiàn)性能基線的迭代演進。
基于全時段的系統(tǒng)監(jiān)控方法總體上是為了減少系統(tǒng)監(jiān)控運維復(fù)雜度、提高系統(tǒng)監(jiān)控準確性、增強系統(tǒng)監(jiān)控的智能化,對源系統(tǒng)性能影響小,監(jiān)控采集數(shù)據(jù)接口簡單、避免因性能監(jiān)控引起源系統(tǒng)性能問題和退化。性能基線配置簡單,通過設(shè)置性能基線的周期范圍,由系統(tǒng)自動分析和預(yù)生成系統(tǒng)的性能基線,后續(xù)通過分析確認完成性能基線生成。性能基線智能校正,系統(tǒng)周期性自動分析性能數(shù)據(jù),根據(jù)歷史數(shù)據(jù)和近期數(shù)據(jù)獲取系統(tǒng)性能趨勢,預(yù)判性能基線的合理性、并提示性能基線偏差,進行自動修正基線。
示例二:
本示例提供一種對應(yīng)于前述it系統(tǒng)監(jiān)控裝置的監(jiān)控系統(tǒng),該系統(tǒng)可采用面向?qū)ο蟮脑O(shè)計思路,將功能模塊化、元素對象化設(shè)計,模塊間通過接口訪問確保系統(tǒng)功能域間的松耦合、提高系統(tǒng)擴展性。
功能模塊主要包括:
數(shù)據(jù)采集模塊,用于從監(jiān)控源系統(tǒng)通過數(shù)據(jù)引擎獲取原始數(shù)據(jù)并保存到監(jiān)控系統(tǒng)中;本實施例所述數(shù)據(jù)采集模塊可對應(yīng)于收集單元和監(jiān)控單元收集和采集數(shù)據(jù)的部分。
數(shù)據(jù)加工模塊,用于在監(jiān)控系統(tǒng)中完成原始數(shù)據(jù)的過濾、轉(zhuǎn)換和聚合;
數(shù)據(jù)分析模塊,用于周期性分析歷史指標數(shù)據(jù)和當前性能數(shù)據(jù)生成分析結(jié)果數(shù)據(jù);
指標管理模塊,用于定義系統(tǒng)的監(jiān)控指標,指定指標的檢查方法、公式和檢查閾值等,構(gòu)建完整的指標體系;
事件管理模塊,用于定義監(jiān)控執(zhí)行的事件觸發(fā)條件;
監(jiān)控管理模塊,用于按不同的監(jiān)控維度,構(gòu)建系統(tǒng)監(jiān)控視圖;
基線管理模塊,用于定義性能基線的數(shù)據(jù)范圍和性能基線生成,定義性能基線校正時間范圍以及校正條件;
作業(yè)調(diào)度模塊,用于對數(shù)據(jù)采集、數(shù)據(jù)加工、數(shù)據(jù)分析、監(jiān)控管理和基線校正等設(shè)置事件條件,生成詳細的作業(yè)調(diào)度;
告警發(fā)送模塊,用于從告警隊列中讀取告警信息并以多種方式發(fā)送;
基線校正模塊,用于基于系統(tǒng)性能數(shù)據(jù)自動化分析系統(tǒng)基線偏差,進行自動校正、并記錄校正結(jié)果。告警發(fā)送模塊可對應(yīng)于前述實施例中告警單元。此處的基線校正模塊可對應(yīng)于前述校準單元。
該系統(tǒng)中用于進行數(shù)據(jù)分析、數(shù)據(jù)加工、監(jiān)控管理和指標管理的模塊都可對應(yīng)于前述的監(jiān)控單元。
利用上述模塊進行it系統(tǒng)的性能監(jiān)控,包括:
作業(yè)調(diào)度模塊定時觸發(fā)數(shù)據(jù)采集進行設(shè)備網(wǎng)元運行數(shù)據(jù)采集,數(shù)據(jù)采集模塊從指標管理模塊中讀取需要采集的網(wǎng)元地址以及監(jiān)控采集項,其中監(jiān)控項不僅可以定義系統(tǒng)運行的性能數(shù)據(jù),還可以定義業(yè)務(wù)調(diào)用接口、模塊等等指標。
待數(shù)據(jù)采集模塊完成后,作業(yè)調(diào)度模塊觸發(fā)數(shù)據(jù)加工模塊對數(shù)據(jù)采集模塊采集的原始數(shù)據(jù)按照監(jiān)控管理模塊中定義的監(jiān)控維度進行過濾、轉(zhuǎn)換和聚合。待數(shù)據(jù)加工模塊完成后,作業(yè)調(diào)度模塊觸發(fā)數(shù)據(jù)分析模塊,數(shù)據(jù)分析模塊根據(jù)指標管理模塊中定義的檢查方法、公式和檢查閾值與基線管理模塊中定義的基線值進行對比,并且記錄當前系統(tǒng)性能指標為正?;蛘弋惓?、記錄與基線偏差值,其中數(shù)據(jù)加工模塊還會對業(yè)務(wù)調(diào)用接口、模塊記錄按照指標管理模塊中定義的方法進行整合。待數(shù)據(jù)加工模塊完成后,作業(yè)調(diào)度模塊根據(jù)數(shù)據(jù)分析模塊的結(jié)果觸發(fā)事件管理與告警發(fā)送模塊。
1)當數(shù)據(jù)分析模塊分析結(jié)果為正常時,作業(yè)調(diào)度模塊進入休眠,等待下一個時間周期自動觸發(fā)。
2)當性能分析結(jié)果為異常時,作業(yè)調(diào)度模塊觸發(fā)事件管理模塊,對相應(yīng)性能指標出現(xiàn)的問題自動執(zhí)行應(yīng)急預(yù)案,執(zhí)行成功后,作業(yè)調(diào)度模塊再次調(diào)用數(shù)據(jù)采集、數(shù)據(jù)加工、數(shù)據(jù)分析模塊,對當前性能與基線值進行比對,如果性能問題被修復(fù)則作業(yè)調(diào)度模塊進入休眠,如果問題仍然存在作業(yè)調(diào)度模塊調(diào)用告警發(fā)送模塊觸發(fā)告警。每天凌晨1點作業(yè)調(diào)度模塊觸發(fā)性能基線校正模塊,對基線管理模塊中定義的各個性能基線針對校準條件與校準范圍進行基線校正,基線校正模塊首先讀取基線管理模塊中定義的時間范圍內(nèi)的業(yè)務(wù)接口、模塊調(diào)用趨勢數(shù)據(jù),并計算增長率;同時基線校正模塊讀取基線管理模塊中定義的時間范圍內(nèi)的性能趨勢數(shù)據(jù),計算增長率。
當業(yè)務(wù)趨勢增長率>0,不論性能趨勢增長率大于0或者小于0都將啟動基線校正,系統(tǒng)自動將性能基線上調(diào)為定義天數(shù)內(nèi)去掉若干個最高、最低值的性能均值且不超過業(yè)務(wù)趨勢增長率的數(shù)值;
當業(yè)務(wù)趨勢增長率<0且性能趨勢增長率<0時啟動基線校正,系統(tǒng)自動將性能基線下調(diào)為定義天數(shù)內(nèi)去掉若干個最高、最低值的性能均值且不超過業(yè)務(wù)趨勢增長率的數(shù)值;
當業(yè)務(wù)趨勢增長率<0且性能趨勢增長率>0時不啟動基線校正。
本示例提供的監(jiān)控系統(tǒng)中的幾個主要的對象類設(shè)計如下:
數(shù)據(jù)引擎類:包含數(shù)據(jù)引擎編號、數(shù)據(jù)引擎名稱、數(shù)據(jù)引擎類型、數(shù)據(jù)引擎定義,支持oracle、db2、sybase、mysql等多種關(guān)系數(shù)據(jù)庫、文件系統(tǒng)數(shù)據(jù)采集,并支持插件式的數(shù)據(jù)引擎部署。
數(shù)據(jù)采集類:包含數(shù)據(jù)采集源列表、數(shù)據(jù)采集內(nèi)容列表、數(shù)據(jù)引擎列表、數(shù)據(jù)存儲格式,其中采集內(nèi)容依據(jù)數(shù)據(jù)引擎方法而定,例如關(guān)系數(shù)據(jù)庫引擎通常采用sql內(nèi)容。
數(shù)據(jù)加工類:包含數(shù)據(jù)分析方法編號、數(shù)據(jù)加工方法、數(shù)據(jù)加工結(jié)果定義,數(shù)據(jù)加工方法支持流程化設(shè)計、通過流程化數(shù)據(jù)加工滿足復(fù)雜數(shù)據(jù)加工場景。
數(shù)據(jù)分析類:包含數(shù)據(jù)分析方法編號、數(shù)據(jù)分析方法定義,數(shù)據(jù)分析方 法包括同比分析、環(huán)比分析、定比分析、波動分析、關(guān)聯(lián)分析、平衡分析等。
系統(tǒng)指標類:包含系統(tǒng)指標編號、系統(tǒng)指標名稱、系統(tǒng)指標類型、系統(tǒng)指標公式定義列表、系統(tǒng)指標公式應(yīng)用條件列表、系統(tǒng)指標閾值列表,其中同一個系統(tǒng)指標支持多個指標公式定義、每個系統(tǒng)指標公式定義支持設(shè)定不同的應(yīng)用條件和指標閾值。
系統(tǒng)監(jiān)控類:包含系統(tǒng)監(jiān)控編號、系統(tǒng)監(jiān)控名稱、系統(tǒng)監(jiān)控類型、系統(tǒng)指標編號、系統(tǒng)監(jiān)控應(yīng)用條件列表,其中系統(tǒng)監(jiān)控應(yīng)用條件定義會自動匹配對應(yīng)系統(tǒng)指標定義中的指標公式和指標閾值。
基線定義類:包含系統(tǒng)基線編號、系統(tǒng)名稱、基線周期類型、基線周期定義、基線校正編號等,其中基線周期類型和定義說明基線的分析數(shù)據(jù)范圍,同一個系統(tǒng)可以支持多個系統(tǒng)基線?;€定義生成時自動根據(jù)系統(tǒng)指標定義列表生成對應(yīng)指標在不同監(jiān)控時間點的指標公式和指標閾值、并根據(jù)實際數(shù)據(jù)計算出一個指標閾值修正值供后續(xù)手工校驗參考。
基線校正類:包含系統(tǒng)校正編號、基線校正名稱、基線校正類型、基線校正定義、基線校正提示模板等,其中基線校正定義根據(jù)
作業(yè)調(diào)度類:包含作業(yè)調(diào)度編號、作業(yè)名稱、作業(yè)類型、作業(yè)內(nèi)容、作業(yè)編號、調(diào)度類型、調(diào)度時間定義列表、調(diào)度事件列表,其中調(diào)度事件列表定義了觸發(fā)作業(yè)調(diào)度的條件。
總之,本示例提供的監(jiān)控方法具有以下特點;
降低監(jiān)控管理復(fù)雜度:通過自動化的性能基線分析和生成,在此基礎(chǔ)上只需少量的基線校驗操作即可完成系統(tǒng)監(jiān)控指標閾值域的設(shè)定,可以大幅度減少全時段系統(tǒng)監(jiān)控的監(jiān)控配置。
減少源系統(tǒng)性能影響:現(xiàn)有系統(tǒng)監(jiān)控通常直接從源系統(tǒng)獲取監(jiān)控結(jié)果數(shù)據(jù),將數(shù)據(jù)采集、數(shù)據(jù)加工和系統(tǒng)監(jiān)控分離,可以簡化數(shù)據(jù)采集的采集復(fù)雜度,數(shù)據(jù)采集只采集源系統(tǒng)中無需加工處理的原始數(shù)據(jù)、數(shù)據(jù)加工完成數(shù)據(jù)過濾、轉(zhuǎn)換和聚合,系統(tǒng)監(jiān)控只做加工后的數(shù)據(jù)進行輕量級數(shù)據(jù)處理和閾值判定。這種數(shù)據(jù)采集和處理、使用方式可以有效減少對源系統(tǒng)的性能影響。
提高系統(tǒng)監(jiān)控精準度:建立全時段的系統(tǒng)監(jiān)控方式,避免傳統(tǒng)只設(shè)置單一監(jiān)控時段、單一監(jiān)控指標、單一監(jiān)控閾值、單一監(jiān)控策略的局限性,通過統(tǒng)一監(jiān)控指標不同時段、不同監(jiān)控策略和細粒度的監(jiān)控點,擴大系統(tǒng)監(jiān)控的監(jiān)控深度和廣度、實現(xiàn)精細化系統(tǒng)監(jiān)控。
在本申請所提供的幾個實施例中,應(yīng)該理解到,所揭露的設(shè)備和方法,可以通過其它的方式實現(xiàn)。以上所描述的設(shè)備實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,如:多個單元或組件可以結(jié)合,或可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另外,所顯示或討論的各組成部分相互之間的耦合、或直接耦合、或通信連接可以是通過一些接口,設(shè)備或單元的間接耦合或通信連接,可以是電性的、機械的或其它形式的。
上述作為分離部件說明的單元可以是、或也可以不是物理上分開的,作為單元顯示的部件可以是、或也可以不是物理單元,即可以位于一個地方,也可以分布到多個網(wǎng)絡(luò)單元上;可以根據(jù)實際的需要選擇其中的部分或全部單元來實現(xiàn)本實施例方案的目的。
另外,在本發(fā)明各實施例中的各功能單元可以全部集成在一個處理模塊中,也可以是各單元分別單獨作為一個單元,也可以兩個或兩個以上單元集成在一個單元中;上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用硬件加軟件功能單元的形式實現(xiàn)。
本領(lǐng)域普通技術(shù)人員可以理解:實現(xiàn)上述方法實施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成,前述的程序可以存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,執(zhí)行包括上述方法實施例的步驟;而前述的存儲介質(zhì)包括:移動存儲設(shè)備、只讀存儲器(rom,read-onlymemory)、隨機存取存儲器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易 想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)以所述權(quán)利要求的保護范圍為準。