本發(fā)明涉及模式識(shí)別領(lǐng)域,更具體地,涉及信息系統(tǒng)告警技術(shù)領(lǐng)域。
背景技術(shù):
目前,信息系統(tǒng)監(jiān)控過程中,信息報(bào)警系統(tǒng)主要用于監(jiān)視信息系統(tǒng)設(shè)備重要過程的參數(shù)值,告警閾值是反映信息系統(tǒng)設(shè)備運(yùn)行狀態(tài)的重要指標(biāo),是告警系統(tǒng)的核心參數(shù),它的大小直接決定報(bào)警數(shù)目的多少。
告警閾值設(shè)置的合理與否將直接影響系統(tǒng)的運(yùn)行狀態(tài),如果閾值設(shè)得過高,系統(tǒng)設(shè)備可能在發(fā)生異?;蚬收系那闆r下不能及時(shí)報(bào)警,對(duì)工作人員和設(shè)備的安全將構(gòu)成極大的威脅;如果告警閾值設(shè)得過低,系統(tǒng)的告警會(huì)過于頻繁,增加了操作員的工作壓力,其中部分告警可能會(huì)誤導(dǎo)操作員,延誤對(duì)重要告警的處理。因此,合理的告警閾值將會(huì)提高操作員的操作效率,確保系統(tǒng)處于安全的運(yùn)行狀態(tài)。
目前,現(xiàn)有技術(shù)通常采用單一告警閾值作為信息系統(tǒng)告警判斷標(biāo)準(zhǔn)?,F(xiàn)有技術(shù)中采用的告警閾值是通過最優(yōu)告警閾值數(shù)學(xué)模型或固有經(jīng)驗(yàn)進(jìn)行確定的單一固定值。一方面,現(xiàn)有技術(shù)中的信息系統(tǒng)告警技術(shù)不能適應(yīng)信息系統(tǒng)運(yùn)行環(huán)境的變化而進(jìn)行告警閾值的實(shí)時(shí)動(dòng)態(tài)更新;另一方面,單一閾值的設(shè)定容易產(chǎn)生漏告警和誤告警;最終不能真實(shí)反映信息系統(tǒng)的運(yùn)行狀況。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種克服上述問題或者至少部分地解決上述問題的方法和裝置。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種信息系統(tǒng)告警方法,包括以下步驟:S1.基于信息系統(tǒng)歷史數(shù)據(jù),利用概率密度函數(shù)的告警閾值優(yōu)化模型求解信息系統(tǒng)的最優(yōu)告警閾值;基于信息系統(tǒng)歷史數(shù)據(jù),建立信息系統(tǒng)監(jiān)控?cái)?shù)據(jù)基準(zhǔn)趨勢模型;S2.基于信息系統(tǒng)實(shí)時(shí)數(shù)據(jù),確認(rèn)進(jìn)行告警。
進(jìn)一步,本發(fā)明還提供一種信息系統(tǒng)告警裝置,包括:
接收模塊,用于采集信息系統(tǒng)歷史數(shù)據(jù)、采集信息系統(tǒng)實(shí)時(shí)數(shù)據(jù);
處理模塊,用于基于所述歷史數(shù)據(jù),利用概率密度函數(shù)的告警閾值優(yōu)化模型求解信息系統(tǒng)的最優(yōu)告警閾值;基于所述歷史數(shù)據(jù)進(jìn)行數(shù)學(xué)建模,用以建立信息系統(tǒng)監(jiān)控?cái)?shù)據(jù)基準(zhǔn)趨勢模型;
告警模塊,用于基于信息系統(tǒng)實(shí)時(shí)數(shù)據(jù),確認(rèn)進(jìn)行告警。
本申請?zhí)岢鲆环N信息系統(tǒng)告警方法和裝置,基于信息系統(tǒng)歷史數(shù)據(jù),利用概率密度函數(shù)的告警閾值優(yōu)化模型求解信息系統(tǒng)的最優(yōu)告警閾值,然后進(jìn)行數(shù)學(xué)建模,用以建立信息系統(tǒng)監(jiān)控?cái)?shù)據(jù)基準(zhǔn)趨勢模型,最后基于信息系統(tǒng)實(shí)時(shí)數(shù)據(jù),確認(rèn)進(jìn)行告警。本發(fā)明具有避免信息系統(tǒng)漏告警和誤告警,根據(jù)信息系統(tǒng)運(yùn)行狀態(tài)變化實(shí)時(shí)調(diào)整告警標(biāo)準(zhǔn)的有益效果。
附圖說明
圖1為根據(jù)本發(fā)明實(shí)施例的信息系統(tǒng)告警方法的總體流程示意圖。
圖2為根據(jù)本發(fā)明實(shí)施例的信息系統(tǒng)告警方法的告警閾值優(yōu)化實(shí)例示意圖。
圖3為根據(jù)本發(fā)明實(shí)施例的信息系統(tǒng)告警方法的數(shù)據(jù)狀態(tài)的報(bào)警閾值優(yōu)化示意圖;
圖4為根據(jù)本發(fā)明實(shí)施例的信息系統(tǒng)告警裝置的總體結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明的具體實(shí)施方式作進(jìn)一步詳細(xì)描述。以下實(shí)施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。
在一個(gè)具體實(shí)施例中,以某信息系統(tǒng)服務(wù)器CPU利用率的告警為例,結(jié)合附圖對(duì)本發(fā)明進(jìn)行進(jìn)一步的說明。
圖1給出了根據(jù)本發(fā)明實(shí)施例的一種信息系統(tǒng)告警方法的總體流程示意圖。總的來說,該方法包括:S1.基于信息系統(tǒng)歷史CPU利用率數(shù)據(jù),利用概率密度函數(shù)的告警閾值優(yōu)化模型求解信息系統(tǒng)的最優(yōu)告警閾值;基于信息系統(tǒng)歷史CPU利用率數(shù)據(jù),建立信息系統(tǒng)監(jiān)控?cái)?shù)據(jù)基準(zhǔn)趨勢模型;S2.信息系統(tǒng)實(shí)時(shí)CPU利用率數(shù)據(jù),確認(rèn)進(jìn)行告警。
在本發(fā)明一個(gè)具體實(shí)施例中,步驟S1中,“告警閾值優(yōu)化模型求解信息系統(tǒng)的最優(yōu)告警閾值”包括如下。
首先,估計(jì)參數(shù)概率密度:選擇高斯型的核函數(shù),估計(jì)監(jiān)控指標(biāo)的概率密度,得到監(jiān)控指標(biāo)概率密度函數(shù)曲線,如圖3所示,其中,右側(cè)實(shí)線(藍(lán)色)為正常數(shù)據(jù)的分布,左側(cè)實(shí)線(紅色)為異常數(shù)據(jù)的分布。若將圖中黑線設(shè)置為監(jiān)控指標(biāo)的報(bào)警閾值,由于一部分正常數(shù)據(jù)大于報(bào)警閾值,就產(chǎn)生了誤報(bào)警,概率就是正常分布曲線下超出報(bào)警閾值部分的區(qū)域面積;而一部分異常數(shù)據(jù)小于報(bào)警閾值,屬于漏報(bào),漏報(bào)警的概率為異常數(shù)據(jù)分布曲線下低于報(bào)警閾值部分的區(qū)域面積。根據(jù)最小錯(cuò)誤率貝葉斯決策理論,誤報(bào)警和漏報(bào)警發(fā)生的概率可以通過以下表達(dá)式計(jì)算:
其中,P1(e)為正常狀態(tài)的概率密度函數(shù)表達(dá)式,P2(e)為異常狀態(tài)的概率密度函數(shù)表達(dá)式,th為報(bào)警閾值??梢钥闯?,如果報(bào)警閾值設(shè)置過大,誤報(bào)警的概率則變小,而漏報(bào)警的概率則變大;反之,當(dāng)報(bào)警閾值設(shè)置太小時(shí),誤報(bào)警發(fā)生的概率增大,而漏報(bào)警的概率會(huì)減小。
然后,確定監(jiān)控指標(biāo)的報(bào)警閾值屬于一類模式最優(yōu)分類問題,合理的報(bào)警閾值可以將正常狀態(tài)和異常狀態(tài)區(qū)分開來,并且使正常狀態(tài)誤報(bào)和異常狀態(tài)漏報(bào)概率達(dá)到最小。
將報(bào)警閾值的設(shè)置看作一個(gè)優(yōu)化問題,描述如下:
minF(x)=P1(e)+P2(e)
在本發(fā)明另一個(gè)具體實(shí)施例中,IT環(huán)境在一定時(shí)段內(nèi)具有相對(duì)的穩(wěn)定性,KPI波動(dòng)會(huì)出現(xiàn)規(guī)律性變化,基于這種認(rèn)識(shí),建立以動(dòng)態(tài)基線為基礎(chǔ)的閾值統(tǒng)計(jì)結(jié)果對(duì)比會(huì)產(chǎn)生比較好的效果,對(duì)于提高告警準(zhǔn)確度有很大提高,其基本思路如下:根據(jù)一段歷史時(shí)間內(nèi)的KPI歷史記錄進(jìn)行數(shù)學(xué)建模,比如正態(tài)分布、上升趨勢、下降趨勢模型的建立,當(dāng)前時(shí)間KPI變化在模型變化范圍之內(nèi),如果不在該范圍,即認(rèn)為越界,累計(jì)越界次數(shù)過多到一定的次數(shù),則認(rèn)為是預(yù)警,提醒用戶可能存在問題。這對(duì)提高告警的準(zhǔn)確性具有很大幫助。
在本發(fā)明另一個(gè)具體實(shí)施例中,在步驟S1前還包括信息系統(tǒng)CPU利用率數(shù)據(jù)采集與處理的過程,具體包括:采集信息系統(tǒng)歷史CPU利用率數(shù)據(jù);對(duì)所述歷史CPU利用率數(shù)據(jù)進(jìn)行歸一化處理。
在本發(fā)明另一個(gè)具體實(shí)施例中,步驟S2還包括以下步驟:采集信息系統(tǒng)實(shí)時(shí)CPU利用率數(shù)據(jù);判斷所述實(shí)時(shí)CPU利用率數(shù)據(jù)是否高于所述最優(yōu)告警閾值,如果高于則進(jìn)行告警;如果不高于,進(jìn)一步判斷所述實(shí)時(shí)CPU利用率數(shù)據(jù)是否超出監(jiān)控?cái)?shù)據(jù)基準(zhǔn)趨勢模型范圍,如果超出則進(jìn)行報(bào)警。如圖2中的A曲線,如果超越該優(yōu)化值,則出現(xiàn)異常;另一方面,根據(jù)這一個(gè)月時(shí)間內(nèi)的CPU利用率進(jìn)行數(shù)學(xué)建模(比如正態(tài)分布、上升趨勢、下降趨勢模型),如圖2中的B、C、D三條曲線,分別是建立的趨勢基線模型及其上下邊界。如果后續(xù)監(jiān)控到的CPU利用率超出上下邊界,則認(rèn)為出現(xiàn)異常情況。圖2中展示了某天信息系統(tǒng)服務(wù)器CPU利用率出現(xiàn)了兩次告警,一次是超越了告警優(yōu)化閾值,另一次是越過了趨勢基線的上邊界,這樣提高了告警的準(zhǔn)確率。
在本發(fā)明另一個(gè)具體實(shí)施例中,隨著后續(xù)信息系統(tǒng)歷史數(shù)據(jù)的更新,不斷更新告警閾值優(yōu)化模型、相應(yīng)的優(yōu)化閾值和監(jiān)控?cái)?shù)據(jù)基準(zhǔn)趨勢模型。
在本發(fā)明另一個(gè)具體實(shí)施例中,通過以下步驟對(duì)所述歷史CPU利用率數(shù)據(jù)進(jìn)行歸一化處理:
其中,為歸一化后的數(shù)據(jù),xmin和xmax分別為原始數(shù)據(jù)的最小值和最大值。
在本發(fā)明另一個(gè)具體實(shí)施例中,通過以下方式實(shí)現(xiàn)“求解所需信息系統(tǒng)的最優(yōu)告警閾值”,利用優(yōu)化算法求解上述優(yōu)化問題,具體求解步驟如下,
(1)選取區(qū)間[a,b],構(gòu)造兩點(diǎn)x1=a+M(b—a),x2=a4-N(b—a);
(2)如果F(x1)<F(x2),則搜索區(qū)間縮小為[a,x2],b=x2,判斷|x2-x1|<ε是否成立,如果成立轉(zhuǎn)到第(4)步,否則返回第(1)步;
(3)如果F(x1)≥F(x2),則搜索區(qū)間縮小為[x1,b],a=x1,判斷|x2-x1|<ε是否成立,如果成立轉(zhuǎn)到第(4)步,否則返回第(1)步;
(4)最優(yōu)解為t=x=0.5(x1+x2),目標(biāo)函數(shù)最小值為F(x)。
在本發(fā)明另一個(gè)具體實(shí)施例中,基準(zhǔn)趨勢模型的建模是基于所述歷史數(shù)據(jù)利用以下幾種模型建立:正態(tài)分布模型、上升趨勢模型或者下降趨勢模型。
在本發(fā)明另一個(gè)具體實(shí)施例中,還包括一種信息系統(tǒng)告警裝置,包括:接收模塊,用于采集信息系統(tǒng)歷史數(shù)據(jù)、采集信息系統(tǒng)實(shí)時(shí)數(shù)據(jù);處理模塊,用于基于所述歷史CPU利用率數(shù)據(jù),利用概率密度函數(shù)的告警閾值優(yōu)化模型求解信息系統(tǒng)的最優(yōu)告警閾值;基于所述歷史數(shù)據(jù)進(jìn)行數(shù)學(xué)建模,用以建立信息系統(tǒng)監(jiān)控?cái)?shù)據(jù)基準(zhǔn)趨勢模型;告警模塊,用于基于信息系統(tǒng)實(shí)時(shí)數(shù)據(jù),確認(rèn)進(jìn)行告警。
最后,本申請的方法僅為較佳的實(shí)施方案,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。