本發(fā)明涉及大數(shù)據(jù)技術(shù)領(lǐng)域,特別是涉及基于離散隨機(jī)過(guò)程分析的虛擬采樣與系統(tǒng)錯(cuò)誤根源定位警戒機(jī)制的一種系統(tǒng)錯(cuò)誤定位方法及裝置。
背景技術(shù):
信息系統(tǒng)硬件、網(wǎng)絡(luò)設(shè)備與相關(guān)軟件程序等在日常運(yùn)行時(shí)會(huì)產(chǎn)生日志數(shù)據(jù),每一行日志都記載著日期、時(shí)間、用戶及變更等相關(guān)操作的描述。因此,對(duì)信息系統(tǒng)各類硬件的日志數(shù)據(jù)異常監(jiān)測(cè)可有效的排查危害系統(tǒng)正常運(yùn)行的因素。
日志監(jiān)測(cè)系統(tǒng)的作用在于定位海量日志數(shù)據(jù)中能夠引起系統(tǒng)異常的部分,系統(tǒng)的異常出現(xiàn)之前,日志數(shù)據(jù)往往以一定概率出現(xiàn)數(shù)據(jù)異?,F(xiàn)象,所以這些小概率的數(shù)據(jù)異常是日志監(jiān)測(cè)系統(tǒng)所重點(diǎn)關(guān)注的。日志檢測(cè)系統(tǒng)中最常用的技術(shù)手段是檢查日志,通過(guò)檢查日志,可以描述系統(tǒng)發(fā)生錯(cuò)位的具體情況,排查是物理?yè)p壞還是人為入侵。可以通過(guò)檢查日志,得到物理?yè)p壞的硬件位置,人為入侵的攻擊途徑,信息系統(tǒng)在物理?yè)p壞或人為入侵過(guò)程中分別遭受何種影響,信息系統(tǒng)發(fā)生了哪些改變,本次入侵是否只是下一輪攻擊的中間過(guò)程等等這些信息。統(tǒng)的日志檢查的方法包括:一是基于規(guī)則查找,通過(guò)已知攻擊的特征進(jìn)行分析,并從中提取數(shù)據(jù)異常的固定規(guī)則,將這類規(guī)則收集起來(lái)形成一個(gè)規(guī)則集合,信息系統(tǒng)在運(yùn)行過(guò)程可以通過(guò)檢索這些規(guī)則集合中的信息從而判定發(fā)生的數(shù)據(jù)不一致現(xiàn)象是否對(duì)系統(tǒng)正常運(yùn)行構(gòu)成威脅;二是統(tǒng)計(jì)學(xué)方法,此方法通過(guò)對(duì)信息收發(fā)量、系統(tǒng)資源占用率等相關(guān)數(shù)據(jù)設(shè)置一個(gè)正常標(biāo)準(zhǔn)閾值,當(dāng)系統(tǒng)實(shí)際運(yùn)行超過(guò)這個(gè)標(biāo)準(zhǔn)閾值就認(rèn)為是運(yùn)行異常。
雖然通過(guò)檢查日志可以幫助日志檢測(cè)系統(tǒng)定位能夠引起系統(tǒng)異常的部分,但是在現(xiàn)實(shí)中,即使正常運(yùn)行的系統(tǒng)也會(huì)以一定概率出現(xiàn)各類日志數(shù)據(jù)的隨機(jī)異常,這類數(shù)據(jù)錯(cuò)誤現(xiàn)象往往是隨機(jī)產(chǎn)生且難以避免的,但并不會(huì)對(duì)系統(tǒng)正常運(yùn)行產(chǎn)生影響,這樣就造成了那些能夠引起系統(tǒng)錯(cuò)誤的異常數(shù)據(jù)被淹沒(méi)在隨機(jī)異常中。并且在大數(shù)據(jù)時(shí)代,需要處理的數(shù)據(jù)量更大并且數(shù)據(jù)種類也隨之增加,數(shù)據(jù)產(chǎn)生和變化的速度也越來(lái)越快,這就需要日志檢測(cè)系統(tǒng)的數(shù)據(jù)處理要求與大數(shù)據(jù)的特點(diǎn)相一致。這也就使得在大數(shù)據(jù)環(huán)境下的信息系統(tǒng)中,日志監(jiān)測(cè)需要處理的日志信息量較為龐大,也對(duì)異常數(shù)據(jù)處理提出了較高的實(shí)時(shí)性要求,顯然傳統(tǒng)的日志檢測(cè)方法已經(jīng)不能作為在大數(shù)據(jù)環(huán)境下,進(jìn)行網(wǎng)絡(luò)與系統(tǒng)的異常判別了的方法了。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)于上述問(wèn)題,本發(fā)明提供一種系統(tǒng)錯(cuò)誤定位方法及裝置,解決了如何在大數(shù)據(jù)環(huán)境下進(jìn)行網(wǎng)絡(luò)與系統(tǒng)異常判別和維護(hù)信息安全的問(wèn)題。
為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的第一方面,提供了一種異常判別方法,該方法包括:
設(shè)置日志數(shù)據(jù)中異常數(shù)據(jù)的提取規(guī)則,并儲(chǔ)存所述異常數(shù)據(jù);
構(gòu)建日志數(shù)據(jù)的數(shù)據(jù)狀態(tài)轉(zhuǎn)移表,獲得所述日志數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率;
根據(jù)所述日志數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率,對(duì)所述日志數(shù)據(jù)進(jìn)行高頻采樣,計(jì)算獲得所述異常數(shù)據(jù)的轉(zhuǎn)移概率,并獲得所述異常數(shù)據(jù)的特征矩陣;
建立異常判別函數(shù),依據(jù)所述特征矩陣,對(duì)引起系統(tǒng)異常的根源進(jìn)行定位判斷。
優(yōu)選的,所述設(shè)置日志數(shù)據(jù)中異常數(shù)據(jù)的提取規(guī)則,并儲(chǔ)存所述異常數(shù)據(jù),包括:
根據(jù)預(yù)設(shè)原則,設(shè)置所述異常數(shù)據(jù)的提取規(guī)則,其中,所述預(yù)設(shè)原則包括單個(gè)數(shù)據(jù)范圍超過(guò)數(shù)據(jù)定義域;或者整體數(shù)據(jù)集合范圍超過(guò)數(shù)據(jù)定義域;或者數(shù)據(jù)結(jié)構(gòu)不滿足預(yù)設(shè)的數(shù)據(jù)結(jié)構(gòu);或者數(shù)據(jù)格式不滿足預(yù)設(shè)的數(shù)據(jù)格式;或者數(shù)據(jù)不滿足相關(guān)函數(shù)的依賴關(guān)系;或者數(shù)據(jù)為空集;
根據(jù)所述異常數(shù)據(jù)的提取規(guī)則,提取所述日志數(shù)據(jù)中的異常數(shù)據(jù);
建立所述異常數(shù)據(jù)與其所對(duì)應(yīng)的提取規(guī)則的記錄模式,并根據(jù)所述記錄模式存儲(chǔ)所述異常數(shù)據(jù),其中,所述記錄模式為存儲(chǔ)異常數(shù)據(jù)的同時(shí)并存儲(chǔ)與所述異常數(shù)據(jù)對(duì)應(yīng)的提取規(guī)則的標(biāo)簽。
優(yōu)選的,所述構(gòu)建日志數(shù)據(jù)的數(shù)據(jù)狀態(tài)轉(zhuǎn)移表,獲得所述日志數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率,包括:
計(jì)算獲得所述日志數(shù)據(jù)的單位模式周期t,其中,
t=max{min[t(log1)],min[t(log2)],min[t(log3)],k}
式中,t表示單位模式周期,函數(shù)t()表示取檢測(cè)其中日志的最小周期,logi,i=1,2,3,k表示標(biāo)號(hào)為i的日志;
構(gòu)造所述日志數(shù)據(jù)的靜態(tài)模式,其中,所述靜態(tài)模式為所述單位模式周期內(nèi),所述日志數(shù)據(jù)的各個(gè)標(biāo)簽屬性的數(shù)據(jù)值的集合;
對(duì)所述靜態(tài)模式進(jìn)行頻率統(tǒng)計(jì),獲得所述日志數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率。
優(yōu)選的,所述根據(jù)所述日志數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率,對(duì)所述日志數(shù)據(jù)進(jìn)行高頻采樣,計(jì)算獲得所述異常數(shù)據(jù)的轉(zhuǎn)移概率,并獲得所述異常數(shù)據(jù)的特征矩陣,包括:
構(gòu)建日志數(shù)據(jù)采樣的隨機(jī)過(guò)程,并獲得所述日志采樣的異常數(shù)據(jù)的轉(zhuǎn)移概率的轉(zhuǎn)移矩陣;
根據(jù)所述轉(zhuǎn)移概率矩陣與所述日志數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率進(jìn)行對(duì)比,獲得所述異常模式的異常數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率,并生成相應(yīng)的矩陣,其中,所述異常模式為排除所述系統(tǒng)自身隨機(jī)產(chǎn)生的異常數(shù)據(jù)的異常模式的集合;
將所述矩陣中的元素分別與預(yù)設(shè)的閾值進(jìn)行比較,并根據(jù)
優(yōu)選的,所述建立異常判別函數(shù),依據(jù)所述特征矩陣,對(duì)引起系統(tǒng)異常的根源進(jìn)行定位判斷,包括:
根據(jù)所述日志在子系統(tǒng)中的優(yōu)先級(jí),設(shè)置各個(gè)子系統(tǒng)的動(dòng)態(tài)采樣頻率f,其中,f=ωh(f),式中,f表示動(dòng)態(tài)頻率,h(f)表示基礎(chǔ)頻率f的動(dòng)態(tài)調(diào)和函數(shù),ω表示頻率動(dòng)態(tài)調(diào)節(jié)參數(shù);
根據(jù)所述動(dòng)態(tài)采樣頻率,構(gòu)造齊區(qū)間函數(shù)h(f),其中,h=h(f)=h[ωh(f)],式中,h(f)為一個(gè)關(guān)于動(dòng)態(tài)采樣頻率的時(shí)齊區(qū)間長(zhǎng)度函數(shù);
根據(jù)式
當(dāng)多次虛擬采樣后的特征矩陣滿足
當(dāng)高頻虛擬采樣后的特征矩陣滿足
根據(jù)本發(fā)明的第二方面,提供了一種系統(tǒng)錯(cuò)誤定位裝置,該裝置包括:
提取模塊,用于設(shè)置日志數(shù)據(jù)中異常數(shù)據(jù)的提取規(guī)則,并儲(chǔ)存所述異常數(shù)據(jù);
概率獲取模塊,用于構(gòu)建日志數(shù)據(jù)的數(shù)據(jù)狀態(tài)轉(zhuǎn)移表,獲得所述日志數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率;
特征矩陣獲取模塊,用于根據(jù)所述日志數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率,對(duì)所述日志數(shù)據(jù)進(jìn)行高頻采樣,計(jì)算獲得所述異常數(shù)據(jù)的轉(zhuǎn)移概率,并獲得所述異常數(shù)據(jù)的特征矩陣;
判斷模塊,用于建立異常判別函數(shù),依據(jù)所述特征矩陣,對(duì)引起系統(tǒng)異常的根源進(jìn)行定位判斷。
優(yōu)選的,所述提取模塊包括:
設(shè)置單元,用于根據(jù)預(yù)設(shè)原則,設(shè)置所述異常數(shù)據(jù)的提取規(guī)則,其中,所述預(yù)設(shè)原則包括單個(gè)數(shù)據(jù)范圍超過(guò)數(shù)據(jù)定義域;或者整體數(shù)據(jù)集合范圍超過(guò)數(shù)據(jù)定義域;或者數(shù)據(jù)結(jié)構(gòu)不滿足預(yù)設(shè)的數(shù)據(jù)結(jié)構(gòu);或者數(shù)據(jù)格式不滿足預(yù)設(shè)的數(shù)據(jù)格式;或者數(shù)據(jù)不滿足相關(guān)函數(shù)的依賴關(guān)系;或者數(shù)據(jù)為空集;
提取單元,用于根據(jù)所述異常數(shù)據(jù)的提取規(guī)則,提取所述日志數(shù)據(jù)中的異常數(shù)據(jù);
記錄單元,用于建立所述異常數(shù)據(jù)與其所對(duì)應(yīng)的提取規(guī)則的記錄模式,并根據(jù)所述記錄模式存儲(chǔ)所述異常數(shù)據(jù),其中,所述記錄模式為存儲(chǔ)異常數(shù)據(jù)的同時(shí)并存儲(chǔ)與所述異常數(shù)據(jù)對(duì)應(yīng)的提取規(guī)則的標(biāo)簽。
優(yōu)選的,所述概率獲取模塊包括:
計(jì)算單元,用于計(jì)算獲得所述日志數(shù)據(jù)的單位模式周期t,其中,
t=max{min[t(log1)],min[t(log2)],min[t(log3)],k}
式中,t表示單位模式周期,函數(shù)t()表示取檢測(cè)其中日志的最小周期,logi,i=1,2,3,k表示標(biāo)號(hào)為i的日志;
構(gòu)造單元,用于構(gòu)造所述日志數(shù)據(jù)的靜態(tài)模式,其中,所述靜態(tài)模式為所述單位模式周期內(nèi),所述日志數(shù)據(jù)的各個(gè)標(biāo)簽屬性的數(shù)據(jù)值的集合;
統(tǒng)計(jì)單元,用于對(duì)所述靜態(tài)模式進(jìn)行頻率統(tǒng)計(jì),獲得所述日志數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率。
優(yōu)選的,所述特征矩陣獲取模塊包括:
構(gòu)建單元,用于構(gòu)建日志數(shù)據(jù)采樣的隨機(jī)過(guò)程,并獲得所述日志采樣的異常數(shù)據(jù)的轉(zhuǎn)移概率的轉(zhuǎn)移矩陣;
生成單元,用于根據(jù)所述轉(zhuǎn)移概率矩陣與所述日志數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率進(jìn)行對(duì)比,獲得所述異常模式的異常數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率,并生成相應(yīng)的矩陣,其中,所述異常模式為排除所述系統(tǒng)自身隨機(jī)產(chǎn)生的異常數(shù)據(jù)的異常模式的集合;
矩陣生成單元,用于將所述矩陣中的元素分別與預(yù)設(shè)的閾值進(jìn)行比較,并根據(jù)
優(yōu)選的,所述判斷模塊包括:
采樣設(shè)置單元,用于根據(jù)所述日志在子系統(tǒng)中的優(yōu)先級(jí),設(shè)置各個(gè)子系統(tǒng)的動(dòng)態(tài)采樣頻率f,其中,f=ωh(f),式中,f表示動(dòng)態(tài)頻率,h(f)表示基礎(chǔ)頻率f的動(dòng)態(tài)調(diào)和函數(shù),ω表示頻率動(dòng)態(tài)調(diào)節(jié)參數(shù);
構(gòu)造子單元,用于根據(jù)所述動(dòng)態(tài)采樣頻率,構(gòu)造齊區(qū)間函數(shù)h(f),其中,h=h(f)=h[ωh(f)],式中,h(f)為一個(gè)關(guān)于動(dòng)態(tài)采樣頻率的時(shí)齊區(qū)間長(zhǎng)度函數(shù);
判斷單元,用于根據(jù)式
當(dāng)多次虛擬采樣后的特征矩陣滿足
當(dāng)高頻虛擬采樣后的特征矩陣滿足
相較于現(xiàn)有技術(shù),本發(fā)明通過(guò)對(duì)日志數(shù)據(jù)的分析提取了日志中的異常數(shù)據(jù),然后構(gòu)建日志數(shù)據(jù)的數(shù)據(jù)狀態(tài)轉(zhuǎn)移表,獲得狀態(tài)轉(zhuǎn)移概率,這樣可以估計(jì)日志數(shù)據(jù)中各類異常模式,并且通過(guò)異常數(shù)據(jù)的轉(zhuǎn)移概率進(jìn)行c-k方程(切普曼-柯?tīng)柲曷宸蚍匠?高頻采樣,解析出異常數(shù)據(jù)的特征矩陣,最后通過(guò)建立異常判別函數(shù),對(duì)引起系統(tǒng)異常的根源進(jìn)行定位判斷。本發(fā)明形成了分析日志數(shù)據(jù)異常的概率演化模式,從而快速由異常概率演化模式指向系統(tǒng)錯(cuò)誤分類,進(jìn)而解決了如何在大數(shù)據(jù)環(huán)境下進(jìn)行網(wǎng)絡(luò)與系統(tǒng)異常判別和維護(hù)信息安全的問(wèn)題。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例一提供的一種系統(tǒng)錯(cuò)誤定位方法的流程示意圖;
圖2為本發(fā)明實(shí)施例二對(duì)應(yīng)的圖1中所示s12步驟中的獲取日志數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率的流程示意圖;
圖3為本發(fā)明實(shí)施例二對(duì)應(yīng)的圖1中所示步驟s13步驟中的獲取特征矩陣的流程示意圖;
圖4為本發(fā)明實(shí)施例二對(duì)應(yīng)的圖1中所示步驟s14步驟中的系統(tǒng)錯(cuò)誤定位的流程示意圖;
圖5為本發(fā)明實(shí)施例三提供的一種系統(tǒng)錯(cuò)誤定位裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明的說(shuō)明書和權(quán)利要求書及上述附圖中的術(shù)語(yǔ)“第一”和“第二”等是用于區(qū)別不同的對(duì)象,而不是用于描述特定的順序。此外術(shù)語(yǔ)“包括”和“具有”以及他們?nèi)魏巫冃危鈭D在于覆蓋不排他的包含。例如包含了一系列步驟或單元的過(guò)程、方法、系統(tǒng)、產(chǎn)品或設(shè)備沒(méi)有設(shè)定于已列出的步驟或單元,而是可包括沒(méi)有列出的步驟或單元。
實(shí)施例一
參見(jiàn)圖1為本發(fā)明實(shí)施例一提供的一種系統(tǒng)錯(cuò)誤定位方法的流程示意圖,該方法包括以下步驟:
s11、設(shè)置日志數(shù)據(jù)中異常數(shù)據(jù)的提取規(guī)則,并儲(chǔ)存所述異常數(shù)據(jù);
具體的,在日志數(shù)據(jù)中異常數(shù)據(jù)也會(huì)被稱為數(shù)據(jù)不一致,而異常數(shù)據(jù)通常表現(xiàn)在很多方面,并且相關(guān)的研究工作也相對(duì)較為成熟,但是在實(shí)際應(yīng)用中不僅可以采用常規(guī)的異常數(shù)據(jù)發(fā)現(xiàn)規(guī)則,也可自行根據(jù)具體應(yīng)用環(huán)境定義異常數(shù)據(jù)的標(biāo)準(zhǔn),從而根據(jù)標(biāo)準(zhǔn)形成提取規(guī)則,在本發(fā)明實(shí)施例中設(shè)置了一個(gè)預(yù)設(shè)原則,根據(jù)所述預(yù)設(shè)原則形成了異常數(shù)據(jù)的提取規(guī)則,其中所述預(yù)設(shè)原則包括:
單個(gè)數(shù)據(jù)范圍超過(guò)數(shù)據(jù)定義域,或者整體數(shù)據(jù)集合范圍超過(guò)數(shù)據(jù)定義域,即
其中,d表示單個(gè)數(shù)據(jù)元素,d表示數(shù)據(jù)集合,r表示數(shù)據(jù)定義域;
數(shù)據(jù)結(jié)構(gòu)不滿足預(yù)設(shè)的數(shù)據(jù)結(jié)構(gòu),或者數(shù)據(jù)格式不滿足預(yù)設(shè)的數(shù)據(jù)格式;
數(shù)據(jù)不滿足相關(guān)函數(shù)的依賴關(guān)系,或者數(shù)據(jù)為空集。
根據(jù)需要將滿足一個(gè)或多個(gè)上述的預(yù)設(shè)原則的數(shù)據(jù)提取出來(lái),此時(shí)這些預(yù)設(shè)原則的集合成為提取規(guī)則。
根據(jù)所述異常數(shù)據(jù)的提取規(guī)則,提取所述日志數(shù)據(jù)中的異常數(shù)據(jù);
建立所述異常數(shù)據(jù)與其所對(duì)應(yīng)的提取規(guī)則的記錄模式,并根據(jù)所述記錄模式存儲(chǔ)所述異常數(shù)據(jù),其中,所述記錄模式為存儲(chǔ)異常數(shù)據(jù)的同時(shí)并存儲(chǔ)與所述異常數(shù)據(jù)對(duì)應(yīng)的提取規(guī)則的標(biāo)簽。
s12、構(gòu)建日志數(shù)據(jù)的數(shù)據(jù)狀態(tài)轉(zhuǎn)移表,獲得所述日志數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率;
具體的,日志數(shù)據(jù)的狀態(tài)是指數(shù)據(jù)在其定義域內(nèi)所處的位置,例如對(duì)于分類標(biāo)簽型數(shù)據(jù),狀態(tài)的形式是離散的數(shù)值或標(biāo)簽,對(duì)于連續(xù)的數(shù)據(jù),狀態(tài)的形式是一定的范圍劃分。數(shù)據(jù)在其定義域內(nèi)必然存在包含全部正常狀態(tài)的區(qū)間,稱這個(gè)區(qū)間狀態(tài)為正常狀態(tài)。當(dāng)數(shù)據(jù)超出正常狀態(tài)區(qū)間時(shí),稱數(shù)據(jù)處于非正常區(qū)間,此時(shí)會(huì)出現(xiàn)異常數(shù)據(jù)。
當(dāng)系統(tǒng)處在正常狀態(tài)時(shí),每次監(jiān)測(cè)日志的數(shù)據(jù)是趨于穩(wěn)定的,即日志某一屬性的數(shù)據(jù)從本單位模式周期所處的狀態(tài)轉(zhuǎn)移到下一單位模式周期的狀態(tài)依照較大概率服從已知的變化規(guī)律。而當(dāng)檢測(cè)到日志數(shù)據(jù)異常時(shí),說(shuō)明從上一狀態(tài)轉(zhuǎn)移到此刻狀態(tài)時(shí),數(shù)據(jù)依一個(gè)小概率進(jìn)行轉(zhuǎn)移,所以獲取所述轉(zhuǎn)移概率可以得到異常數(shù)據(jù)的相關(guān)信息。
s13、根據(jù)所述日志數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率,對(duì)所述日志數(shù)據(jù)進(jìn)行高頻采樣,計(jì)算獲得所述異常數(shù)據(jù)的轉(zhuǎn)移概率,并獲得所述異常數(shù)據(jù)的特征矩陣;
具體的,在步驟s12中獲得日志數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率時(shí),包含了日志中某一屬性的數(shù)據(jù)跨越一個(gè)單位模式周期時(shí),全部的可能狀態(tài)的轉(zhuǎn)移概率。她們是對(duì)歷史日志統(tǒng)計(jì)得到的統(tǒng)計(jì)值,這些轉(zhuǎn)移概率本身并不能全部提現(xiàn)系統(tǒng)異常的特征,即當(dāng)監(jiān)測(cè)到異常數(shù)據(jù)時(shí),相應(yīng)的系統(tǒng)異常類別只是以一個(gè)較大的概率已經(jīng)發(fā)生,而不是必然發(fā)生。這是因?yàn)槌霈F(xiàn)異常數(shù)據(jù)時(shí),也要區(qū)分是系統(tǒng)自身隨機(jī)產(chǎn)生的還是系統(tǒng)出現(xiàn)異常產(chǎn)生的,所以要進(jìn)一步獲取異常數(shù)據(jù)的轉(zhuǎn)移概率,并得到異常數(shù)據(jù)的特征矩陣。
s14、建立異常判別函數(shù),依據(jù)所述特征矩陣,對(duì)引起系統(tǒng)異常的根源進(jìn)行定位判斷。
通過(guò)本發(fā)明實(shí)施例一公開(kāi)的技術(shù)方案,對(duì)日志數(shù)據(jù)的分析提取了日志中的異常數(shù)據(jù),然后構(gòu)建日志數(shù)據(jù)的數(shù)據(jù)狀態(tài)轉(zhuǎn)移表,獲得狀態(tài)轉(zhuǎn)移概率,這樣可以估計(jì)日志數(shù)據(jù)中各類異常模式,并且通過(guò)異常數(shù)據(jù)的轉(zhuǎn)移概率進(jìn)行c-k方程(切普曼-柯?tīng)柲曷宸蚍匠?高頻采樣,解析出異常數(shù)據(jù)的特征矩陣,最后通過(guò)建立異常判別函數(shù),對(duì)引起系統(tǒng)異常的根源進(jìn)行定位判斷。本發(fā)明形成了分析日志數(shù)據(jù)異常的概率演化模式,從而快速由異常概率演化模式指向系統(tǒng)錯(cuò)誤分類,進(jìn)而解決了如何在大數(shù)據(jù)環(huán)境下進(jìn)行網(wǎng)絡(luò)與系統(tǒng)異常判別和維護(hù)信息安全的問(wèn)題。
實(shí)施例二
參照本發(fā)明實(shí)施例一和圖1中所描述的s11到s14步驟的具體過(guò)程,并且參見(jiàn)圖2,圖2為本發(fā)明實(shí)施例二對(duì)應(yīng)的圖1中所示s12步驟中的獲取日志數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率的流程示意圖,所述步驟s12構(gòu)建日志數(shù)據(jù)的數(shù)據(jù)狀態(tài)轉(zhuǎn)移表,獲得所述日志數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率,具體包括:
s121、計(jì)算獲得所述日志數(shù)據(jù)的單位模式周期t,其中,
t=max{min[t(log1)],min[t(log2)],min[t(log3)],k}
式中,t表示單位模式周期,函數(shù)t()表示取檢測(cè)其中日志的最小周期,logi,i=1,2,3,k表示標(biāo)號(hào)為i的日志;
具體的,單位模式周期指一個(gè)采樣到系統(tǒng)中所有日志項(xiàng)目的最小周期。
s122、構(gòu)造所述日志數(shù)據(jù)的靜態(tài)模式,其中,所述靜態(tài)模式為所述單位模式周期內(nèi),所述日志數(shù)據(jù)的各個(gè)標(biāo)簽屬性的數(shù)據(jù)值的集合;
可以理解的是,日志中的異常數(shù)據(jù)有時(shí)會(huì)單個(gè)隨機(jī)出現(xiàn),有時(shí)會(huì)集體并發(fā)出現(xiàn),這兩種出現(xiàn)方式皆可作為區(qū)分異常數(shù)據(jù)類型的依據(jù)。其中異常數(shù)據(jù)出現(xiàn)可以看作是在單位模式周期內(nèi),多個(gè)獨(dú)立屬性的數(shù)據(jù)發(fā)生變化,其變化組合符合了異常數(shù)據(jù)的提取規(guī)則。其發(fā)生概率依照下面的式子進(jìn)行計(jì)算
p(d1,d2,...,dn)=p(d1)p(d2)lp(dn)
其中,p(d1,d2,...,dn)表示隨機(jī)異常d1,d2,...,dn同時(shí)發(fā)生的概率。
靜態(tài)模式就是單位模式周期內(nèi)日志各屬性的數(shù)據(jù)值的集合,若系統(tǒng)發(fā)生異常,引發(fā)相應(yīng)日志數(shù)據(jù)異常的特定組合也會(huì)包含在靜態(tài)模式中,這些異常數(shù)據(jù)組合表征了系統(tǒng)異常的特征,而靜態(tài)模式用來(lái)記錄此類特征。
s123、對(duì)所述靜態(tài)模式進(jìn)行頻率統(tǒng)計(jì),獲得所述日志數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率。
相應(yīng)的參見(jiàn)圖3為本發(fā)明實(shí)施例二對(duì)應(yīng)的圖1中所示步驟s13步驟中的獲取特征矩陣的流程示意圖,所述步驟s13根據(jù)所述日志數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率,對(duì)所述日志數(shù)據(jù)進(jìn)行高頻采樣,計(jì)算獲得所述異常數(shù)據(jù)的轉(zhuǎn)移概率,并獲得所述異常數(shù)據(jù)的特征矩陣,具體包括:
s131、構(gòu)建日志數(shù)據(jù)采樣的隨機(jī)過(guò)程,并獲得所述日志采樣的異常數(shù)據(jù)的轉(zhuǎn)移概率的轉(zhuǎn)移矩陣;
具體的,日志采樣過(guò)程本質(zhì)上是一個(gè)參數(shù)(時(shí)間)離散與狀態(tài)(數(shù)據(jù)所處范圍)離散的隨機(jī)過(guò)程。構(gòu)建日志采樣隨機(jī)過(guò)程{xn,n=0,1,2…},其中,xn為采樣后的日志數(shù)據(jù)狀態(tài),n為采樣序號(hào)(狀態(tài)參數(shù)),由于各狀態(tài)是獨(dú)立的,并且本次采樣狀態(tài)只與上一次采樣系統(tǒng)狀態(tài)相關(guān),那么日志采樣的隨機(jī)過(guò)程是一個(gè)馬爾科夫鏈,證明過(guò)程如下:
由于n是有限可列的,并且
使得
p(xn+1=j(luò)|x0=i0,x1=i1,…,xn-1=in-1,xn=i)=p(xn+1=j(luò)|xn=i)
即采樣過(guò)程滿足馬氏性,{xn,n=0,1,2,l}為一個(gè)馬爾可夫鏈。
構(gòu)造異常數(shù)據(jù)的轉(zhuǎn)移矩陣:
其中,pij(i,j=0,1,2,l)為日志數(shù)據(jù)從狀態(tài)i轉(zhuǎn)移到狀態(tài)j的一步轉(zhuǎn)移概率。數(shù)據(jù)狀態(tài)轉(zhuǎn)移矩陣是靜態(tài)模式的概率特征形式化表達(dá),完整包含了靜態(tài)模式中,數(shù)據(jù)處在所有可能狀態(tài)的概率信息。在現(xiàn)實(shí)中,短時(shí)期日志數(shù)據(jù)的轉(zhuǎn)移概率受采樣初始時(shí)刻的影響較小,日志數(shù)據(jù)異常轉(zhuǎn)移概率具有時(shí)齊性。
s132、根據(jù)所述轉(zhuǎn)移概率矩陣與所述日志數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率進(jìn)行對(duì)比,獲得所述異常模式的異常數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率,并生成相應(yīng)的矩陣,其中,所述異常模式為排除所述系統(tǒng)自身隨機(jī)產(chǎn)生的異常數(shù)據(jù)的異常模式的集合;
具體的,如果要是獲取異常模式下的異常數(shù)據(jù)的轉(zhuǎn)移矩陣,首先要對(duì)整個(gè)系統(tǒng)的日志數(shù)據(jù)經(jīng)過(guò)高頻m+n次采樣后的演化概率分布,根據(jù)切普曼-柯?tīng)柲缏宸蚍匠?c-k方程),
其中,為狀態(tài)i經(jīng)歷m+n次采樣后轉(zhuǎn)移到狀態(tài)j的概率,
s133、將所述矩陣中的元素分別與預(yù)設(shè)的閾值進(jìn)行比較,并根據(jù)
具體的,根據(jù)c-k方程計(jì)算出的n+m步轉(zhuǎn)移矩陣包含了所有狀態(tài)的轉(zhuǎn)移概率分布情況,對(duì)其中各個(gè)元素設(shè)置一個(gè)小概率閾值λ,提取n+m步轉(zhuǎn)移矩陣中所有小于λ的元素,這些小于閾值的元素所在矩陣位置標(biāo)定了所有小概率事件的狀態(tài)轉(zhuǎn)移分布情況。
根據(jù)
數(shù)據(jù)狀態(tài)經(jīng)歷多次采樣實(shí)際是通過(guò)c-k方程模擬出的采樣估計(jì)而來(lái),而系統(tǒng)不需要真正實(shí)施多次采樣過(guò)程,這種通過(guò)轉(zhuǎn)移概率計(jì)算估計(jì)而來(lái)的采樣過(guò)程成為虛擬高頻采樣,采用這種方法可有效節(jié)約采樣環(huán)節(jié)的系統(tǒng)資源浪費(fèi)。
相應(yīng)的,參見(jiàn)圖4為本發(fā)明實(shí)施例二對(duì)應(yīng)的圖1中所示步驟s14步驟中的系統(tǒng)錯(cuò)誤定位的流程示意圖,所述步驟s14建立異常判別函數(shù),依據(jù)所述特征矩陣,對(duì)引起系統(tǒng)異常的根源進(jìn)行定位判斷,具體包括:
s141、根據(jù)所述日志在子系統(tǒng)中的優(yōu)先級(jí),設(shè)置各個(gè)子系統(tǒng)的動(dòng)態(tài)采樣頻率f,其中,f=ωh(f),式中,f表示動(dòng)態(tài)頻率,h(f)表示基礎(chǔ)頻率f的動(dòng)態(tài)調(diào)和函數(shù),ω表示頻率動(dòng)態(tài)調(diào)節(jié)參數(shù);
具體的,h(f)表示基礎(chǔ)頻率f的動(dòng)態(tài)調(diào)和函數(shù),其中基礎(chǔ)頻率是指系統(tǒng)中最小的采樣頻率,動(dòng)態(tài)調(diào)和函數(shù)是一個(gè)關(guān)于基礎(chǔ)頻率的量綱統(tǒng)一調(diào)和映射,它的表達(dá)式可以根據(jù)具體應(yīng)用環(huán)境來(lái)定義,其存在目的是保證基礎(chǔ)頻率與系統(tǒng)其他頻率在進(jìn)行動(dòng)態(tài)調(diào)節(jié)時(shí)的量綱統(tǒng)一。ω表示頻率動(dòng)態(tài)調(diào)節(jié)參數(shù),其作用是對(duì)基礎(chǔ)采樣頻率依采樣需求進(jìn)行適時(shí)放大,起到調(diào)節(jié)頻率的作用。
s142、根據(jù)所述動(dòng)態(tài)采樣頻率,構(gòu)造齊區(qū)間函數(shù)h(f),其中,h=h(f)=h[ωh(f)],式中,h(f)為一個(gè)關(guān)于動(dòng)態(tài)采樣頻率的時(shí)齊區(qū)間長(zhǎng)度函數(shù);
具體的,通過(guò)得到的多次采樣后的分布的是基于短時(shí)間高頻次虛擬采樣而來(lái),更一般的,對(duì)于現(xiàn)實(shí)日志監(jiān)測(cè)任務(wù),時(shí)間跨度是較長(zhǎng)的,此時(shí)數(shù)據(jù)轉(zhuǎn)移矩陣不滿足時(shí)齊性假設(shè),但由于一個(gè)非齊次時(shí)間跨度是可以分為不同的多個(gè)齊次時(shí)間區(qū)間的,可以通過(guò)下式計(jì)算不一致數(shù)據(jù)分布:
其中,
一個(gè)非時(shí)齊時(shí)間跨度為x的虛擬采樣過(guò)程,需要統(tǒng)計(jì)確定個(gè)數(shù)據(jù)一步轉(zhuǎn)移矩陣,而當(dāng)時(shí)齊區(qū)間m設(shè)定為較大值時(shí),需要統(tǒng)計(jì)確定的數(shù)據(jù)一步轉(zhuǎn)移矩陣就越少,但是虛擬高頻采樣估算而得的特征精度也越低。
具體的,時(shí)齊區(qū)間需依上式構(gòu)造為關(guān)于動(dòng)態(tài)頻率的函數(shù),
h=h(f)=h[ωh(f)]
其中,h(f)為一個(gè)關(guān)于動(dòng)態(tài)采樣頻率的時(shí)齊區(qū)間長(zhǎng)度函數(shù),其具體函數(shù)表達(dá)式可根據(jù)應(yīng)用場(chǎng)景具體定義,但需保障設(shè)置成與f負(fù)相關(guān)的形式,并根據(jù)系統(tǒng)內(nèi)各子系統(tǒng)的優(yōu)先級(jí)設(shè)置不同的采樣頻率。例如較高頻率適合屬性記錄的更新速度較快的日志。
s143、根據(jù)式
當(dāng)多次虛擬采樣后的特征矩陣滿足
當(dāng)高頻虛擬采樣后的特征矩陣滿足
根據(jù)本發(fā)明實(shí)施例二公開(kāi)的技術(shù)方案,對(duì)日志數(shù)據(jù)的分析提取了日志中的異常數(shù)據(jù),并具體描述了通過(guò)靜態(tài)模式記錄了系統(tǒng)異常的特征,獲取了日志數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率,并形成了分析日志數(shù)據(jù)異常的概率演化模式,這樣可以估計(jì)日志數(shù)據(jù)中各類異常模式,并且通過(guò)異常數(shù)據(jù)的轉(zhuǎn)移概率進(jìn)行c-k方程(切普曼-柯?tīng)柲曷宸蚍匠?高頻采樣,解析出異常數(shù)據(jù)的特征矩陣即0和1矩陣,最后通過(guò)建立異常判別函數(shù),對(duì)引起系統(tǒng)異常的根源進(jìn)行定位判斷。從而快速由異常概率演化模式指向系統(tǒng)錯(cuò)誤分類,進(jìn)而解決了如何在大數(shù)據(jù)環(huán)境下進(jìn)行網(wǎng)絡(luò)與系統(tǒng)異常判別和維護(hù)信息安全的問(wèn)題。
實(shí)施例三
與本發(fā)明實(shí)施例一和實(shí)施例二所公開(kāi)的一種系統(tǒng)錯(cuò)誤定位方法相對(duì)應(yīng),本發(fā)明的實(shí)施例三還提供了一種系統(tǒng)錯(cuò)誤定位裝置,參見(jiàn)圖5為本發(fā)明實(shí)施例三提供的一種系統(tǒng)錯(cuò)誤定位裝置的結(jié)構(gòu)示意圖,該裝置包括:
提取模塊1,用于設(shè)置日志數(shù)據(jù)中異常數(shù)據(jù)的提取規(guī)則,并儲(chǔ)存所述異常數(shù)據(jù);
概率獲取模塊2,用于構(gòu)建日志數(shù)據(jù)的數(shù)據(jù)狀態(tài)轉(zhuǎn)移表,獲得所述日志數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率;
特征矩陣獲取模塊3,用于根據(jù)所述日志數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率,對(duì)所述日志數(shù)據(jù)進(jìn)行高頻采樣,計(jì)算獲得所述異常數(shù)據(jù)的轉(zhuǎn)移概率,并獲得所述異常數(shù)據(jù)的特征矩陣;
判斷模塊4,用于建立異常判別函數(shù),依據(jù)所述特征矩陣,對(duì)引起系統(tǒng)異常的根源進(jìn)行定位判斷。
相應(yīng)的,所述提取模塊1包括:
設(shè)置單元11,用于根據(jù)預(yù)設(shè)原則,設(shè)置所述異常數(shù)據(jù)的提取規(guī)則,其中,所述預(yù)設(shè)原則包括單個(gè)數(shù)據(jù)范圍超過(guò)數(shù)據(jù)定義域;或者整體數(shù)據(jù)集合范圍超過(guò)數(shù)據(jù)定義域;或者數(shù)據(jù)結(jié)構(gòu)不滿足預(yù)設(shè)的數(shù)據(jù)結(jié)構(gòu);或者數(shù)據(jù)格式不滿足預(yù)設(shè)的數(shù)據(jù)格式;或者數(shù)據(jù)不滿足相關(guān)函數(shù)的依賴關(guān)系;或者數(shù)據(jù)為空集;
提取單元12,用于根據(jù)所述異常數(shù)據(jù)的提取規(guī)則,提取所述日志數(shù)據(jù)中的異常數(shù)據(jù);
記錄單元13,用于建立所述異常數(shù)據(jù)與其所對(duì)應(yīng)的提取規(guī)則的記錄模式,并根據(jù)所述記錄模式存儲(chǔ)所述異常數(shù)據(jù),其中,所述記錄模式為存儲(chǔ)異常數(shù)據(jù)的同時(shí)并存儲(chǔ)與所述異常數(shù)據(jù)對(duì)應(yīng)的提取規(guī)則的標(biāo)簽。
對(duì)應(yīng)的,所述概率獲取模塊2包括:
計(jì)算單元21,用于計(jì)算獲得所述日志數(shù)據(jù)的單位模式周期t,其中,
t=max{min[t(log1)],min[t(log2)],min[t(log3)],k}
式中,t表示單位模式周期,函數(shù)t()表示取檢測(cè)其中日志的最小周期,logi,i=1,2,3,k表示標(biāo)號(hào)為i的日志;
構(gòu)造單元22,用于構(gòu)造所述日志數(shù)據(jù)的靜態(tài)模式,其中,所述靜態(tài)模式為所述單位模式周期內(nèi),所述日志數(shù)據(jù)的各個(gè)標(biāo)簽屬性的數(shù)據(jù)值的集合;
統(tǒng)計(jì)單元23,用于對(duì)所述靜態(tài)模式進(jìn)行頻率統(tǒng)計(jì),獲得所述日志數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率。
相應(yīng)的,所述特征矩陣獲取模塊3包括:
構(gòu)建單元31,用于構(gòu)建日志數(shù)據(jù)采樣的隨機(jī)過(guò)程,并獲得所述日志采樣的異常數(shù)據(jù)的轉(zhuǎn)移概率的轉(zhuǎn)移矩陣;
生成單元32,用于根據(jù)所述轉(zhuǎn)移概率矩陣與所述日志數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率進(jìn)行對(duì)比,獲得所述異常模式的異常數(shù)據(jù)的狀態(tài)轉(zhuǎn)移概率,并生成相應(yīng)的矩陣,其中,所述異常模式為排除所述系統(tǒng)自身隨機(jī)產(chǎn)生的異常數(shù)據(jù)的異常模式的集合;
矩陣生成單元33,用于將所述矩陣中的元素分別與預(yù)設(shè)的閾值進(jìn)行比較,并根據(jù)
具體的,所述判斷模塊4包括:
采樣設(shè)置單元41,用于根據(jù)所述日志在子系統(tǒng)中的優(yōu)先級(jí),設(shè)置各個(gè)子系統(tǒng)的動(dòng)態(tài)采樣頻率f,其中,f=ωh(f),式中,f表示動(dòng)態(tài)頻率,h(f)表示基礎(chǔ)頻率f的動(dòng)態(tài)調(diào)和函數(shù),ω表示頻率動(dòng)態(tài)調(diào)節(jié)參數(shù);
構(gòu)造子單元42,用于根據(jù)所述動(dòng)態(tài)采樣頻率,構(gòu)造齊區(qū)間函數(shù)h(f),其中,h=h(f)=h[ωh(f)],式中,h(f)為一個(gè)關(guān)于動(dòng)態(tài)采樣頻率的時(shí)齊區(qū)間長(zhǎng)度函數(shù);
判斷單元43,用于根據(jù)式
當(dāng)多次虛擬采樣后的特征矩陣滿足
當(dāng)高頻虛擬采樣后的特征矩陣滿足
在本發(fā)明的實(shí)施例三中,通過(guò)提取模塊對(duì)日志數(shù)據(jù)的分析提取了日志中的異常數(shù)據(jù),然后在概率獲取模塊中構(gòu)建日志數(shù)據(jù)的數(shù)據(jù)狀態(tài)轉(zhuǎn)移表,獲得狀態(tài)轉(zhuǎn)移概率,這樣可以估計(jì)日志數(shù)據(jù)中各類異常模式,并且通過(guò)特征矩陣獲取模塊異常數(shù)據(jù)的轉(zhuǎn)移概率進(jìn)行c-k方程(切普曼-柯?tīng)柲曷宸蚍匠?高頻采樣,解析出異常數(shù)據(jù)的特征矩陣,最后通過(guò)判斷模塊建立異常判別函數(shù),對(duì)引起系統(tǒng)異常的根源進(jìn)行定位判斷。本發(fā)明形成了分析日志數(shù)據(jù)異常的概率演化模式,從而快速由異常概率演化模式指向系統(tǒng)錯(cuò)誤分類,進(jìn)而解決了如何在大數(shù)據(jù)環(huán)境下進(jìn)行網(wǎng)絡(luò)與系統(tǒng)異常判別和維護(hù)信息安全的問(wèn)題。
本說(shuō)明書中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似部分互相參見(jiàn)即可。對(duì)于實(shí)施例公開(kāi)的裝置而言,由于其與實(shí)施例公開(kāi)的方法相對(duì)應(yīng),所以描述的比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法部分說(shuō)明即可。
對(duì)所公開(kāi)的實(shí)施例的上述說(shuō)明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域的專業(yè)技術(shù)人員來(lái)說(shuō)將是顯而易見(jiàn)的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明將不會(huì)被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開(kāi)的原理和新穎特點(diǎn)相一致的最寬的范圍。