本發(fā)明涉及數(shù)字化監(jiān)測(cè),具體為一種基于大數(shù)據(jù)的云平臺(tái)信息數(shù)字化監(jiān)測(cè)系統(tǒng)及方法。
背景技術(shù):
1、云平臺(tái)是一種基于云計(jì)算技術(shù)的服務(wù)平臺(tái),提供各種云服務(wù),包括基礎(chǔ)設(shè)施、虛擬化、云平臺(tái)管理系統(tǒng)、開(kāi)發(fā)者環(huán)境、用戶界面、數(shù)據(jù)存儲(chǔ)、安全機(jī)制等;云平臺(tái)可以方便地幫助開(kāi)發(fā)者、企業(yè)等快速搭建和管理自己的云環(huán)境,實(shí)現(xiàn)資源的共享和優(yōu)化;云平臺(tái)具有彈性可擴(kuò)展、安全穩(wěn)定、易于管理等特點(diǎn),可以滿足不同用戶的需求;云平臺(tái)安全事件是指云平臺(tái)在運(yùn)行過(guò)程中發(fā)生的各種安全問(wèn)題,包括但不限于網(wǎng)絡(luò)攻擊、系統(tǒng)故障、數(shù)據(jù)泄露等,云平臺(tái)安全事件可能會(huì)對(duì)用戶的數(shù)據(jù)和業(yè)務(wù)造成損失,因此需要及時(shí)發(fā)現(xiàn)和解決,而不同安全事件的處理方法各不相同,因此,如何加快識(shí)別云平臺(tái)安全事件類型的速度成為了一個(gè)需要解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于大數(shù)據(jù)的云平臺(tái)信息數(shù)字化監(jiān)測(cè)系統(tǒng)及方法,以解決上述背景技術(shù)中提出的問(wèn)題。
2、在本發(fā)明的一個(gè)方面,提供一種基于大數(shù)據(jù)的云平臺(tái)信息數(shù)字化監(jiān)測(cè)系統(tǒng),包括:數(shù)據(jù)采集模塊、云平臺(tái)、數(shù)據(jù)分析模塊和安全模塊;所述數(shù)據(jù)采集模塊的輸出端與云平臺(tái)和數(shù)據(jù)分析模塊的輸入端相互連接,用于獲取安全事件的特征數(shù)據(jù);所述云平臺(tái)與數(shù)據(jù)分析模塊相互連接,用于存儲(chǔ)歷史安全事件的特征數(shù)據(jù),未發(fā)生安全事件作為一種特殊的安全事件,特征數(shù)據(jù)也存儲(chǔ)在云平臺(tái)中;所述數(shù)據(jù)分析模塊的輸出端與所述安全模塊的輸入端相互連接,基于安全事件的特征數(shù)據(jù),分析安全事件的類型,將分析結(jié)果反饋給安全模塊;所述安全模塊根據(jù)安全事件的類型,對(duì)安全事件進(jìn)行處理。
3、具體地,所述云平臺(tái)還包括:基礎(chǔ)設(shè)施層、虛擬化層、開(kāi)發(fā)層、交互層、數(shù)據(jù)層和安全機(jī)制層,所述基礎(chǔ)設(shè)施層包括物理硬件資源和管理物理硬件的軟件;所述虛擬化層用于將物理硬件資源轉(zhuǎn)化成虛擬資源在云平臺(tái)上運(yùn)行;所述開(kāi)發(fā)層用于提供各種編程語(yǔ)言的開(kāi)發(fā)環(huán)境;所述交互層用于和用戶之間進(jìn)行交互,用戶通過(guò)交互層對(duì)云平臺(tái)賬號(hào)進(jìn)行管理;所述數(shù)據(jù)層用于存儲(chǔ)用戶數(shù)據(jù)和安全事件的特征數(shù)據(jù);所述安全機(jī)制層用于提供保障用戶數(shù)據(jù)安全的安全機(jī)制。
4、具體地,所述數(shù)據(jù)分析模塊以所有安全事件的判斷成功率p{b|c}作為評(píng)估指標(biāo),在歷史安全事件的特征數(shù)據(jù)中通過(guò)網(wǎng)格搜索法找到最少點(diǎn)數(shù)和鄰域半徑的最佳組合,以dbscan算法對(duì)當(dāng)前安全事件的特征數(shù)據(jù)進(jìn)行聚類,分類各類安全事件發(fā)生的概率。
5、具體地,所述安全模塊中還存儲(chǔ)各類安全事件的處理記錄,當(dāng)安全模塊接收到數(shù)據(jù)分析模塊發(fā)生的分析結(jié)果時(shí),從處理記錄中找到對(duì)應(yīng)安全事件的識(shí)別、追蹤和處理方法。
6、在本發(fā)明的另一個(gè)方面,提供一種基于大數(shù)據(jù)的云平臺(tái)信息數(shù)字化監(jiān)測(cè)方法,包括以下步驟:
7、s5-1,從云平臺(tái)中實(shí)時(shí)獲取安全事件的特征數(shù)據(jù);
8、s5-2,基于安全事件的特征數(shù)據(jù),對(duì)當(dāng)前安全事件的特征數(shù)據(jù)進(jìn)行聚類;
9、s5-3,若當(dāng)前安全事件的特征數(shù)據(jù)為離群值,則采取全方位檢測(cè)和處理的方式,處理所有返回步驟s5-1;若當(dāng)前安全事件的特征數(shù)據(jù)不為離群值,則根據(jù)聚類結(jié)果確定正確預(yù)測(cè)各類安全事件發(fā)生的概率,按照概率從高到低的順序逐個(gè)由安全模塊進(jìn)行識(shí)別,并針對(duì)不同安全事件執(zhí)行不同的處理方式,返回步驟s5-1。
10、在步驟s5-2中,所述對(duì)當(dāng)前安全事件的特征數(shù)據(jù)進(jìn)行聚類,具體包括以下步驟:
11、s6-1,記安全事件的特征為a1、a2、…an,n是安全事件特征的個(gè)數(shù);
12、s6-2,設(shè)置dbscan算法需要的最少點(diǎn)數(shù)minpts和鄰域半徑eps的搜索范圍,以網(wǎng)格搜索法在最少點(diǎn)數(shù)和鄰域半徑的搜索范圍尋找最少點(diǎn)數(shù)和鄰域半徑的最佳組合,基于對(duì)組合效果進(jìn)行評(píng)估;其中,j的取值范圍是區(qū)間[1,v]之間的正整數(shù),v為歷史數(shù)據(jù)中發(fā)生安全事件的特征數(shù)據(jù)的個(gè)數(shù);對(duì)于歷史數(shù)據(jù)中第j個(gè)發(fā)生安全事件的特征數(shù)據(jù),表示預(yù)測(cè)第i個(gè)安全事件會(huì)發(fā)生,ci表示第i個(gè)安全事件發(fā)生;表示第i個(gè)安全事件發(fā)生,且成功預(yù)測(cè)第i個(gè)安全事件發(fā)生的概率,i的取值范圍是區(qū)間[0,m]之間的正整數(shù),m是安全事件類型的總個(gè)數(shù),表示預(yù)測(cè)安全事件不會(huì)發(fā)生,c0表示安全事件未發(fā)生;表示預(yù)測(cè)安全事件未發(fā)生后,安全事件確實(shí)未發(fā)生的概率,將不發(fā)生安全事件作為一種特殊的安全事件,與所有安全事件放在一起進(jìn)行分析;
13、s6-3,以a1、a2、…an為輸入,以最佳最少點(diǎn)數(shù)和鄰域半徑組合為參數(shù),采用dbscan算法對(duì)當(dāng)前安全事件的特征數(shù)據(jù)進(jìn)行聚類。
14、在步驟s6-2中,對(duì)組合效果進(jìn)行評(píng)估具體包括以下步驟:
15、s7-1,確定v個(gè)歷史數(shù)據(jù)中發(fā)生安全事件的特征數(shù)據(jù)dj所屬的聚類簇;
16、s7-2,對(duì)s7-1每個(gè)特征數(shù)據(jù)dj,計(jì)算所述聚類簇中其他特征數(shù)據(jù)與dj之間的歐式距離k的取值范圍區(qū)間之間的正整數(shù),是特征數(shù)據(jù)dj所屬聚類簇中,除了dj以外的其他特征數(shù)據(jù)的總數(shù);
17、同一聚類簇中的特征數(shù)據(jù)相似度較高,但是不完全相同,聚類簇中其他特征數(shù)據(jù)與特征數(shù)據(jù)dj之間距離越小,相似度越高,對(duì)安全事件判斷結(jié)果的影響越大;
18、s7-3,計(jì)算k0、k1、…km的取值范圍均是區(qū)間的子區(qū)間,k1、…km與k0的取值范圍不存在交叉,k1、…km內(nèi)的取值范圍允許存在交叉;表示特征數(shù)據(jù)dj所屬聚類簇中,未發(fā)生安全事件的特征數(shù)據(jù)與dj之間的歐式距離;分別表示特征數(shù)據(jù)dj所屬聚類簇中,發(fā)生第一類至第m類安全事件的特征數(shù)據(jù)與dj之間的歐式距離;
19、未發(fā)生安全事件的特征數(shù)據(jù)與發(fā)生安全事件的特征數(shù)據(jù)互斥,不存在交叉的可能性;而同時(shí)發(fā)生多個(gè)安全事件也只會(huì)產(chǎn)生一次特征數(shù)據(jù),一個(gè)特征數(shù)據(jù)dj可能與多個(gè)安全事件有關(guān),因此k1、…km內(nèi)的取值范圍允許存在交叉;
20、s7-4,計(jì)算出表示預(yù)測(cè)第i個(gè)安全事件會(huì)發(fā)生的概率,表示第i個(gè)安全事件確實(shí)發(fā)生的概率,表示預(yù)測(cè)第i個(gè)安全事件發(fā)生,且第i個(gè)安全事件確實(shí)發(fā)生的概率;通過(guò)歷史數(shù)據(jù)確定,其值為歷史數(shù)據(jù)中發(fā)生第i個(gè)安全事件的特征數(shù)據(jù)的個(gè)數(shù)與歷史數(shù)據(jù)中特征數(shù)據(jù)總數(shù)的比值;
21、在對(duì)一個(gè)特征數(shù)據(jù)進(jìn)行分析時(shí),其他v-1個(gè)特征數(shù)據(jù)對(duì)應(yīng)的安全事件都是已知的,被分析的特征數(shù)據(jù)是未知的,需要根據(jù)聚類結(jié)果,利用其他特征數(shù)據(jù)判斷各個(gè)安全事件的發(fā)生概率;
22、s7-5,將發(fā)生安全事件的全部v個(gè)特征數(shù)據(jù)對(duì)應(yīng)的取平均值,得到第i個(gè)安全事件的判斷成功率p{bi|ci},將全部m個(gè)安全事件對(duì)應(yīng)的判斷成功率p{bi|ci}取平均值,得到所有安全事件的判斷成功率p{b|c},作為聚類結(jié)果的評(píng)估指標(biāo);
23、每個(gè)特征數(shù)據(jù)對(duì)第i個(gè)安全事件都有一個(gè)成功率取平均值得到所有特征數(shù)據(jù)整體的判斷成功率;每個(gè)安全事件都有一個(gè)判斷成功率,取平均值得到所有安全事件的判斷成功率;
24、在步驟s7-4中,通過(guò)以下方式確定,
25、s8-1,對(duì)所有分類簇的每個(gè)特征數(shù)據(jù)wdb,b為區(qū)間[1,qd]的正整數(shù),qd是所有分類簇中特征數(shù)據(jù)的總數(shù),以wdb代替dj執(zhí)行步驟s7-1、s7-2和s7-3,按照步驟s7-4中的計(jì)算公式計(jì)算出
26、s8-2,計(jì)算出yb的值為0或者1,當(dāng)特征數(shù)據(jù)wdb確實(shí)為第i個(gè)安全事件的特征數(shù)據(jù)時(shí),yb為1,否則yb為0;當(dāng)小于閾值時(shí),將置零,不代入公式進(jìn)行計(jì)算;
27、通常計(jì)算的公式為y1/y2,y2是預(yù)測(cè)會(huì)發(fā)生第i個(gè)安全事件的特征數(shù)據(jù)的個(gè)數(shù),y1是在預(yù)測(cè)會(huì)發(fā)生第i個(gè)安全事件的特征數(shù)據(jù)中,第i個(gè)安全事件確實(shí)發(fā)生的特征數(shù)據(jù)的個(gè)數(shù);在本發(fā)明中,通過(guò)概率表示安全事件的發(fā)生率,不采用簡(jiǎn)單的是或非進(jìn)行判斷,因此采用公式進(jìn)行計(jì)算,每個(gè)特征數(shù)據(jù)都給出第i個(gè)安全事件的發(fā)生概率將所有概率相加得到分母,若安全事件確實(shí)發(fā)生,則在分子上加上安全事件的發(fā)生概率,而不是只要正確預(yù)測(cè)一次分子就加一;
28、當(dāng)小于閾值時(shí)不代入公式進(jìn)行計(jì)算,此時(shí)對(duì)于第i個(gè)安全事件來(lái)說(shuō),聚類的區(qū)分效果是較好的;舉例說(shuō)明,在一個(gè)存在1000個(gè)特征數(shù)據(jù)的聚類簇中,只存在1個(gè)第i個(gè)安全事件的特征數(shù)據(jù),說(shuō)明此時(shí)的聚類模型對(duì)第i個(gè)安全事件的特征數(shù)據(jù)區(qū)分較好,此時(shí)對(duì)同一聚類簇中其他特征數(shù)據(jù)計(jì)算第i個(gè)安全事件的發(fā)生概率會(huì)非常低,反而會(huì)使得的計(jì)算結(jié)果變差,所以當(dāng)小于閾值時(shí)不代入公式進(jìn)行計(jì)算。
29、s9-1,取k=2n-1,計(jì)算出每個(gè)特征數(shù)據(jù)點(diǎn)到其他數(shù)據(jù)點(diǎn)的距離,找到每個(gè)特征數(shù)據(jù)點(diǎn)到距其第k近的點(diǎn)的距離,將這些距離從大到小進(jìn)行排序,繪制在直角坐標(biāo)系中得到kdistance圖,縱坐標(biāo)為計(jì)算出的距離,橫坐標(biāo)表示計(jì)算出的距離的大小順序;
30、s9-2,在圖中找到拐點(diǎn)位置對(duì)應(yīng)的縱坐標(biāo),作為鄰域半徑的初始值eps0;取k+1作為最少點(diǎn)數(shù)的初始值minpts0;
31、s9-3,以eps0和minpts0為區(qū)間中點(diǎn)進(jìn)行擴(kuò)充,得到兩個(gè)擴(kuò)充后的區(qū)間,作為最少點(diǎn)數(shù)minpts和鄰域半徑eps的搜索范圍。
32、以網(wǎng)格搜索法在最少點(diǎn)數(shù)和鄰域半徑的搜索范圍尋找最少點(diǎn)數(shù)和鄰域半徑的最佳組合,具體包括以下步驟:
33、s91,在最少點(diǎn)數(shù)minpts和鄰域半徑eps的搜索范圍內(nèi),確定所有可能的最少點(diǎn)數(shù)和鄰域半徑的組合方式,最少點(diǎn)數(shù)取值為最少點(diǎn)數(shù)搜索范圍內(nèi)所有的正整數(shù);以eps0為基點(diǎn),按照設(shè)定步長(zhǎng)向鄰域半徑的搜索范圍的上下界逐步進(jìn)行移動(dòng),得到鄰域半徑的所有取值;
34、s92,對(duì)不同最少點(diǎn)數(shù)和鄰域半徑的組合,以歷史安全事件的特征數(shù)據(jù)為輸入,執(zhí)行dbscan算法,以所有安全事件的判斷成功率p{b|c}作為組合效果的評(píng)估標(biāo)準(zhǔn);
35、s93,選擇所有安全事件的判斷成功率p{b|c}值最高的最少點(diǎn)數(shù)和鄰域半徑的組合作為最佳組合。
36、在步驟s5-3中,根據(jù)聚類結(jié)果確定正確預(yù)測(cè)各類安全事件發(fā)生的概率,包括以下步驟:
37、記當(dāng)前安全事件的特征數(shù)據(jù)為x,與歷史安全事件的特征數(shù)據(jù)一起作為輸入,以最少點(diǎn)數(shù)和鄰域半徑的最佳組合參數(shù)進(jìn)行dbscan聚類;
38、以x代替dj執(zhí)行步驟s7-1、s7-2、s7-3和s7-4,計(jì)算出表示當(dāng)前發(fā)生第i個(gè)安全事件,產(chǎn)生特征數(shù)據(jù)x,成功通過(guò)當(dāng)前安全事件的特征數(shù)據(jù)x判斷出第i個(gè)安全事件發(fā)生的概率。
39、與現(xiàn)有技術(shù)相比,本發(fā)明所達(dá)到的有益效果是:通過(guò)呈現(xiàn)各類安全事件的發(fā)生概率,幫助管理者更好地了解云平臺(tái)的安全狀況,以便及時(shí)發(fā)現(xiàn)和解決潛在的安全問(wèn)題;為安全事件的處理提供依據(jù),給予管理員追蹤和處理安全事件的方向,利于及時(shí)發(fā)現(xiàn)和解決潛在的安全問(wèn)題;根據(jù)不同類型的安全事件,及時(shí)采取相應(yīng)處理措施,提高云平臺(tái)的安全性和穩(wěn)定性;通過(guò)對(duì)安全事件的分析和分類,離群值可能是新的安全問(wèn)題帶來(lái)的,利于發(fā)現(xiàn)新的安全問(wèn)題和技術(shù)挑戰(zhàn),為安全研究和開(kāi)發(fā)提供更有針對(duì)性的方向。