本發(fā)明屬于網(wǎng)絡(luò)安全技術(shù)領(lǐng)域,具體涉及一種基于機(jī)器深度學(xué)習(xí)的網(wǎng)絡(luò)安全態(tài)勢特征聚類方法。
背景技術(shù):
近年來,隨著移動互聯(lián)網(wǎng)和智能終端時代的到來與普及,人們的線上行為越來越頻繁,營銷規(guī)模越來越大,各種社交網(wǎng)絡(luò)組成了復(fù)雜、異構(gòu)的大規(guī)模網(wǎng)絡(luò)。然而,由于通信網(wǎng)絡(luò)存在可移動性、可擴(kuò)展性、大規(guī)模性、泛在性等特性,在網(wǎng)絡(luò)滲入人們社會生活的同時,也成為黑客攻擊的首要目標(biāo),導(dǎo)致網(wǎng)絡(luò)安全漏洞數(shù)量持續(xù)快速增長。因此,安全問題必將成為未來大規(guī)模網(wǎng)絡(luò)首要解決的問題。
由于入侵的網(wǎng)絡(luò)數(shù)據(jù)多種多樣,且不斷有新的網(wǎng)絡(luò)入侵方式在出現(xiàn)。對網(wǎng)絡(luò)入侵進(jìn)行特征分析,讓人們對于入侵的網(wǎng)絡(luò)數(shù)據(jù)特征類型更加了解,能夠制定有效的防止網(wǎng)絡(luò)入侵的方法。入侵的網(wǎng)絡(luò)數(shù)據(jù)特征廣泛,難以進(jìn)行分析,因此,采用聚類方法對入侵?jǐn)?shù)據(jù)特征進(jìn)行聚類,對聚類后得到的特征再分析。
聚類算法有多種,參考專利文獻(xiàn)cn103136327a公開了一種基于局部特征聚類的時間序列符號化方法,包括:讀取原始時間序列的步驟;調(diào)用滑動窗口程序利用滑動窗口將所述原始時間序列分割為多個子時間序列的步驟;將所述原始時間序列的每個子時間序列采用多個斜率表示的步驟;采用k均值聚類算法實(shí)現(xiàn)所述子時間序列聚類的步驟;以及對于每個聚類結(jié)果賦予相應(yīng)的符號標(biāo)識的步驟。
上述參考專利文獻(xiàn)采用的是k均值聚類算法,k均值聚類算法存在著如下缺點(diǎn):對于高維數(shù)據(jù)(如成百上千維),其計算速度十分慢,主要是慢在計算距離上,它的另外一個缺點(diǎn)就是它需要設(shè)定希望得到的聚類數(shù)k,若對于數(shù)據(jù)沒有很好的理解,那么設(shè)置k值就成了一種估計性的工作,使得聚類結(jié)果不準(zhǔn)確。
技術(shù)實(shí)現(xiàn)要素:
針對現(xiàn)有技術(shù)存在的不足之處,本發(fā)明提出了一種基于機(jī)器深度學(xué)習(xí)的網(wǎng)絡(luò)安全態(tài)勢特征聚類方法,該聚類方法在獲取惡意數(shù)據(jù)包后,對惡意數(shù)據(jù)包進(jìn)行處理分析,將分析結(jié)果作為惡意數(shù)據(jù)包的特征數(shù)據(jù)集,再對該特征數(shù)據(jù)集進(jìn)行聚類。
本發(fā)明采用如下技術(shù)方案:
基于機(jī)器深度學(xué)習(xí)的網(wǎng)絡(luò)安全態(tài)勢特征聚類方法,包括以下步驟,
s1、獲取網(wǎng)絡(luò)惡意數(shù)據(jù)包,以及惡意數(shù)據(jù)包對應(yīng)的屬性信息;
s2、對惡意數(shù)據(jù)包,以及與惡意數(shù)據(jù)包對應(yīng)的屬性信息進(jìn)行處理分析,得到惡意數(shù)據(jù)包的特征數(shù)據(jù)集;
s3、采用聚類算法對惡意數(shù)據(jù)包所包含的特征進(jìn)行聚類。
進(jìn)一步的,所述步驟s1中惡意數(shù)據(jù)包對應(yīng)的屬性信息包括源物理端口、虛擬局域網(wǎng)標(biāo)識、源網(wǎng)絡(luò)硬件地址、源ip地址、源傳輸控制協(xié)議端口中的至少一種。
進(jìn)一步的,所述步驟s2中惡意數(shù)據(jù)包的特征數(shù)據(jù)集包括惡意數(shù)據(jù)包大小、惡意數(shù)據(jù)包類型及惡意數(shù)據(jù)包的屬性信息。
進(jìn)一步的,所述步驟s3中聚類算法為凝聚型層次聚類算法或?qū)哟尉垲愃惴ā?/p>
進(jìn)一步的,所述步驟s3中聚類算法為k-means算法、dbscan算法或clique算法。
進(jìn)一步的,所述步驟s3具體包括以下步驟,
s301,將每個惡意數(shù)據(jù)包當(dāng)作一個類簇,并計算任意兩個類簇中心之間的距離;
s302,將距離最小的兩個類簇合并成為一個新的類簇;
s303,計算新類簇的中心位置;
s304,重新計算新類簇與所有類簇中心之間的距離;
s305,判斷類簇數(shù)是否等于預(yù)設(shè)值k,如果等于,則結(jié)束,如果不等于,則跳轉(zhuǎn)到步驟s302。
更進(jìn)一步的,所述距離計算采用歐式距離。
更進(jìn)一步的,所述步驟s2中惡意數(shù)據(jù)包的特征數(shù)據(jù)集包括惡意數(shù)據(jù)包大小、惡意數(shù)據(jù)包類型和源ip地址。
更進(jìn)一步的,所述步驟s2中惡意數(shù)據(jù)包的特征數(shù)據(jù)集包括惡意數(shù)據(jù)包大小、惡意數(shù)據(jù)包類型、源物理端口、源網(wǎng)絡(luò)硬件地址、源ip地址和源傳輸控制協(xié)議端口。
本發(fā)明具有如下優(yōu)點(diǎn):1,距離和規(guī)則的相似度容易定義,限制少;2,不需要預(yù)先制定聚類數(shù);3,可以發(fā)現(xiàn)類的層次關(guān)系。
附圖說明
圖1是基于機(jī)器深度學(xué)習(xí)的網(wǎng)絡(luò)安全態(tài)勢特征聚類方法流程圖。
具體實(shí)施方式
為進(jìn)一步說明各實(shí)施例,本發(fā)明提供有附圖。這些附圖為本發(fā)明揭露內(nèi)容的一部分,其主要用以說明實(shí)施例,并可配合說明書的相關(guān)描述來解釋實(shí)施例的運(yùn)作原理。配合參考這些內(nèi)容,本領(lǐng)域普通技術(shù)人員應(yīng)能理解其他可能的實(shí)施方式以及本發(fā)明的優(yōu)點(diǎn)。圖中的組件并未按比例繪制,而類似的組件符號通常用來表示類似的組件。
現(xiàn)結(jié)合附圖和具體實(shí)施方式對本發(fā)明進(jìn)一步說明。
參閱圖1所示,為本發(fā)明提出的基于機(jī)器深度學(xué)習(xí)的網(wǎng)絡(luò)安全態(tài)勢特征聚類方法流程圖,包括以下步驟,
s1、獲取網(wǎng)絡(luò)惡意數(shù)據(jù)包,以及惡意數(shù)據(jù)包對應(yīng)的屬性信息;
s2、對惡意數(shù)據(jù)包,以及與惡意數(shù)據(jù)包對應(yīng)的屬性信息進(jìn)行處理分析,得到惡意數(shù)據(jù)包的特征數(shù)據(jù)集;
s3、采用聚類算法對惡意數(shù)據(jù)包所包含的特征進(jìn)行聚類。
實(shí)施例一
該實(shí)施例一包括以下步驟:
s1、獲取網(wǎng)絡(luò)惡意數(shù)據(jù)包,以及惡意數(shù)據(jù)包對應(yīng)的屬性信息。
數(shù)據(jù)包(packet)在包交換網(wǎng)絡(luò)里,單個消息被劃分為多個數(shù)據(jù)塊,這些數(shù)據(jù)塊稱為數(shù)據(jù)包,它包含發(fā)送者和接收者的地址信息。數(shù)據(jù)包主要由“目的ip地址”、“源ip地址”、“凈載數(shù)據(jù)”等部分構(gòu)成,包括包頭和包體,包頭是固定長度,包體的長度不定,各字段長度固定,雙方的請求數(shù)據(jù)包和應(yīng)答數(shù)據(jù)包的包頭結(jié)構(gòu)是一致的,不同的是包體的定義。數(shù)據(jù)包的結(jié)構(gòu)與平常寫信非常類似,目的ip地址是說明這個數(shù)據(jù)包是要發(fā)給誰的,相當(dāng)于收信人地址;源ip地址是說明這個數(shù)據(jù)包是發(fā)自哪里的,相當(dāng)于發(fā)信人地址;而凈載數(shù)據(jù)相當(dāng)于信件的內(nèi)容。
s2、對惡意數(shù)據(jù)包,以及與惡意數(shù)據(jù)包對應(yīng)的屬性信息進(jìn)行處理分析,得到惡意數(shù)據(jù)包的特征數(shù)據(jù)集。
惡意數(shù)據(jù)包進(jìn)行處理分析,經(jīng)過幀解析,判斷惡意數(shù)據(jù)包的大小,提取代表數(shù)據(jù)包類型的字段,判斷惡意數(shù)據(jù)包類型。該實(shí)施例一惡意數(shù)據(jù)包的特征數(shù)據(jù)集包括惡意數(shù)據(jù)包大小、類型和源ip地址。
s3、采用聚類算法對惡意數(shù)據(jù)包所包含的特征進(jìn)行聚類。該實(shí)施例一的聚類算法包括以下具體步驟:
s301,將每個惡意數(shù)據(jù)包當(dāng)作一個類簇,并計算任意兩個類簇中心之間的距離;
s302,將距離最小的兩個類簇合并成為一個新的類簇;
s303,計算新類簇的中心位置;
s304,重新計算新類簇與所有類簇中心之間的距離;
s305,判斷類簇數(shù)是否等于預(yù)設(shè)值k,如果等于,則結(jié)束,如果不等于,則跳轉(zhuǎn)到步驟s302。
根據(jù)惡意數(shù)據(jù)包的大小、類型和源ip地址對惡意數(shù)據(jù)包進(jìn)行聚類分析,可得到如下結(jié)果:如來自同一源ip地址的惡意數(shù)據(jù)包的類型和大小,同一類型惡意數(shù)據(jù)包來自哪些源ip地址,且對這些惡意數(shù)據(jù)包的大小進(jìn)行分析。
該實(shí)施例一距離計算采用歐式距離。
實(shí)施例二
該實(shí)施例二包括以下步驟:
s1、獲取網(wǎng)絡(luò)惡意數(shù)據(jù)包,以及惡意數(shù)據(jù)包對應(yīng)的屬性信息。
數(shù)據(jù)包(packet)在包交換網(wǎng)絡(luò)里,單個消息被劃分為多個數(shù)據(jù)塊,這些數(shù)據(jù)塊稱為數(shù)據(jù)包,它包含發(fā)送者和接收者的地址信息。數(shù)據(jù)包主要由“目的ip地址”、“源ip地址”、“凈載數(shù)據(jù)”等部分構(gòu)成,包括包頭和包體,包頭是固定長度,包體的長度不定,各字段長度固定,雙方的請求數(shù)據(jù)包和應(yīng)答數(shù)據(jù)包的包頭結(jié)構(gòu)是一致的,不同的是包體的定義。數(shù)據(jù)包的結(jié)構(gòu)與平常寫信非常類似,目的ip地址是說明這個數(shù)據(jù)包是要發(fā)給誰的,相當(dāng)于收信人地址;源ip地址是說明這個數(shù)據(jù)包是發(fā)自哪里的,相當(dāng)于發(fā)信人地址;而凈載數(shù)據(jù)相當(dāng)于信件的內(nèi)容。
s2、對惡意數(shù)據(jù)包,以及與惡意數(shù)據(jù)包對應(yīng)的屬性信息進(jìn)行處理分析,得到惡意數(shù)據(jù)包的特征數(shù)據(jù)集。
惡意數(shù)據(jù)包進(jìn)行處理分析,經(jīng)過幀解析,判斷惡意數(shù)據(jù)包的大小,提取代表數(shù)據(jù)包類型的字段,判斷惡意數(shù)據(jù)包類型。惡意數(shù)據(jù)包的屬性信息包括源網(wǎng)絡(luò)硬件地址、源ip地址和源傳輸控制協(xié)議端口。該實(shí)施例二惡意數(shù)據(jù)包的特征數(shù)據(jù)集包括惡意數(shù)據(jù)包大小、類型、源網(wǎng)絡(luò)硬件地址、源ip地址和源傳輸控制協(xié)議端口。
s3、采用聚類算法對惡意數(shù)據(jù)包所包含的特征進(jìn)行聚類。該實(shí)施例二的聚類算法采用最小距離的凝聚層次聚類算法,包括以下具體步驟:
s301,將每個惡意數(shù)據(jù)包當(dāng)作一個類簇,并計算任意兩個類簇之間的最小距離;
s302,將距離最小的兩個類簇合并成為一個新的類簇;
s303,判斷類簇數(shù)是否等于預(yù)設(shè)值k,如果等于,則結(jié)束,如果不等于,則跳轉(zhuǎn)到步驟s304。
s304,重新計算新類簇與所有類簇之間的距離,轉(zhuǎn)到步驟s302。
實(shí)施例三
該實(shí)施例三包括以下步驟:
s1、獲取網(wǎng)絡(luò)惡意數(shù)據(jù)包,以及惡意數(shù)據(jù)包對應(yīng)的屬性信息。
數(shù)據(jù)包(packet)在包交換網(wǎng)絡(luò)里,單個消息被劃分為多個數(shù)據(jù)塊,這些數(shù)據(jù)塊稱為數(shù)據(jù)包,它包含發(fā)送者和接收者的地址信息。數(shù)據(jù)包主要由“目的ip地址”、“源ip地址”、“凈載數(shù)據(jù)”等部分構(gòu)成,包括包頭和包體,包頭是固定長度,包體的長度不定,各字段長度固定,雙方的請求數(shù)據(jù)包和應(yīng)答數(shù)據(jù)包的包頭結(jié)構(gòu)是一致的,不同的是包體的定義。數(shù)據(jù)包的結(jié)構(gòu)與平常寫信非常類似,目的ip地址是說明這個數(shù)據(jù)包是要發(fā)給誰的,相當(dāng)于收信人地址;源ip地址是說明這個數(shù)據(jù)包是發(fā)自哪里的,相當(dāng)于發(fā)信人地址;而凈載數(shù)據(jù)相當(dāng)于信件的內(nèi)容。
s2、對惡意數(shù)據(jù)包,以及與惡意數(shù)據(jù)包對應(yīng)的屬性信息進(jìn)行處理分析,得到惡意數(shù)據(jù)包的特征數(shù)據(jù)集。
惡意數(shù)據(jù)包進(jìn)行處理分析,經(jīng)過幀解析,判斷惡意數(shù)據(jù)包的大小,提取代表數(shù)據(jù)包類型的字段,判斷惡意數(shù)據(jù)包類型。惡意數(shù)據(jù)包的屬性信息包括源物理端口、虛擬局域網(wǎng)標(biāo)識、源網(wǎng)絡(luò)硬件地址、源ip地址和源傳輸控制協(xié)議端口。該實(shí)施例三惡意數(shù)據(jù)包的特征數(shù)據(jù)集包括惡意數(shù)據(jù)包大小、類型、源物理端口、虛擬局域網(wǎng)標(biāo)識、源網(wǎng)絡(luò)硬件地址、源ip地址和源傳輸控制協(xié)議端口。
s3、采用聚類算法對惡意數(shù)據(jù)包所包含的特征進(jìn)行聚類。該實(shí)施例三的聚類算法采用最小距離的凝聚層次聚類算法,包括以下具體步驟:
s301,任意選擇k個惡意數(shù)據(jù)包作為初始的類簇中心;
s302,對余下的惡意數(shù)據(jù)包,計算它們距離各類簇中心的距離,并把它歸到最近的類簇中心的類簇;
s303,重新計算已經(jīng)得到的各個類簇中心;
s304,重復(fù)步驟s302和步驟s303直到新的類簇中心與原類簇中心相等或小于閾值b,結(jié)束。
需要說明的是,步驟s3中聚類算法不限于上述聚類算法,還可為k-means算法、dbscan算法或clique算法等。
盡管結(jié)合優(yōu)選實(shí)施方案具體展示和介紹了本發(fā)明,但所述領(lǐng)域的技術(shù)人員應(yīng)該明白,在不脫離所附權(quán)利要求書所限定的本發(fā)明的精神和范圍內(nèi),在形式上和細(xì)節(jié)上可以對本發(fā)明做出各種變化,均為本發(fā)明的保護(hù)范圍。