本發(fā)明涉及加密,特別涉及一種加密惡意流量的檢測方法。
背景技術(shù):
1、近年來,隨著工業(yè)互聯(lián)以及網(wǎng)云融合等技術(shù)飛速發(fā)展,網(wǎng)絡(luò)、終端、云等端到端關(guān)鍵方面進(jìn)一步演進(jìn),當(dāng)前網(wǎng)絡(luò)能力持續(xù)增強。但同時也給關(guān)鍵基礎(chǔ)設(shè)施帶來了網(wǎng)絡(luò)安全風(fēng)險,對現(xiàn)有技術(shù)架構(gòu)和安全防護(hù)體系構(gòu)成嚴(yán)峻挑戰(zhàn)。惡意流量檢測,主要基于深度包檢測、機器學(xué)習(xí)和深度學(xué)習(xí)的方法,基于深度包檢測,通過檢查每個數(shù)據(jù)包的內(nèi)容,識別和分析其攜帶的信息,以檢測潛在的威脅或應(yīng)用特征,基于機器學(xué)習(xí)的檢測方法,主要是根據(jù)流量的統(tǒng)計特征和行為特征,比如包的大小、包的間隔時間、傳輸持續(xù)時間、交互頻率以及交互的持續(xù)時間等,從而對惡意流量進(jìn)行有效識別,基于深度學(xué)習(xí)的檢測方法是將惡意流量通過自動從原始網(wǎng)絡(luò)流量中提取有用的特征,再通過分類器將惡意流量進(jìn)行分類。
2、現(xiàn)有加密惡意流量檢測方法通常依賴于單一算法進(jìn)行特征表示,從而實現(xiàn)一定程度的惡意流量檢測,然而,這些算法在面對加密協(xié)議種類繁雜、數(shù)據(jù)不平衡性明顯和網(wǎng)絡(luò)攻擊偽裝性強的數(shù)據(jù)時存在局限性,僅僅是對正常行為和攻擊樣本的特征差異進(jìn)行簡單學(xué)習(xí)。
技術(shù)實現(xiàn)思路
1、本發(fā)明的主要目的為提供一種加密惡意流量的檢測方法,旨在解決現(xiàn)有技術(shù)中的技術(shù)問題。
2、本發(fā)明提出一種加密惡意流量的檢測方法,包括:
3、獲取隨機噪聲向量和網(wǎng)絡(luò)數(shù)據(jù)集,并提取所述網(wǎng)絡(luò)數(shù)據(jù)集中的多個惡意流量樣本和正常流量樣本;
4、將多個所述惡意流量樣本與隨機噪聲向量合并得到數(shù)據(jù)訓(xùn)練集,并將所述數(shù)據(jù)訓(xùn)練集輸入至生成器中,得到輸入序列;
5、根據(jù)所述輸入序列獲取雙向輸出特征,并根據(jù)所述雙向輸出特征獲取偽造樣本;
6、根據(jù)所述偽造樣本和正常流量樣本獲取對抗樣本,并根據(jù)所述對抗樣本獲取訓(xùn)練數(shù)據(jù);
7、獲取所述訓(xùn)練數(shù)據(jù)的全局上下文信息,并根據(jù)所述全局上下文信息獲取多個關(guān)鍵局部特征;
8、獲取所述訓(xùn)練數(shù)據(jù)的多個時間序列特征和局部空間特征,并根據(jù)多個所述時間序列特征、局部空間特征和關(guān)鍵局部特征構(gòu)建檢測分類模型;
9、獲取實時流量,并將所述實時流量輸入至檢測分類模型中,得到置信度檢測評分;
10、判斷所述置信度檢測評分是否大于預(yù)設(shè)閾值;
11、若所述置信度檢測評分大于預(yù)設(shè)閾值,則判定該實時流量為惡意流量;
12、若所述置信度檢測評分不大于預(yù)設(shè)閾值,則判定該實時流量為正常流量。
13、作為優(yōu)選,所述將多個所述惡意流量樣本與隨機噪聲向量合并得到數(shù)據(jù)訓(xùn)練集,并將所述數(shù)據(jù)訓(xùn)練集輸入至生成器中,得到輸入序列的步驟,包括:
14、獲取多個惡意流量樣本,并將多個所述惡意流量樣本轉(zhuǎn)換為惡意流量結(jié)構(gòu)化數(shù)據(jù);
15、獲取多個所述惡意流量結(jié)構(gòu)化數(shù)據(jù)的惡意流量關(guān)鍵特征,其中,所述惡意流量關(guān)鍵特征包括協(xié)議類型、流量持續(xù)時間、數(shù)據(jù)包計數(shù)、源和目的端口、源和目的ip地址中的至少一個;
16、對多個所述惡意流量關(guān)鍵特征進(jìn)行標(biāo)準(zhǔn)化處理得到多個惡意流量數(shù)值特征,并將多個所述惡意流量數(shù)值特征組合為惡意流量特征向量;
17、獲取惡意流量特征向量的維度,并根據(jù)所述維度獲取隨機噪聲向量;
18、將所述隨機噪聲向量和惡意流量特征向量進(jìn)行拼接,得到數(shù)據(jù)訓(xùn)練集;
19、獲取生成器的生成速度和可用內(nèi)存,并根據(jù)所述生成速度和可用內(nèi)存確定輸入樣本批量;
20、根據(jù)所述輸入樣本批量將所述數(shù)據(jù)訓(xùn)練集分割為多個加載輸入樣本;
21、將多個加載輸入樣本依次輸入至生成器中,得到輸入序列。
22、作為優(yōu)選,所述根據(jù)所述輸入序列獲取雙向輸出特征,并根據(jù)所述雙向輸出特征獲取偽造樣本的步驟,包括:
23、將所述輸入序列輸入至雙向長短期記憶網(wǎng)模型中;
24、通過雙向長短期記憶網(wǎng)模型的正向部分從輸入序列的起始時間步到結(jié)束時間步逐步處理輸入序列,得到正向輸出特征;
25、通過雙向長短期記憶網(wǎng)模型的反向部分從輸入序列的結(jié)束時間步到起始時間步逐步處理輸入序列,得到反向輸出特征;
26、將所述反向輸出特征和正向輸出特征進(jìn)行連接,得到雙向輸出特征;
27、將所述雙向輸出特征輸入至生成器中,得到偽造樣本。
28、作為優(yōu)選,所述根據(jù)所述偽造樣本和正常流量樣本獲取對抗樣本,并根據(jù)所述對抗樣本獲取訓(xùn)練數(shù)據(jù)的步驟,包括:
29、將所述偽造樣本和正常流量樣本輸入至判別器中,得到判別輸出值;
30、判斷所述判別輸出值是否達(dá)到預(yù)設(shè)輸出值;
31、若所述判別輸出值未達(dá)到預(yù)設(shè)輸出值,則判定偽造樣本真實性較低,此時采用二元交叉熵?fù)p失獲取生成器損失;
32、采用反向傳播算法根據(jù)生成器損失對生成器的權(quán)重進(jìn)行更新,直至判別器輸出的判別輸出值達(dá)到預(yù)設(shè)輸出值,并將此時的偽造樣本標(biāo)記為對抗樣本;
33、若所述判別輸出值達(dá)到預(yù)設(shè)輸出值,則判定偽造樣本真實性較高,并將偽造樣本標(biāo)記為對抗樣本;
34、獲取公開流量數(shù)據(jù),并對所述公開流量數(shù)據(jù)進(jìn)行清洗處理,得到標(biāo)準(zhǔn)流量數(shù)據(jù);
35、將所述對抗樣本附加合并在標(biāo)準(zhǔn)流量數(shù)據(jù)的末尾,得到訓(xùn)練數(shù)據(jù)。
36、作為優(yōu)選,所述獲取所述訓(xùn)練數(shù)據(jù)的多個時間序列特征和局部空間特征,并根據(jù)多個所述時間序列特征、局部空間特征和關(guān)鍵局部特征構(gòu)建檢測分類模型的步驟,包括:
37、獲取所述訓(xùn)練數(shù)據(jù)的第一特征信息,其中,所述第一特征信息包括過程噪聲、觀測噪聲、多個狀態(tài)向量、多個觀測值和多個時間序列數(shù)據(jù);
38、根據(jù)所述過程噪聲、觀測噪聲、多個狀態(tài)向量、多個觀測值和多個時間序列數(shù)據(jù)獲取多個時間序列特征;
39、將所述訓(xùn)練數(shù)據(jù)按照預(yù)設(shè)時間長度劃分為多個時間窗口,并提取每個所述時間窗口的第二特征信息,其中,所述第二特征信息包括多個平均流量、波動程度、極大值和極小值;
40、對多個時間窗口的多個平均流量、波動程度、極大值和極小值進(jìn)行聚合,得到多個局部空間特征;
41、將多個所述時間序列特征、局部空間特征和關(guān)鍵局部特征按照預(yù)設(shè)比例劃分為訓(xùn)練集和驗證集;
42、根據(jù)所述時間序列特征、局部空間特征和關(guān)鍵局部特征構(gòu)建預(yù)設(shè)檢測分類模型,其中,預(yù)設(shè)檢測分類模型為:
43、p(g)=α*[a*s(t)+b*j(t)+c*g(t)];
44、其中,p(g)表示評估值,α表示第一模型參數(shù),a表示時間序列權(quán)重,s(t)表示時間序列特征,b表示局部空間權(quán)重,j(t)表示局部空間特征,c表示關(guān)鍵局部權(quán)重,g(t)表示關(guān)鍵局部特征;
45、依次將訓(xùn)練集內(nèi)的多個時間序列特征、局部空間特征和關(guān)鍵局部特征輸入至預(yù)設(shè)檢測分類模型中進(jìn)行訓(xùn)練,并根據(jù)驗證集內(nèi)的多個時間序列特征、局部空間特征和關(guān)鍵局部特征進(jìn)行驗證,得到多個預(yù)測訓(xùn)練結(jié)果;
46、根據(jù)多個所述預(yù)測訓(xùn)練結(jié)果對預(yù)設(shè)檢測分類模型的模型參數(shù)進(jìn)行調(diào)整,得到檢測分類模型,其中,檢測分類模型為:
47、z(p)=β*[a*s(t)+b*j(t)+c*g(t)];
48、其中,p(g)表示置信度檢測評分,β表示第二模型參數(shù),a表示時間序列權(quán)重,s(t)表示時間序列特征,b表示局部空間權(quán)重,j(t)表示局部空間特征,c表示關(guān)鍵局部權(quán)重,g(t)表示關(guān)鍵局部特征。
49、作為優(yōu)選,所述根據(jù)所述過程噪聲、觀測噪聲、多個狀態(tài)向量、多個觀測值和多個時間序列數(shù)據(jù)獲取多個時間序列特征的步驟,包括:
50、根據(jù)多個所述時間序列特征獲取狀態(tài)轉(zhuǎn)移矩陣;
51、根據(jù)每個所述狀態(tài)向量對對應(yīng)觀測值的映射,得到觀測矩陣;
52、根據(jù)所述過程噪聲、狀態(tài)轉(zhuǎn)移矩陣和每個狀態(tài)向量計算對應(yīng)預(yù)測協(xié)方差,其中,計算公式為:
53、y(x)=z(j)*z(x)2+g(z);
54、其中,y(x)表示預(yù)測協(xié)方差,z(j)表示狀態(tài)轉(zhuǎn)移矩陣,z(x)表示狀態(tài)協(xié)方差,g(z)表示過程噪聲;
55、根據(jù)所述觀測噪聲和每個預(yù)測協(xié)方差獲取對應(yīng)卡爾曼增益;
56、根據(jù)所述狀態(tài)協(xié)方差和狀態(tài)轉(zhuǎn)移矩陣獲取預(yù)測狀態(tài)向量;
57、根據(jù)所述預(yù)測狀態(tài)向量、觀測矩陣、每個觀測值和每個卡爾曼增益計算對應(yīng)時間序列特征,其中,計算公式為:
58、s(t)=y(tǒng)(z)+k(z)*[g(c)-g(z)*y(z)];
59、其中,s(t)表示時間序列特征,y(z)表示預(yù)測狀態(tài)向量,k(z)表示卡爾曼增益,g(z)表示觀測矩陣,g(c)表示觀測值。
60、本技術(shù)還提供一種加密惡意流量的檢測系統(tǒng),包括:
61、提取模塊,用于獲取隨機噪聲向量和網(wǎng)絡(luò)數(shù)據(jù)集,并提取所述網(wǎng)絡(luò)數(shù)據(jù)集中的多個惡意流量樣本和正常流量樣本;
62、第一輸入模塊,用于將多個所述惡意流量樣本與隨機噪聲向量合并得到數(shù)據(jù)訓(xùn)練集,并將所述數(shù)據(jù)訓(xùn)練集輸入至生成器中,得到輸入序列;
63、第一獲取模塊,用于根據(jù)所述輸入序列獲取雙向輸出特征,并根據(jù)所述雙向輸出特征獲取偽造樣本;
64、第二獲取模塊,用于根據(jù)所述偽造樣本和正常流量樣本獲取對抗樣本,并根據(jù)所述對抗樣本獲取訓(xùn)練數(shù)據(jù);
65、第三獲取模塊,用于獲取所述訓(xùn)練數(shù)據(jù)的全局上下文信息,并根據(jù)所述全局上下文信息獲取多個關(guān)鍵局部特征;
66、構(gòu)建模塊,用于獲取所述訓(xùn)練數(shù)據(jù)的多個時間序列特征和局部空間特征,并根據(jù)多個所述時間序列特征、局部空間特征和關(guān)鍵局部特征構(gòu)建檢測分類模型;
67、第二輸入模塊,用于獲取實時流量,并將所述實時流量輸入至檢測分類模型中,得到置信度檢測評分;
68、判斷模塊,用于判斷所述置信度檢測評分是否大于預(yù)設(shè)閾值;
69、若所述置信度檢測評分大于預(yù)設(shè)閾值,則判定該實時流量為惡意流量;
70、若所述置信度檢測評分不大于預(yù)設(shè)閾值,則判定該實時流量為正常流量。
71、作為優(yōu)選,所述第一輸入模塊,包括:
72、轉(zhuǎn)換單元,用于獲取多個惡意流量樣本,并將多個所述惡意流量樣本轉(zhuǎn)換為惡意流量結(jié)構(gòu)化數(shù)據(jù);
73、第一獲取單元,用于獲取多個所述惡意流量結(jié)構(gòu)化數(shù)據(jù)的惡意流量關(guān)鍵特征,其中,所述惡意流量關(guān)鍵特征包括協(xié)議類型、流量持續(xù)時間、數(shù)據(jù)包計數(shù)、源和目的端口、源和目的ip地址中的至少一個;
74、組合單元,用于對多個所述惡意流量關(guān)鍵特征進(jìn)行標(biāo)準(zhǔn)化處理得到多個惡意流量數(shù)值特征,并將多個所述惡意流量數(shù)值特征組合為惡意流量特征向量;
75、第二獲取單元,用于獲取惡意流量特征向量的維度,并根據(jù)所述維度獲取隨機噪聲向量;
76、拼接單元,用于將所述隨機噪聲向量和惡意流量特征向量進(jìn)行拼接,得到數(shù)據(jù)訓(xùn)練集;
77、確定單元,用于獲取生成器的生成速度和可用內(nèi)存,并根據(jù)所述生成速度和可用內(nèi)存確定輸入樣本批量;
78、分隔單元,用于根據(jù)所述輸入樣本批量將所述數(shù)據(jù)訓(xùn)練集分割為多個加載輸入樣本;
79、輸入單元,用于將多個加載輸入樣本依次輸入至生成器中,得到輸入序列。
80、本發(fā)明還提供了一種計算機設(shè)備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述加密惡意流量的檢測方法的步驟。
81、本發(fā)明還提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述加密惡意流量的檢測方法的步驟。
82、本發(fā)明的有益效果為:本發(fā)明通過將隨機噪聲向量與惡意流量樣本結(jié)合,可以生成多樣化的訓(xùn)練數(shù)據(jù),有助于模型學(xué)習(xí)到更多的特征,提高其泛化能力,結(jié)合隨機噪聲的惡意流量樣本可以使模型更好地識別偽裝性強的網(wǎng)絡(luò)攻擊,增強模型對偽裝攻擊的魯棒性,通過生成器生成新的輸入序列,可以融合多種特征表示方法,利用雙向模型lstm能夠同時考慮上下文信息,提取更豐富的特征表示,有助于捕捉加密流量中的復(fù)雜模式和時序關(guān)系,根據(jù)雙向輸出特征生成偽造樣本,可以豐富數(shù)據(jù)集,幫助模型更好地學(xué)習(xí)到多樣化的流量模式,通過結(jié)合雙向特征提取、偽造樣本生成和對抗訓(xùn)練,形成了一個多層次的學(xué)習(xí)框架,避免了對單一算法的依賴,通過獲取全局上下文信息和多個局部特征,能夠更全面地捕捉流量數(shù)據(jù)的復(fù)雜模式,結(jié)合時間序列特征和局部空間特征,使得模型能夠有效捕捉流量的動態(tài)變化和空間關(guān)聯(lián)性,提升檢測的準(zhǔn)確性,能夠處理不同加密協(xié)議下的流量特征,有助于識別由不同加密方式產(chǎn)生的潛在惡意流量,通過實時流量監(jiān)測與置信度評分,該方法有效解決了現(xiàn)有加密惡意流量檢測的局限性,增強了系統(tǒng)的實時性、動態(tài)適應(yīng)性和檢測準(zhǔn)確性。