本發(fā)明涉及網(wǎng)絡(luò)安全技術(shù)領(lǐng)域,具體而言,涉及一種基于強化學(xué)習(xí)的不完全信息網(wǎng)絡(luò)安全分析方法及裝置。
背景技術(shù):
計算機網(wǎng)絡(luò)加速了人類邁向信息社會的步伐,促進了人類社會生活習(xí)慣、生活方式、思想觀念等各個方面的根本性改變。然而,在網(wǎng)絡(luò)規(guī)模不斷擴大的同時,網(wǎng)絡(luò)安全事件也越來越多。和平時期發(fā)生的網(wǎng)絡(luò)攻擊事件,損失的是商業(yè)利益和對人們私人空間的侵害,可是如果網(wǎng)絡(luò)攻擊行為的主體是一個國家對另一個國家、一個作戰(zhàn)集團對另一個作戰(zhàn)集團的行動,那么所造成的后果將不堪設(shè)想。
傳統(tǒng)網(wǎng)絡(luò)安全解決方法,如防護墻,入侵檢測系統(tǒng)用來防御各種已知入侵手段是足夠了,但是這種被動防御模式不能有效應(yīng)付有意圖或者有組織的網(wǎng)絡(luò)破壞行為。這是因為傳統(tǒng)方法強調(diào)以目標(biāo)為中心,檢測到入侵行動后才有所響應(yīng),此時可能已經(jīng)造成嚴(yán)重的損失。由于資源和能力限制,管理員不可能消除網(wǎng)絡(luò)中每一個脆弱點,也不可能防御所有攻擊行動。如何在信息安全風(fēng)險與投入之間尋找一種均衡,充分考慮防御成本有效性并做到“適度安全”,是當(dāng)前網(wǎng)絡(luò)對抗領(lǐng)域亟待解決的復(fù)雜問題。同時,網(wǎng)絡(luò)攻防雙方對信息的了解是不完全的。對于網(wǎng)絡(luò)防御者而言,雖然能夠準(zhǔn)確、具體和全面地了解網(wǎng)絡(luò)狀態(tài)和網(wǎng)絡(luò)拓撲結(jié)構(gòu),但是無法預(yù)測攻擊者在何時、何地以何種方式進行攻擊;對應(yīng)的,對于網(wǎng)絡(luò)攻擊者而言,雖然在網(wǎng)絡(luò)對抗過程中占主動地位,但是在目標(biāo)系統(tǒng)信息獲取上往往還只是一個盲目搜索和攻擊試探的過程。
當(dāng)前,相關(guān)技術(shù)中提供的基于強化學(xué)習(xí)的不完全信息網(wǎng)絡(luò)安全分析方法主要存在兩個方面的不足:一是只考慮完美信息情況,并且假設(shè)防御者總是能夠發(fā)現(xiàn)攻擊者,這與現(xiàn)實不符;二是假設(shè)狀態(tài)轉(zhuǎn)移的概率是固定的,并且這些轉(zhuǎn)移概率是由專家過去經(jīng)驗判斷得到。在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)相關(guān)技術(shù)中至少存在以下問題:相關(guān)技術(shù)中確定出的網(wǎng)絡(luò)攻防策略存在準(zhǔn)確度低、參考性差的問題,無法實現(xiàn)對網(wǎng)絡(luò)安全管理起到科學(xué)指導(dǎo)作用。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明實施例的目的在于提供一種基于強化學(xué)習(xí)的不完全信息網(wǎng)絡(luò)安全分析方法及裝置,以解決上述技術(shù)問題。
第一方面,本發(fā)明實施例提供了一種基于強化學(xué)習(xí)的不完全信息網(wǎng)絡(luò)安全分析方法,包括:
獲取待分析網(wǎng)絡(luò)的基礎(chǔ)特征參數(shù),所述基礎(chǔ)特征參數(shù)包括:預(yù)設(shè)的攻擊策略收益向量、防御策略收益向量、開展攻擊行動所需費用向量、入侵檢測系統(tǒng)響應(yīng)費用向量、系統(tǒng)薄弱環(huán)節(jié)矩陣和系統(tǒng)攻擊識別能力矩陣;
利用預(yù)先構(gòu)建的網(wǎng)絡(luò)安全強化分析模型根據(jù)所述待分析網(wǎng)絡(luò)的所述基礎(chǔ)特征參數(shù)確定攻擊者的攻擊策略空間集合和防御者的防御策略空間集合,所述網(wǎng)絡(luò)安全強化分析模型為采用區(qū)間數(shù)描述網(wǎng)絡(luò)安全分析的不完全信息的方式構(gòu)建的;
分別輸出所述攻擊者的所述攻擊策略空間集合和所述防御者的所述防御策略空間集合,所述攻擊策略空間集合中各元素表示攻擊者采取某一攻擊策略的強度,所述防御策略空間集合中各元素表示防御者采取某一防御策略的強度。
優(yōu)選的,所述利用預(yù)先構(gòu)建的網(wǎng)絡(luò)安全強化分析模型根據(jù)所述待分析網(wǎng)絡(luò)的所述基礎(chǔ)特征參數(shù)確定攻擊者的攻擊策略空間集合和防御者的防御策略空間集合,包括:
在考慮攻防雙方策略基礎(chǔ)上,根據(jù)所述待分析網(wǎng)絡(luò)的所述基礎(chǔ)特征參數(shù)和第一網(wǎng)絡(luò)安全強化分析子模型
確定所述攻擊者的所述攻擊策略空間集合和所述防御者的所述防御策略空間集合;
其中,μA(μI,P)表示攻擊者的攻擊策略空間集合,μI(μA,P)表示防御者的防御策略空間集合,θA表示攻擊定義向量,θI表示防御定義向量,表示攻擊者的攻擊策略收益向量,表示防御者的防御策略收益向量,表示開展攻擊行動所需費用向量,表示入侵檢測系統(tǒng)響應(yīng)費用向量,γ表示虛警費用、入侵檢測費用、攻擊者欺騙費用之和,i表示攻擊策略序號,i=1,…,Amax,k表示防御策略序號,k=1,…,Rmax,diag(·)表示對角矩陣,Q表示系統(tǒng)薄弱環(huán)節(jié)矩陣,P表示系統(tǒng)攻擊識別能力矩陣,表示防御行動與攻擊行動之間的交互關(guān)系矩陣,[·]+表示將變量·中所有數(shù)值小于0的賦值為0。
優(yōu)選的,所述第一網(wǎng)絡(luò)安全強化分析子模型是通過如下方式構(gòu)建的:
獲取網(wǎng)絡(luò)攻擊者和防御者的原始收益函數(shù)方程
對所述原始收益函數(shù)方程中各個收益函數(shù)求導(dǎo),并設(shè)置各所述收益函數(shù)的導(dǎo)數(shù)等于零,得到第一網(wǎng)絡(luò)安全強化分析子模型
將所述第一網(wǎng)絡(luò)安全強化分析子模型作為所述網(wǎng)絡(luò)安全強化分析模型,所述網(wǎng)絡(luò)安全強化分析模型確定出的攻擊策略和防御策略,使得網(wǎng)絡(luò)攻擊者和防御者之間達到均衡;
其中,JA(μA,μI,P)表示攻擊策略收益函數(shù),JI(μA,μI,P)表示防御策略收益函數(shù),(·)T表示變量·的轉(zhuǎn)置矩陣。
優(yōu)選的,當(dāng)所述系統(tǒng)攻擊識別能力矩陣與時間變量之間的關(guān)系式為時,所述利用預(yù)先構(gòu)建的網(wǎng)絡(luò)安全強化分析模型根據(jù)所述待分析網(wǎng)絡(luò)的所述基礎(chǔ)特征參數(shù)確定攻擊者的攻擊策略空間集合和防御者的防御策略空間集合,包括:
根據(jù)所述待分析網(wǎng)絡(luò)的所述基礎(chǔ)特征參數(shù)和第二網(wǎng)絡(luò)安全強化分析子模型
確定所述攻擊者的所述攻擊策略空間集合和所述防御者的所述防御策略空間集合;
其中,n表示時間變量,n+1表示n時刻的下一時刻,μA(n+1)表示n+1時刻攻擊者的防御策略空間集合,μI(n+1)表示n+1時刻防御者的防御策略空間集合,δ表示第一標(biāo)量,δ>0,ε表示第二標(biāo)量,ε>0,W(n)表示n時刻隨機矩陣,[·]N表示將變量·映射到區(qū)間[dtmin,dtmax]的函數(shù),dtmin表示系統(tǒng)攻擊識別能力矩陣P(n)中各個元素的最小值,dtmax表示系統(tǒng)攻擊識別能力矩陣P(n)中各個元素的最大值,dtmax<1。
優(yōu)選的,所述方法還包括:
將不等式
|pij(n+1)-Idlij|<|pij(n)-Idlij|+ε|wij(n)|+δ|x-i|<|pij(n)-Idlij|+ε+δ|x-i|作為所述系統(tǒng)攻擊識別能力矩陣與時間變量之間的關(guān)系式的約束條件,以提高所述第二網(wǎng)絡(luò)安全強化分析子模型的收斂性和穩(wěn)定性;
其中,系統(tǒng)攻擊識別能力矩陣P(n)中各個元素滿足idlij表示理想條件下系統(tǒng)攻擊識別能力矩陣中第i行j列值,|x-i|表示系統(tǒng)攻擊能力的擾動變量,pij(n+1)表示在n+1時刻系統(tǒng)攻擊識別能力矩陣中第i行j列值,pij(n)表示在n時刻系統(tǒng)攻擊識別能力矩陣中第i行j列值,wij(n)表示服從均勻分布[-1,1]的擾動變量。
本發(fā)明實施例還提供了一種基于強化學(xué)習(xí)的不完全信息網(wǎng)絡(luò)安全分析裝置,該裝置包括:
參數(shù)獲取模塊,用于獲取待分析網(wǎng)絡(luò)的基礎(chǔ)特征參數(shù),所述基礎(chǔ)特征參數(shù)包括:預(yù)設(shè)的攻擊策略收益向量、防御策略收益向量、開展攻擊行動所需費用向量、入侵檢測系統(tǒng)響應(yīng)費用向量、系統(tǒng)薄弱環(huán)節(jié)矩陣和系統(tǒng)攻擊識別能力矩陣;
策略確定模塊,用于利用預(yù)先構(gòu)建的網(wǎng)絡(luò)安全強化分析模型根據(jù)所述待分析網(wǎng)絡(luò)的所述基礎(chǔ)特征參數(shù)確定攻擊者的攻擊策略空間集合和防御者的防御策略空間集合,所述網(wǎng)絡(luò)安全強化分析模型為采用區(qū)間數(shù)描述網(wǎng)絡(luò)安全分析的不完全信息的方式構(gòu)建的;
策略輸出模塊,用于分別輸出所述攻擊者的所述攻擊策略空間集合和所述防御者的所述防御策略空間集合,所述攻擊策略空間集合中各元素表示攻擊者采取某一攻擊策略的強度,所述防御策略空間集合中各元素表示防御者采取某一防御策略的強度。
優(yōu)選的,所述策略確定模塊包括:
第一策略確定子模塊,用于在考慮攻防雙方策略基礎(chǔ)上,根據(jù)所述待分析網(wǎng)絡(luò)的所述基礎(chǔ)特征參數(shù)和第一網(wǎng)絡(luò)安全強化分析子模型
確定所述攻擊者的所述攻擊策略空間集合和所述防御者的所述防御策略空間集合;
其中,μA(μI,P)表示攻擊者的攻擊策略空間集合,μI(μA,P)表示防御者的防御策略空間集合,θA表示攻擊定義向量,θI表示防御定義向量,表示攻擊者的攻擊策略收益向量,表示防御者的防御策略收益向量,表示開展攻擊行動所需費用向量,表示入侵檢測系統(tǒng)響應(yīng)費用向量,γ表示虛警費用、入侵檢測費用、攻擊者欺騙費用之和,i表示攻擊策略序號,i=1,…,Amax,k表示防御策略序號,k=1,…,Rmax,diag(·)表示對角矩陣,Q表示系統(tǒng)薄弱環(huán)節(jié)矩陣,P表示系統(tǒng)攻擊識別能力矩陣,表示防御行動與攻擊行動之間的交互關(guān)系矩陣,[·]+表示將變量·中所有數(shù)值小于0的賦值為0。
優(yōu)選的,所述裝置還包括:
模型構(gòu)建模塊,用于獲取網(wǎng)絡(luò)攻擊者和防御者的原始收益函數(shù)方程
對所述原始收益函數(shù)方程中各個收益函數(shù)求導(dǎo),并設(shè)置各所述收益函數(shù)的導(dǎo)數(shù)等于零,得到第一網(wǎng)絡(luò)安全強化分析子模型
將所述第一網(wǎng)絡(luò)安全強化分析子模型作為所述網(wǎng)絡(luò)安全強化分析模型,所述網(wǎng)絡(luò)安全強化分析模型確定出的攻擊策略和防御策略,使得網(wǎng)絡(luò)攻擊者和防御者之間達到均衡;
其中,JA(μA,μI,P)表示攻擊策略收益函數(shù),JI(μA,μI,P)表示防御策略收益函數(shù),(·)T表示變量·的轉(zhuǎn)置矩陣。
優(yōu)選的,當(dāng)所述系統(tǒng)攻擊識別能力矩陣與時間變量之間的關(guān)系式為時,所述策略確定模塊包括:
第二策略確定子模塊,用于根據(jù)所述待分析網(wǎng)絡(luò)的所述基礎(chǔ)特征參數(shù)和第二網(wǎng)絡(luò)安全強化分析子模型
確定所述攻擊者的所述攻擊策略空間集合和所述防御者的所述防御策略空間集合;
其中,n表示時間變量,n+1表示n時刻的下一時刻,μA(n+1)表示n+1時刻攻擊者的防御策略空間集合,μI(n+1)表示n+1時刻防御者的防御策略空間集合,δ表示第一標(biāo)量,δ>0,ε表示第二標(biāo)量,ε>0,W(n)表示n時刻隨機矩陣,[·]N表示將變量·映射到區(qū)間[dtmin,dtmax]的函數(shù),dtmin表示系統(tǒng)攻擊識別能力矩陣P(n)中各個元素的最小值,dtmax表示系統(tǒng)攻擊識別能力矩陣P(n)中各個元素的最大值,dtmax<1。
優(yōu)選的,所述裝置還包括:
約束條件確定模塊,用于將不等式|pij(n+1)-Idlij|<|pij(n)-Idlij|+ε|wij(n)|+δ|x-i|<|pij(n)-Idlij|+ε+δ|x-i|作為所述系統(tǒng)攻擊識別能力矩陣與時間變量之間的關(guān)系式的約束條件,以提高所述第二網(wǎng)絡(luò)安全強化分析子模型的收斂性和穩(wěn)定性;
其中,系統(tǒng)攻擊識別能力矩陣P(n)中各個元素滿足idlij表示理想條件下系統(tǒng)攻擊識別能力矩陣中第i行j列值,|x-i|表示系統(tǒng)攻擊能力的擾動變量,pij(n+1)表示在n+1時刻系統(tǒng)攻擊識別能力矩陣中第i行j列值,pij(n)表示在n時刻系統(tǒng)攻擊識別能力矩陣中第i行j列值,wij(n)表示服從均勻分布[-1,1]的擾動變量。
在本發(fā)明實施例提供的基于強化學(xué)習(xí)的不完全信息網(wǎng)絡(luò)安全分析方法及裝置中,該方法包括:首先,獲取待分析網(wǎng)絡(luò)的基礎(chǔ)特征參數(shù),該基礎(chǔ)特征參數(shù)包括:預(yù)設(shè)的攻擊策略及其收益向量、防御策略及其收益向量、開展攻擊行動所需費用向量、入侵檢測系統(tǒng)響應(yīng)費用向量、系統(tǒng)薄弱環(huán)節(jié)矩陣和系統(tǒng)攻擊識別能力矩陣;然后,利用預(yù)先構(gòu)建的網(wǎng)絡(luò)安全強化分析模型根據(jù)待分析網(wǎng)絡(luò)的基礎(chǔ)特征參數(shù)確定攻擊者的攻擊策略空間集合和防御者的防御策略空間集合,該網(wǎng)絡(luò)安全強化分析模型為采用區(qū)間數(shù)描述網(wǎng)絡(luò)安全分析的不完全信息的方式構(gòu)建的;最后,分別輸出攻擊者的攻擊策略空間集合和防御者的防御策略空間集合。本發(fā)明實施例所采用的網(wǎng)絡(luò)攻防策略分析手段提供了一種同時考慮網(wǎng)絡(luò)攻擊者和防御者行動的分析求解框架,提高了網(wǎng)絡(luò)安全響應(yīng)的及時性、有效性,為解決網(wǎng)絡(luò)安全問題分析提供了一種新的有效途徑,并提高了確定出的攻防策略的準(zhǔn)確性和參考性,從而對網(wǎng)絡(luò)安全分析起到準(zhǔn)確的指導(dǎo)作用。
為使本發(fā)明的上述目的、特征和優(yōu)點能更明顯易懂,下文特舉較佳實施例,并配合所附附圖,作詳細說明如下。
附圖說明
為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,應(yīng)當(dāng)理解,以下附圖僅示出了本發(fā)明的某些實施例,因此不應(yīng)被看作是對范圍的限定,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。
圖1示出了本發(fā)明實施例所提供的一種基于強化學(xué)習(xí)的不完全信息網(wǎng)絡(luò)安全分析方法的流程示意圖;
圖2a示出了本發(fā)明實施例所提供的在研究收益向量對攻防策略影響的仿真實驗中不同收益值下攻擊者采取某一攻擊策略的強度隨時間變化的曲線示意圖;
圖2b示出了本發(fā)明實施例所提供的在研究收益向量對攻防策略影響的仿真實驗中不同收益值下系統(tǒng)正確檢測概率隨時間變化的曲線示意圖;
圖2c示出了本發(fā)明實施例所提供的在研究收益向量對攻防策略影響的仿真實驗中不同收益值下防御者采取某一防御策略的強度隨時間變化的曲線示意圖;
圖2d示出了本發(fā)明實施例所提供的在研究收益向量對攻防策略影響的仿真實驗中不同收益值下攻擊者收益值和防御者收益值隨時間變化的曲線示意圖;
圖3a示出了本發(fā)明實施例所提供的在研究薄弱環(huán)節(jié)對攻防策略影響的仿真實驗中不同收益值下攻擊者采取某一攻擊策略的強度隨時間變化的曲線示意圖;
圖3b示出了本發(fā)明實施例所提供的在研究薄弱環(huán)節(jié)對攻防策略影響的仿真實驗中不同收益值下系統(tǒng)正確檢測概率隨時間變化的曲線示意圖;
圖3c示出了本發(fā)明實施例所提供的在研究薄弱環(huán)節(jié)對攻防策略影響的仿真實驗中不同收益值下防御者采取某一防御策略的強度隨時間變化的曲線示意圖;
圖3d示出了本發(fā)明實施例所提供的在研究薄弱環(huán)節(jié)對攻防策略影響的仿真實驗中不同收益值下攻擊者收益值和防御者收益值隨時間變化的曲線示意圖;
圖4示出了本發(fā)明實施例所提供的一種基于強化學(xué)習(xí)的不完全信息網(wǎng)絡(luò)安全分析裝置的結(jié)構(gòu)示意圖。
具體實施方式
為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。通常在此處附圖中描述和示出的本發(fā)明實施例的組件可以以各種不同的配置來布置和設(shè)計。因此,以下對在附圖中提供的本發(fā)明的實施例的詳細描述并非旨在限制要求保護的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實施例?;诒景l(fā)明的實施例,本領(lǐng)域技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
考慮到相關(guān)技術(shù)中缺乏一個同時考慮網(wǎng)絡(luò)攻擊者和防御者行動的分析框架,并確定出的網(wǎng)絡(luò)攻防策略存在準(zhǔn)確度低、參考性差的問題,無法實現(xiàn)對網(wǎng)絡(luò)安全管理起到科學(xué)指導(dǎo)作用?;诖?,本發(fā)明實施例提供了一種基于強化學(xué)習(xí)的不完全信息網(wǎng)絡(luò)安全分析方法及裝置,下面通過實施例進行描述。
如圖1所示,本發(fā)明實施例提供了一種基于強化學(xué)習(xí)的不完全信息網(wǎng)絡(luò)安全分析方法,該方法包括步驟S102-S106,具體如下:
步驟S102:獲取待分析網(wǎng)絡(luò)的基礎(chǔ)特征參數(shù),該基礎(chǔ)特征參數(shù)包括:預(yù)設(shè)的攻擊策略收益向量、防御策略收益向量、開展攻擊行動所需費用向量、入侵檢測系統(tǒng)響應(yīng)費用向量、系統(tǒng)薄弱環(huán)節(jié)矩陣和系統(tǒng)攻擊識別能力矩陣;
步驟S104:利用預(yù)先構(gòu)建的網(wǎng)絡(luò)安全強化分析模型根據(jù)上述待分析網(wǎng)絡(luò)的上述基礎(chǔ)特征參數(shù)確定攻擊者的攻擊策略空間集合和防御者的防御策略空間集合,該網(wǎng)絡(luò)安全強化分析模型為采用區(qū)間數(shù)描述網(wǎng)絡(luò)安全分析的不完全信息的方式構(gòu)建的,具體的,在考慮攻防雙方策略基礎(chǔ)上,將入侵檢測系統(tǒng)正確檢測概率和收益值視為一個區(qū)間數(shù),建立不完全信息下的網(wǎng)絡(luò)安全強化分析模型,并驗證了該網(wǎng)絡(luò)安全強化分析模型均衡策略的存在性;
步驟S106:分別輸出上述攻擊者的上述攻擊策略空間集合和上述防御者的上述防御策略空間集合,該攻擊策略空間集合中各元素表示攻擊者采取某一攻擊策略的強度,該防御策略空間集合中各元素表示防御者采取某一防御策略的強度。
其中,強化學(xué)習(xí)在國際上是十分活躍的研究領(lǐng)域。強化學(xué)習(xí)的機理比較符合人及生物的學(xué)習(xí)過程,其思想與Brooks提出的行為主義思想是完全一致的。本發(fā)明在運用區(qū)間數(shù)描述不完全信息條件下的攻擊收益和網(wǎng)絡(luò)狀態(tài)轉(zhuǎn)移概率的基礎(chǔ)上,分別建立了攻擊者和防御者的收益函數(shù),采用強化學(xué)習(xí)方法構(gòu)建了一個包括網(wǎng)絡(luò)攻擊者和防御者的網(wǎng)絡(luò)安全學(xué)習(xí)控制系統(tǒng)。
在本發(fā)明提供的實施例中,所采用的網(wǎng)絡(luò)攻防策略分析手段提供了一種同時考慮網(wǎng)絡(luò)攻擊者和防御者行動的分析求解框架,提高了網(wǎng)絡(luò)安全響應(yīng)的及時性、有效性,為解決網(wǎng)絡(luò)安全問題分析提供了一種新的有效途徑,并提高了確定出的攻防策略的準(zhǔn)確性和參考性,從而對網(wǎng)絡(luò)安全分析起到準(zhǔn)確的指導(dǎo)作用。
具體的,上述利用預(yù)先構(gòu)建的網(wǎng)絡(luò)安全強化分析模型根據(jù)上述待分析網(wǎng)絡(luò)的上述基礎(chǔ)特征參數(shù)確定攻擊者的攻擊策略空間集合和防御者的防御策略空間集合,包括:
在考慮攻防雙方策略基礎(chǔ)上,根據(jù)上述待分析網(wǎng)絡(luò)的上述基礎(chǔ)特征參數(shù)和第一網(wǎng)絡(luò)安全強化分析子模型
確定上述攻擊者的上述攻擊策略空間集合和上述防御者的上述防御策略空間集合;
其中,μA(μI,P)表示攻擊者的攻擊策略空間集合,μI(μA,P)表示防御者的防御策略空間集合,θA表示攻擊定義向量,θI表示防御定義向量,表示攻擊者的攻擊策略收益向量,表示防御者的防御策略收益向量,表示開展攻擊行動所需費用向量,表示入侵檢測系統(tǒng)響應(yīng)費用向量,γ表示虛警費用、入侵檢測費用、攻擊者欺騙費用之和,i表示攻擊策略序號,i=1,…,Amax,k表示防御策略序號,k=1,…,Rmax,diag(·)表示對角矩陣,Q表示系統(tǒng)薄弱環(huán)節(jié)矩陣,P表示系統(tǒng)攻擊識別能力矩陣,表示防御行動與攻擊行動之間的交互關(guān)系矩陣,[·]+表示將變量·中所有數(shù)值小于0的賦值為0。
具體的,在本發(fā)明提供的實施例中,將攻擊者的攻擊策略空間集合定義為表示攻擊者采用攻擊策略為i的強度,將防御者的防御策略空間集合定義為表示防御者采用防御策略為k的強度,網(wǎng)絡(luò)對抗行動的入侵檢測系統(tǒng)對攻擊行動識別能力使用一個能力矩陣P=[pij],i,j=1,…,Amax,pij表示入侵檢測系統(tǒng)將攻擊者的攻擊策略i視為攻擊策略j的可能性,i表示攻擊者實際采取的攻擊策略,j表示入侵檢測系統(tǒng)識別出的攻擊策略,當(dāng)i=j(luò)時,說明入侵檢測系統(tǒng)正確識別出攻擊者的攻擊策略,當(dāng)i≠j時,說明入侵檢測系統(tǒng)錯誤識別出攻擊者的攻擊策略,此時屬于入侵檢測系統(tǒng)虛警。其中,上述為矩陣元素包括0和1兩種值構(gòu)成的矩陣。
其中,上述第一網(wǎng)絡(luò)安全強化分析子模型是通過如下方式構(gòu)建的:
獲取網(wǎng)絡(luò)攻擊者和防御者的原始收益函數(shù)方程
對上述原始收益函數(shù)方程中各個收益函數(shù)求導(dǎo),并設(shè)置各上述收益函數(shù)的導(dǎo)數(shù)等于零,得到第一網(wǎng)絡(luò)安全強化分析子模型
將上述第一網(wǎng)絡(luò)安全強化分析子模型作為上述網(wǎng)絡(luò)安全強化分析模型,該網(wǎng)絡(luò)安全強化分析模型確定出的攻擊策略和防御策略,使得網(wǎng)絡(luò)攻擊者和防御者之間達到均衡,攻擊策略和防御策略為假設(shè)攻擊者和防御者均為理性人條件下的最優(yōu)策略;
其中,JA(μA,μI,P)表示攻擊策略收益函數(shù),JI(μA,μI,P)表示防御策略收益函數(shù),(·)T表示變量·的轉(zhuǎn)置矩陣。
具體的,上述表示入侵檢測系統(tǒng)虛警費用和檢測攻擊行動費用之和,上述表示攻擊者被檢測攻擊行動費用和攻擊者欺騙費用之和,(μI)Tdiag(α)μI用來量化防御行動的費用,對入侵檢測系統(tǒng)而言,根據(jù)具體的響應(yīng)行動,該費用可以用來表示運用資源的費用,系統(tǒng)運用的各種約束條件,或者是傳感器的配置,(μA)Tdiag(β)μA用來量化攻擊行動的費用,對于攻擊者而言,該費用表示攻擊者所需資源費用,表示防御者防御一次成功時的費用,表示攻擊者攻擊一次成功時的費用,另外,考慮到矩陣間的運算關(guān)系,令攻擊者的攻擊策略空間集合令防御者的防御策略空間集合
在本發(fā)明提供的實施例中,通過對原始收益函數(shù)方程中的攻擊策略收益函數(shù)和防御策略收益函數(shù)分別進行求導(dǎo),并設(shè)置其導(dǎo)數(shù)等于零,從而推到出攻擊者的攻擊策略空間集合計算公式和防御者的防御策略空間集合計算公式,進而計算得到攻擊者的最優(yōu)攻擊策略空間集合和的防御者的最優(yōu)防御策略空間集合,能夠?qū)崿F(xiàn)確定出的攻擊策略和防御策略,使得網(wǎng)絡(luò)攻擊者和防御者之間達到均衡。
進一步的,考慮到入侵檢測系統(tǒng)的學(xué)習(xí)能力,當(dāng)上述系統(tǒng)攻擊識別能力矩陣與時間變量之間的關(guān)系式為時,上述利用預(yù)先構(gòu)建的網(wǎng)絡(luò)安全強化分析模型根據(jù)上述待分析網(wǎng)絡(luò)的上述基礎(chǔ)特征參數(shù)確定攻擊者的攻擊策略空間集合和防御者的防御策略空間集合,包括:
根據(jù)上述待分析網(wǎng)絡(luò)的上述基礎(chǔ)特征參數(shù)和第二網(wǎng)絡(luò)安全強化分析子模型
確定上述攻擊者的上述攻擊策略空間集合和上述防御者的上述防御策略空間集合,其中,當(dāng)上述系統(tǒng)攻擊識別能力矩陣與時間變量之間的關(guān)系式為時,將第二網(wǎng)絡(luò)安全強化分析子模型作為網(wǎng)絡(luò)安全強化分析模型;
其中,n表示時間變量,n+1表示n時刻的下一時刻,μA(n+1)表示n+1時刻攻擊者的防御策略空間集合,μI(n+1)表示n+1時刻防御者的防御策略空間集合,δ表示第一標(biāo)量,δ>0,ε表示第二標(biāo)量,ε>0,W(n)表示n時刻隨機矩陣,W=[wik],且wij服從均勻分布[-1,1],i表示攻擊策略序號,i=1,…,Amax,k表示防御策略序號,k=1,…,Rmax,[·]N表示將變量·映射到區(qū)間[dtmin,dtmax]的函數(shù),即將入侵檢測系統(tǒng)正確檢測概率和收益值視為一個區(qū)間數(shù),dtmin表示系統(tǒng)攻擊識別能力矩陣P(n)中各個元素的最小值,dtmax表示系統(tǒng)攻擊識別能力矩陣P(n)中各個元素的最大值,dtmax<1。
在本發(fā)明提供的實施例中,給出的第二網(wǎng)絡(luò)安全強化分析子模型將檢測概率限定在[dtmin,dtmax]范圍內(nèi)波動,能夠反映入侵檢測系統(tǒng)的虛警率;同時,通過因式來考察過去攻防行動對入侵檢測概率的影響,進而提高入侵檢測系統(tǒng)的正確檢測概率。
進一步的,為了提高第二網(wǎng)絡(luò)安全強化分析子模型的收斂性和穩(wěn)定性,避免出現(xiàn)第二網(wǎng)絡(luò)安全強化分析子模型的最終求解結(jié)果為無解的情況,上述方法還包括:
將不等式
|pij(n+1)-Idlij|<|pij(n)-Idlij|+ε|wij(n)|+δ|x-i|<|pij(n)-Idlij|+ε+δ|x-i|作為上述系統(tǒng)攻擊識別能力矩陣與時間變量之間的關(guān)系式的約束條件,以提高上述第二網(wǎng)絡(luò)安全強化分析子模型的收斂性和穩(wěn)定性;
其中,系統(tǒng)攻擊識別能力矩陣P(n)中各個元素滿足idlij表示理想條件下系統(tǒng)攻擊識別能力矩陣中第i行j列值,|x-i|表示系統(tǒng)攻擊能力的擾動變量,pij(n+1)表示在n+1時刻系統(tǒng)攻擊識別能力矩陣中第i行j列值,pij(n)表示在n時刻系統(tǒng)攻擊識別能力矩陣中第i行j列值,wij(n)表示服從均勻分布[-1,1]的擾動變量。
具體的,并且對于任意n,ε=0,δ=0,當(dāng)n→∞時,P(n)很明顯將收斂于Idl矩陣,而且,當(dāng)?shù)谝粯?biāo)量δ>0、第二標(biāo)量ε>0足夠小時,從任意可行點開始,將收斂到區(qū)域Reg(ε)=并且當(dāng)i≠j時,滿足
在本發(fā)明提供的實施例中,通過將上述不等式|pij(n+1)-Idlij|<|pij(n)-Idlij|+ε|wij(n)|+δ|x-i|<|pij(n)-Idlij|+ε+δ|x-i|作為系統(tǒng)攻擊識別能力矩陣與時間變量之間的關(guān)系式的約束條件,能夠提高第二網(wǎng)絡(luò)安全強化分析子模型的收斂性和穩(wěn)定性,避免出現(xiàn)第二網(wǎng)絡(luò)安全強化分析子模型的最終求解結(jié)果為無解的情況。
同樣的,上述第二網(wǎng)絡(luò)安全強化分析子模型與上述第一網(wǎng)絡(luò)安全強化分析子模型的構(gòu)建方式類似,不同點在于,需要將給出的系統(tǒng)攻擊識別能力矩陣與時間變量之間的關(guān)系式帶入模型中,在此不再贅述。
接下來,在本發(fā)明提供的實施例中還對收益向量對攻防策略影響、薄弱環(huán)節(jié)對攻防策略影響進行了仿真實驗分析,具體為:
首先,假設(shè)入侵檢測系統(tǒng)對三種攻擊策略進行監(jiān)控,網(wǎng)絡(luò)攻擊者和入侵檢測系統(tǒng)默認(rèn)參數(shù)的設(shè)定分別為:cI=cA=[20,40,60],α=β=[10,10,10],γ=10,ε=0.01,δ=0.001,pij∈[dtmin,dtmax]=[0.3,0.7]。
(1)收益向量對攻防策略影響:
為了考察網(wǎng)絡(luò)對抗行動收益向量對最優(yōu)攻防策略的影響,定義攻擊者的攻擊策略收益向量為cA=[50,100,150],防御者的防御策略收益向量為cI=[50,100,150],其它參數(shù)取上述默認(rèn)值。運用上述第二網(wǎng)絡(luò)安全強化分析子模型進行仿真,其中,仿真結(jié)果如圖2a至2d所示。
從圖2a和2c中可知,攻擊策略和防御策略的收益值越大,相應(yīng)攻擊策略和防御策略的對抗強度就越大。從圖2b可知,對抗行動的收益值越大,入侵檢測系統(tǒng)正確檢測概率收斂的越快,即學(xué)習(xí)能力越強。從管理學(xué)視角來看,對于影響局中人切身利益的事情,局中人往往會采取積極、主動的態(tài)度去分析問題,并且不斷更新對對手行動的認(rèn)識。從圖2d可知,攻擊者在初始階段,其收益值迅速增長,但是隨后其收益值逐漸下降,直到穩(wěn)定。這一方面說明攻擊者在網(wǎng)絡(luò)對抗初期九應(yīng)該集中“火力”對網(wǎng)絡(luò)展開攻擊。
(2)薄弱環(huán)節(jié)對攻防策略影響:
在網(wǎng)絡(luò)對抗行動過程中,攻擊者對于待攻擊網(wǎng)絡(luò)的信息是不斷增加的。在本仿真實驗中,假設(shè)當(dāng)t=100時,用系統(tǒng)薄弱環(huán)節(jié)矩陣從diag(1,1,1)轉(zhuǎn)變?yōu)閐iag(2,1,1)來表示攻擊者獲得的系統(tǒng)薄弱信息,其它仿真參數(shù)取上述默認(rèn)值,仿真結(jié)果如圖3a至3d所示。
從圖3a、3c、3d中可知,當(dāng)攻擊者發(fā)現(xiàn)網(wǎng)絡(luò)中某薄弱環(huán)節(jié)后,針對該薄弱環(huán)節(jié)的攻擊強度立刻增大,相應(yīng)的攻擊收益值也發(fā)生突變。相反,由于防御者時刻處于被動地位,為了確保網(wǎng)絡(luò)安全,需要在網(wǎng)絡(luò)薄弱環(huán)節(jié)處投入更多的防御力量。這種不對稱的對抗行動,使得攻擊者的收益值持續(xù)增大,而防御者的收益值越來越小。從圖3b中可知,當(dāng)攻擊者獲知系統(tǒng)薄弱環(huán)節(jié)后,系統(tǒng)的檢測概率沒有多大變化。由此可知,一方面,在網(wǎng)絡(luò)對抗過程,攻擊者對網(wǎng)絡(luò)軟件、硬件、結(jié)構(gòu)脆弱性等掌握的越多,攻擊者行動的成功率就越高;另一方面,以通過散步大量虛假信息來消耗網(wǎng)絡(luò)攻擊者的時間和資源,為網(wǎng)絡(luò)防御者檢測攻擊創(chuàng)造出更多機會,便于后續(xù)分析、識別進而做出適當(dāng)響應(yīng)。
在本發(fā)明提供的基于強化學(xué)習(xí)的不完全信息網(wǎng)絡(luò)安全分析方法中,首先,獲取待分析網(wǎng)絡(luò)的基礎(chǔ)特征參數(shù),該基礎(chǔ)特征參數(shù)包括:預(yù)設(shè)的攻擊策略及其收益向量、防御策略及其收益向量、開展攻擊行動所需費用向量、入侵檢測系統(tǒng)響應(yīng)費用向量、系統(tǒng)薄弱環(huán)節(jié)矩陣和系統(tǒng)攻擊識別能力矩陣;然后,利用預(yù)先構(gòu)建的網(wǎng)絡(luò)安全強化分析模型根據(jù)待分析網(wǎng)絡(luò)的基礎(chǔ)特征參數(shù)確定攻擊者的攻擊策略空間集合和防御者的防御策略空間集合,該網(wǎng)絡(luò)安全強化分析模型為采用區(qū)間數(shù)描述網(wǎng)絡(luò)安全分析的不完全信息的方式構(gòu)建的;最后,分別輸出攻擊者的攻擊策略空間集合和防御者的防御策略空間集合。本發(fā)明實施例所采用的網(wǎng)絡(luò)攻防策略分析手段提供了一種同時考慮網(wǎng)絡(luò)攻擊者和防御者行動的分析求解框架,提高了網(wǎng)絡(luò)安全響應(yīng)的及時性、有效性,為解決網(wǎng)絡(luò)安全問題分析提供了一種新的有效途徑,并提高了確定出的攻防策略的準(zhǔn)確性和參考性,從而對網(wǎng)絡(luò)安全分析起到準(zhǔn)確的指導(dǎo)作用;進一步的,通過對原始收益函數(shù)方程中的攻擊策略收益函數(shù)和防御策略收益函數(shù)分別進行求導(dǎo),并設(shè)置其導(dǎo)數(shù)等于零,從而推到出攻擊者的攻擊策略空間集合計算公式和防御者的防御策略空間集合計算公式,進而計算得到攻擊者的最優(yōu)攻擊策略空間集合和的防御者的最優(yōu)防御策略空間集合,能夠?qū)崿F(xiàn)確定出的攻擊策略和防御策略,使得網(wǎng)絡(luò)攻擊者和防御者之間達到均衡;更進一步的,給出的第二網(wǎng)絡(luò)安全強化分析子模型將檢測概率限定在[dtmin,dtmax]范圍內(nèi)波動,能夠反映入侵檢測系統(tǒng)的虛警率;同時,通過因式來考察過去攻防行動對入侵檢測概率的影響,進而提高入侵檢測系統(tǒng)的正確檢測概率。
本發(fā)明實施例還提供了一種基于強化學(xué)習(xí)的不完全信息網(wǎng)絡(luò)安全分析裝置,如圖4所示,該裝置包括:
參數(shù)獲取模塊402,用于獲取待分析網(wǎng)絡(luò)的基礎(chǔ)特征參數(shù),上述基礎(chǔ)特征參數(shù)包括:預(yù)設(shè)的攻擊策略收益向量、防御策略收益向量、開展攻擊行動所需費用向量、入侵檢測系統(tǒng)響應(yīng)費用向量、系統(tǒng)薄弱環(huán)節(jié)矩陣和系統(tǒng)攻擊識別能力矩陣;
策略確定模塊404,用于利用預(yù)先構(gòu)建的網(wǎng)絡(luò)安全強化分析模型根據(jù)上述待分析網(wǎng)絡(luò)的上述基礎(chǔ)特征參數(shù)確定攻擊者的攻擊策略空間集合和防御者的防御策略空間集合,該網(wǎng)絡(luò)安全強化分析模型為采用區(qū)間數(shù)描述網(wǎng)絡(luò)安全分析的不完全信息的方式構(gòu)建的,具體的,在考慮攻防雙方策略基礎(chǔ)上,將入侵檢測系統(tǒng)正確檢測概率和收益值視為一個區(qū)間數(shù),建立不完全信息下的網(wǎng)絡(luò)安全強化分析模型,并驗證了該網(wǎng)絡(luò)安全強化分析模型均衡策略的存在性;
策略輸出模塊406,用于分別輸出上述攻擊者的上述攻擊策略空間集合和上述防御者的上述防御策略空間集合,上述攻擊策略空間集合中各元素表示攻擊者采取某一攻擊策略的強度,上述防御策略空間集合中各元素表示防御者采取某一防御策略的強度。
在本發(fā)明提供的實施例中,所采用的網(wǎng)絡(luò)攻防策略分析裝置提供了一種同時考慮網(wǎng)絡(luò)攻擊者和防御者行動的分析求解框架,提高了網(wǎng)絡(luò)安全響應(yīng)的及時性、有效性,為解決網(wǎng)絡(luò)安全問題分析提供了一種新的有效途徑,并提高了確定出的攻防策略的準(zhǔn)確性和參考性,從而對網(wǎng)絡(luò)安全分析起到準(zhǔn)確的指導(dǎo)作用。
進一步的,上述策略確定模塊404具體包括:
第一策略確定子模塊,用于在考慮攻防雙方策略基礎(chǔ)上,根據(jù)上述待分析網(wǎng)絡(luò)的上述基礎(chǔ)特征參數(shù)和第一網(wǎng)絡(luò)安全強化分析子模型
確定上述攻擊者的上述攻擊策略空間集合和上述防御者的上述防御策略空間集合;
其中,μA(μI,P)表示攻擊者的攻擊策略空間集合,μI(μA,P)表示防御者的防御策略空間集合,θA表示攻擊定義向量,θI表示防御定義向量,表示攻擊者的攻擊策略收益向量,表示防御者的防御策略收益向量,表示開展攻擊行動所需費用向量,表示入侵檢測系統(tǒng)響應(yīng)費用向量,γ表示虛警費用、入侵檢測費用、攻擊者欺騙費用之和,i表示攻擊策略序號,i=1,…,Amax,k表示防御策略序號,k=1,…,Rmax,diag(·)表示對角矩陣,Q表示系統(tǒng)薄弱環(huán)節(jié)矩陣,P表示系統(tǒng)攻擊識別能力矩陣,表示防御行動與攻擊行動之間的交互關(guān)系矩陣,[·]+表示將變量·中所有數(shù)值小于0的賦值為0。
進一步的,上述裝置還包括:
模型構(gòu)建模塊,用于獲取網(wǎng)絡(luò)攻擊者和防御者的原始收益函數(shù)方程
對上述原始收益函數(shù)方程中各個收益函數(shù)求導(dǎo),并設(shè)置各上述收益函數(shù)的導(dǎo)數(shù)等于零,得到第一網(wǎng)絡(luò)安全強化分析子模型
將上述第一網(wǎng)絡(luò)安全強化分析子模型作為上述網(wǎng)絡(luò)安全強化分析模型,上述網(wǎng)絡(luò)安全強化分析模型確定出的攻擊策略和防御策略,使得網(wǎng)絡(luò)攻擊者和防御者之間達到均衡,攻擊策略和防御策略為假設(shè)攻擊者和防御者均為理性人條件下的最優(yōu)策略;
其中,JA(μA,μI,P)表示攻擊策略收益函數(shù),JI(μA,μI,P)表示防御策略收益函數(shù),(·)T表示變量·的轉(zhuǎn)置矩陣。
在本發(fā)明提供的實施例中,通過對原始收益函數(shù)方程中的攻擊策略收益函數(shù)和防御策略收益函數(shù)分別進行求導(dǎo),并設(shè)置其導(dǎo)數(shù)等于零,從而推到出攻擊者的攻擊策略空間集合計算公式和防御者的防御策略空間集合計算公式,進而計算得到攻擊者的最優(yōu)攻擊策略空間集合和的防御者的最優(yōu)防御策略空間集合,能夠?qū)崿F(xiàn)確定出的攻擊策略和防御策略,使得網(wǎng)絡(luò)攻擊者和防御者之間達到均衡。
進一步的,考慮到入侵檢測系統(tǒng)的學(xué)習(xí)能力,當(dāng)上述系統(tǒng)攻擊識別能力矩陣與時間變量之間的關(guān)系式為時,上述策略確定模塊404包括:
第二策略確定子模塊,用于根據(jù)上述待分析網(wǎng)絡(luò)的上述基礎(chǔ)特征參數(shù)和第二網(wǎng)絡(luò)安全強化分析子模型
確定上述攻擊者的上述攻擊策略空間集合和上述防御者的上述防御策略空間集合,其中,當(dāng)上述系統(tǒng)攻擊識別能力矩陣與時間變量之間的關(guān)系式為時,將第二網(wǎng)絡(luò)安全強化分析子模型作為網(wǎng)絡(luò)安全強化分析模型;
其中,n表示時間變量,n+1表示n時刻的下一時刻,μA(n+1)表示n+1時刻攻擊者的防御策略空間集合,μI(n+1)表示n+1時刻防御者的防御策略空間集合,δ表示第一標(biāo)量,δ>0,ε表示第二標(biāo)量,ε>0,W(n)表示n時刻隨機矩陣,[·]N表示將變量·映射到區(qū)間[dtmin,dtmax]的函數(shù),即將入侵檢測系統(tǒng)正確檢測概率和收益值視為一個區(qū)間數(shù),dtmin表示系統(tǒng)攻擊識別能力矩陣P(n)中各個元素的最小值,dtmax表示系統(tǒng)攻擊識別能力矩陣P(n)中各個元素的最大值,dtmax<1。
在本發(fā)明提供的實施例中,給出的第二網(wǎng)絡(luò)安全強化分析子模型將檢測概率限定在[dtmin,dtmax]范圍內(nèi)波動,能夠反映入侵檢測系統(tǒng)的虛警率;同時,通過因式來考察過去攻防行動對入侵檢測概率的影響,進而提高入侵檢測系統(tǒng)的正確檢測概率。
進一步的,為了提高第二網(wǎng)絡(luò)安全強化分析子模型的收斂性和穩(wěn)定性,避免出現(xiàn)第二網(wǎng)絡(luò)安全強化分析子模型的最終求解結(jié)果為無解的情況,上述裝置還包括:
約束條件確定模塊,用于將不等式|pij(n+1)-Idlij|<|pij(n)-Idlij|+ε|wij(n)|+δ|x-i|<|pij(n)-Idlij|+ε+δ|x-i|作為上述系統(tǒng)攻擊識別能力矩陣與時間變量之間的關(guān)系式的約束條件,以提高上述第二網(wǎng)絡(luò)安全強化分析子模型的收斂性和穩(wěn)定性;
其中,系統(tǒng)攻擊識別能力矩陣P(n)中各個元素滿足idlij表示理想條件下系統(tǒng)攻擊識別能力矩陣中第i行j列值,|x-i|表示系統(tǒng)攻擊能力的擾動變量,pij(n+1)表示在n+1時刻系統(tǒng)攻擊識別能力矩陣中第i行j列值,pij(n)表示在n時刻系統(tǒng)攻擊識別能力矩陣中第i行j列值,wij(n)表示服從均勻分布[-1,1]的擾動變量。
在本發(fā)明提供的實施例中,通過將上述不等式|pij(n+1)-Idlij|<|pij(n)-Idlij|+ε|wij(n)|+δ|x-i|<|pij(n)-Idlij|+ε+δ|x-i|作為系統(tǒng)攻擊識別能力矩陣與時間變量之間的關(guān)系式的約束條件,能夠提高第二網(wǎng)絡(luò)安全強化分析子模型的收斂性和穩(wěn)定性,避免出現(xiàn)第二網(wǎng)絡(luò)安全強化分析子模型的最終求解結(jié)果為無解的情況。
在本發(fā)明提供的基于強化學(xué)習(xí)的不完全信息網(wǎng)絡(luò)安全分析裝置中,首先,通過參數(shù)獲取模塊402獲取待分析網(wǎng)絡(luò)的基礎(chǔ)特征參數(shù),該基礎(chǔ)特征參數(shù)包括:預(yù)設(shè)的攻擊策略及其收益向量、防御策略及其收益向量、開展攻擊行動所需費用向量、入侵檢測系統(tǒng)響應(yīng)費用向量、系統(tǒng)薄弱環(huán)節(jié)矩陣和系統(tǒng)攻擊識別能力矩陣;然后,通過策略確定模塊404利用預(yù)先構(gòu)建的網(wǎng)絡(luò)安全強化分析模型根據(jù)待分析網(wǎng)絡(luò)的基礎(chǔ)特征參數(shù)確定攻擊者的攻擊策略空間集合和防御者的防御策略空間集合,該網(wǎng)絡(luò)安全強化分析模型為采用區(qū)間數(shù)描述網(wǎng)絡(luò)安全分析的不完全信息的方式構(gòu)建的;最后,通過策略輸出模塊406分別輸出攻擊者的攻擊策略空間集合和防御者的防御策略空間集合。本發(fā)明實施例所采用的網(wǎng)絡(luò)攻防策略分析裝置提供了一種同時考慮網(wǎng)絡(luò)攻擊者和防御者行動的分析求解框架,提高了網(wǎng)絡(luò)安全響應(yīng)的及時性、有效性,為解決網(wǎng)絡(luò)安全問題分析提供了一種新的有效途徑,并提高了確定出的攻防策略的準(zhǔn)確性和參考性,從而對網(wǎng)絡(luò)安全分析起到準(zhǔn)確的指導(dǎo)作用;進一步的,通過對原始收益函數(shù)方程中的攻擊策略收益函數(shù)和防御策略收益函數(shù)分別進行求導(dǎo),并設(shè)置其導(dǎo)數(shù)等于零,從而推到出攻擊者的攻擊策略空間集合計算公式和防御者的防御策略空間集合計算公式,進而計算得到攻擊者的最優(yōu)攻擊策略空間集合和的防御者的最優(yōu)防御策略空間集合,能夠?qū)崿F(xiàn)確定出的攻擊策略和防御策略,使得網(wǎng)絡(luò)攻擊者和防御者之間達到均衡;更進一步的,給出的第二網(wǎng)絡(luò)安全強化分析子模型將檢測概率限定在[dtmin,dtmax]范圍內(nèi)波動,能夠反映入侵檢測系統(tǒng)的虛警率;同時,通過因式來考察過去攻防行動對入侵檢測概率的影響,進而提高入侵檢測系統(tǒng)的正確檢測概率。
本發(fā)明實施例所提供的基于強化學(xué)習(xí)的不完全信息網(wǎng)絡(luò)安全分析裝置可以為設(shè)備上的特定硬件或者安裝于設(shè)備上的軟件或固件等。本發(fā)明實施例所提供的裝置,其實現(xiàn)原理及產(chǎn)生的技術(shù)效果和前述方法實施例相同,為簡要描述,裝置實施例部分未提及之處,可參考前述方法實施例中相應(yīng)內(nèi)容。所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,前述描述的系統(tǒng)、裝置和單元的具體工作過程,均可以參考上述方法實施例中的對應(yīng)過程,在此不再贅述。
在本發(fā)明所提供的實施例中,應(yīng)該理解到,所揭露裝置和方法,可以通過其它的方式實現(xiàn)。以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,又例如,多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些通信接口,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。另外,在本發(fā)明提供的實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。
所述功能如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(Read-Only Memory,ROM)、隨機存取存儲器(Random Access Memory,RAM)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。應(yīng)注意到:相似的標(biāo)號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨后的附圖中不需要對其進行進一步定義和解釋,此外,術(shù)語“第一”、“第二”、“第三”等僅用于區(qū)分描述,而不能理解為指示或暗示相對重要性。
最后應(yīng)說明的是:以上所述實施例,僅為本發(fā)明的具體實施方式,用以說明本發(fā)明的技術(shù)方案,而非對其限制,本發(fā)明的保護范圍并不局限于此,盡管參照前述實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),其依然可以對前述實施例所記載的技術(shù)方案進行修改或可輕易想到變化,或者對其中部分技術(shù)特征進行等同替換;而這些修改、變化或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明實施例技術(shù)方案的精神和范圍。都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)所述以權(quán)利要求的保護范圍為準(zhǔn)。