基于多用戶強化學(xué)習(xí)的認(rèn)知無線網(wǎng)絡(luò)抗敵意干擾方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及無線網(wǎng)絡(luò)安全,尤其是涉及一種基于多用戶強化學(xué)習(xí)的認(rèn)知無線網(wǎng)絡(luò) 抗敵意干擾方法。
【背景技術(shù)】
[0002] 由于頻譜資源的短缺和利用率等問題制約著無線通信的發(fā)展,而認(rèn)知無線電 (Cognitive Radio, CR)技術(shù)的提出能夠有效提高頻譜的利用率。無線信道的廣播特性,對 于認(rèn)知無線電網(wǎng)絡(luò)而言極易遭受到敵意干擾的攻擊,使得無線網(wǎng)絡(luò)的安全問題亟待解決。 [0003] 干擾機的攻擊模式是以間斷或持續(xù)地向無線信道發(fā)射干擾信號的方式去 阻撓認(rèn)知用戶接入到通信信道或者破壞節(jié)點間信息的正常傳輸。擴頻通信作為傳 統(tǒng)的抗干擾技術(shù),能夠有效的抵御干擾,而跳頻、直接序列擴頻和線性調(diào)頻擴頻為擴 步員的主要三種方式[Viterbi A J. Spread spectrum communications:myths and realities[J]. Communications Magazine, IEEE, 2002,40(5) :34-41.]。這些擴頻技 術(shù)需要收發(fā)端建立一個共享的密鑰,一定程度上限制了通信的擴展性。而[Strass-er M,Capkun S, Cagalj M. Jamming-resistant key establishment using uncoordinated frequency hopping[C]//Security and Privacy, 2008.SP 2008. IEEE Symposium on. IEEE,2008:64-78.]提出的非協(xié)調(diào)跳頻技術(shù)即便在干擾機存在的情況下無需建立共享 密鑰也能正常的實現(xiàn)抗干擾。
[0004] 此外,通過讓用戶使用相應(yīng)算法學(xué)習(xí)干擾機的發(fā)射功率的行為,也能實現(xiàn)抗干 擾的性能。例如,通過學(xué)習(xí)干擾機的發(fā)射功率的行為,獲取干擾機的干擾行徑,從而調(diào)整 認(rèn)知源節(jié)點自身的發(fā)射功率,達到抵抗敵意干擾機的攻擊的性能。分布式控制控制、最 優(yōu)控制策略和基于博弈論模型的功率控制算法等都是比較常見的算法。[s. Buzzi and D.Saturnino, "A Game-Theoretic Approach to Energy-Efficient Power Control and Receiver Design in Cognitive CDMA Wireless Networks, ^IEEE J. Sel. Topics Signal Process.,vol. 5, no. 1,pp. 137 - 150, 2011]提出一種針對多用戶認(rèn)知無線電網(wǎng)絡(luò)上行能量 效率最大化的基于非合作的博弈的分布式功率控制算法,[Y. Song and J.Xie,"Optimal Power Control for Concurrent Transmissions of Location-Aware Mobile Cognitive Radio Ad Hoc Networks,"in GL0BEC0M,no. July,2009, pp. I - 6.]提出了一種最大化并發(fā) 傳輸區(qū)域的最優(yōu)功率控制算法,[Lopez R B,Sanchez S M,F(xiàn)ernandez E M G,et al. Genetic algorithm aided transmit power control in cognitive radio networks[C]// Cognitive Radio Oriented Wireless Net-works and Communications(CR0WNC0M), 2014 9th International Conference on. IEEE,2014:61-66]提出使用一種遺傳算法(genetic algorithm,GA)來解決認(rèn)知無線電網(wǎng)絡(luò)的傳輸功率控制(TCP)問題,[D. Yang,J. Zhang,X. Fang,A. Richa,and G. Xue,"Optimal transmission power control in the presence of a smart jammer," in Proc. IEEE Global Commun. Conf. (Gl-0becom), pp. 5506 - 5511, 2012] 針對能夠?qū)W習(xí)發(fā)射機行為并作出相應(yīng)干擾調(diào)整的智能干擾機,提出了一種利用博弈論的方 法研宄該情況下的功率控制問題。
[0005] 對于自適應(yīng)干擾機而言,只有在發(fā)射機成功的發(fā)射合法信息的傳輸功率足以被接 收節(jié)點成功接收時,自適應(yīng)干擾機才發(fā)起攻擊,可稱之為此時的合法信息傳輸功率為干擾 門限值叫,故加大了認(rèn)知用戶抗干擾的的難度。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的是著眼于解決認(rèn)知無線電網(wǎng)絡(luò)中的抗敵意干擾,保證認(rèn)知用戶能夠 在成功的接入空閑信道或者認(rèn)知用戶間能夠確保正常通信,提供一種基于多用戶強化學(xué)習(xí) 的認(rèn)知無線網(wǎng)絡(luò)抗敵意干擾方法。
[0007] 本發(fā)明包括以下步驟:
[0008] 1)初始化認(rèn)知源節(jié)點s學(xué)習(xí)因子a s、折扣因子y s、步長n、學(xué)習(xí)速率(8 jP 6 J 和當(dāng)前發(fā)射策略s (ts,us),初始化Qs值表、V s值表和狀態(tài)t出現(xiàn)的次數(shù)C (t s)值為0 ;
[0009] 2)認(rèn)知源節(jié)點S感知步長n = 1時的狀態(tài)t,根據(jù)混合發(fā)射策略從狀態(tài) t選擇動作〃r進行適當(dāng)?shù)奶剿鳎?br>[0010] 3)步長n - n+1,計算認(rèn)知源節(jié)點即時回報函數(shù)< 和觀察下一個狀態(tài)<,更新 a(cx)值表和RW)值表;
[0011] 4)更新估計平均發(fā)射策略;
[0012] 5)更新當(dāng)前發(fā)射策略使其不斷地接近Q學(xué)習(xí)的最優(yōu)策略,即限制到一個 合法且可最大化預(yù)期Q值之和的概率分布;
[0013] 6)根據(jù)環(huán)境的變化認(rèn)知源節(jié)點重復(fù)步驟2)~5),直到認(rèn)知源節(jié)點學(xué)習(xí)的行為基 本變化不大即為最優(yōu)發(fā)射策略。
[0014] 步驟1)中,所述似直表為二維矩陣Qs (Ts,As),其中1;是一個非空集合,表示系統(tǒng) 認(rèn)知源節(jié)點的所有可能狀態(tài),A s為所有認(rèn)知源節(jié)點可能行為集合;學(xué)習(xí)因子a s、折扣因子 Ys和學(xué)習(xí)速率(S 1和S w)取值范圍為[0, 1];
[0015] 通過比較當(dāng)前發(fā)射策略s的預(yù)期Q值是否大于當(dāng)前平均發(fā)射策略^丨的預(yù)期Q值 估計認(rèn)知源節(jié)點的"輸贏",學(xué)習(xí)速率SpSw,若大于,則表示"贏",agent選擇學(xué)習(xí)速率S w 慢慢更新策略;反之,則表示"輸",以學(xué)習(xí)速率S i更快地自適應(yīng)學(xué)習(xí),最終保證快速且穩(wěn)定 地采取最優(yōu)發(fā)射功率行為;
[0016] 當(dāng)前發(fā)射策略)賦值為I/IAsI,而I/IAsI表示認(rèn)知源節(jié)點每個動作出現(xiàn)的 平均概率,IAsI表示的是行為集的長度,下標(biāo)S表示認(rèn)知源節(jié)點,而下標(biāo)j表示干擾節(jié)點。
[0017] 步驟2)中,所述狀態(tài)t由兩部分組成,分別為主用戶接入狀態(tài)O和干擾機發(fā)射功 率+_,即認(rèn)知源節(jié)點的狀態(tài)可表示為t= (〇,Uj),當(dāng)主用戶占用了目標(biāo)信道時,〇 =0,否 則O =1;干擾機發(fā)射功率\_£ 自適應(yīng)干擾機門限值為,即合法信息的傳輸功率足以 被接收節(jié)點成功接收時,自適應(yīng)干擾機才發(fā)起攻擊;所述混合發(fā)射策略是在初始 狀態(tài)t認(rèn)知源節(jié)點通過e貪婪策略選擇發(fā)射功率<。
[0018] 步驟3)中,所述即時回報函數(shù)<表示認(rèn)知源節(jié)點在狀態(tài)下的最優(yōu)發(fā)射功率,發(fā) 射功率\為A s的一個動作V值表和Q值表更新算法表示如下:
[0021] 步驟4)中,所述平均發(fā)射策略的更新算法表示如下:
[0022] C(S)每次更新前需要根據(jù)出現(xiàn)對應(yīng)狀態(tài)的個數(shù)自加1,即C(ts) - C(ts)+1,
[0023]
[0024] 步驟5)中,更新當(dāng)前發(fā)射策略l(C<)遵循發(fā)射策略ns:ts-P S(AS),即表示狀 態(tài)空間到行為(發(fā)射功率)概率分布的映射,此概率分布可最大化預(yù)期Q值之和,當(dāng)前發(fā)射 策略表示認(rèn)知源節(jié)點在步長為 n且狀態(tài)為t下選擇發(fā)射功率u的概率,認(rèn)知源節(jié) 點在狀態(tài)t下選擇最大化Q值的發(fā)射功率行為的概率逐漸增大,而選擇其他發(fā)射行為的概 率逐漸減小,其更新算法如下:
[0027] 步驟6)中,所述最優(yōu)發(fā)射策略可理解為認(rèn)知源節(jié)點學(xué)習(xí)的行為(發(fā)射功率)基本 變化不大。
[0028] 與現(xiàn)有抗干擾方法不同,本發(fā)明基于多用戶強化學(xué)習(xí)實現(xiàn)功率控制并且達到抗干 擾的性能。該方法首先讓認(rèn)知源節(jié)點在起