亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于深度強(qiáng)化學(xué)習(xí)的認(rèn)知無(wú)線電空頻二維抗敵意干擾方法與流程

文檔序號(hào):11710306閱讀:486來(lái)源:國(guó)知局

本發(fā)明涉及無(wú)線網(wǎng)絡(luò)安全,尤其是涉及基于深度強(qiáng)化學(xué)習(xí)的認(rèn)知無(wú)線電空頻二維抗敵意干擾方法。



背景技術(shù):

隨著無(wú)線通信的迅猛發(fā)展,頻譜資源的短缺和利用率等問(wèn)題日益嚴(yán)重,認(rèn)知無(wú)線電(cognitiveradio,cr)技術(shù)的提出能夠有效提高頻譜的利用率。由于認(rèn)知無(wú)線電采用開(kāi)放式的頻譜和動(dòng)態(tài)接入方式,極易遭受到敵意干擾的攻擊,其安全問(wèn)題亟待解決。

敵意干擾機(jī)通過(guò)占用網(wǎng)絡(luò)節(jié)點(diǎn)通信信道,使合法用戶不能進(jìn)行正常數(shù)據(jù)轉(zhuǎn)發(fā),繼而發(fā)動(dòng)拒絕服務(wù)攻擊(dos)。擴(kuò)頻通信作為傳統(tǒng)的抗干擾技術(shù),能夠有效抵御干擾,而跳頻、直接序列擴(kuò)頻和線性調(diào)頻擴(kuò)頻為擴(kuò)頻的主要3種方式(viterbiaj.spreadspectrumcommunications:mythsandrealities[j].communicationsmagazine,ieee,2002,40(5):34-41)。

然而,隨著軟件無(wú)線電設(shè)備的發(fā)展,干擾機(jī)的攻擊模式越發(fā)多樣化和智能化,傳統(tǒng)的抗干擾技術(shù)對(duì)抗這類攻擊性能不佳。因此,人工神經(jīng)網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)用于學(xué)習(xí)干擾機(jī)的攻擊模式并實(shí)施抗干擾策略的研究得到國(guó)內(nèi)外學(xué)者的廣泛關(guān)注。(y.wu,b.wang,k.j.r.liu,andt.c.clancy,“anti-jamminggamesinmulti-channelcognitiveradionetworks,”ieeej.sel.areascommun.,vol.30,no.1,pp.4–15,2012)提出了一種基于q學(xué)習(xí)的信道接入策略。(k.dabcevic,a.betancourt,l.marcenaro,andc.s.regazzoni,“afictitiousplay-basedgame-theoreticalapproachtoalleviatingjammingattacksforcognitiveradios,”ieeeint’lconf.acoustich,speechandsignalprocessing(icassp),pp.8208–8212,2014)提出一種優(yōu)化的抗干擾功率分配策略。

然而,人工神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中需要先對(duì)數(shù)據(jù)進(jìn)行分類。同時(shí),強(qiáng)化學(xué)習(xí)算法例如q學(xué)習(xí)算法在狀態(tài)集和動(dòng)作集維度大的情況下,它的學(xué)習(xí)速度會(huì)快速下降。這些問(wèn)題制約著人工神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)算法的應(yīng)用。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的是提供可克服人工神經(jīng)網(wǎng)絡(luò)需要在訓(xùn)練過(guò)程中需要先對(duì)數(shù)據(jù)進(jìn)行分類以及q學(xué)習(xí)算法在狀態(tài)集和動(dòng)作集維度大的情況下學(xué)習(xí)速度會(huì)快速下降問(wèn)題的基于深度強(qiáng)化學(xué)習(xí)的認(rèn)知無(wú)線電空頻二維抗敵意干擾方法。

本發(fā)明包括以下步驟:

1)認(rèn)知無(wú)線電次用戶的動(dòng)作記為x∈[0,n],其中,x=0表示次用戶離開(kāi)該區(qū)域,x∈[1,n]表示次用戶選擇信道編號(hào)為x的信道進(jìn)行通信,n表示可用的信道數(shù)量;

2)構(gòu)造深度卷積神經(jīng)網(wǎng)絡(luò);

在步驟2)中,所述構(gòu)造深度卷積神經(jīng)網(wǎng)絡(luò)的具體方法可為:

(1)初始化深度卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù)θ、輸入序列包含的以往狀態(tài)動(dòng)作對(duì)個(gè)數(shù)w以及網(wǎng)絡(luò)更新的操作次數(shù)b;

(2)初始化深度卷積神經(jīng)網(wǎng)絡(luò)的q值,對(duì)次用戶的所有動(dòng)作分配一個(gè)對(duì)應(yīng)的輸出q值;

(3)初始化折扣因子γ,貪婪因子ε。

在步驟2)中,所述構(gòu)造深度卷積神經(jīng)網(wǎng)絡(luò)包含卷積層h層和全連接層m層,在h(h≥1)層卷積層中,第一層的卷積層輸入大小為3×b+2,具有h1個(gè)濾波器;在m(m≥1)層全連接層中最后一層的全連接層輸出大小與次用戶的可選動(dòng)作范圍大小一致,即n+1。

3)在k時(shí)刻,次用戶記錄上一個(gè)時(shí)刻認(rèn)知無(wú)線電主用戶的接入狀態(tài)(λk-1)和無(wú)線信號(hào)的信干比(sinrk-1),并組成當(dāng)前狀態(tài)sk=[λk-1,sinrk-1];

4)在k時(shí)刻,當(dāng)k≤w時(shí),次用戶隨機(jī)選取一個(gè)動(dòng)作xk∈[0,n];當(dāng)k>w時(shí),構(gòu)造深度卷積神經(jīng)網(wǎng)絡(luò)的輸入序列將狀態(tài)序列輸入到深度卷積神經(jīng)網(wǎng)絡(luò),計(jì)算每一個(gè)動(dòng)作的q值;次用戶根據(jù)貪婪算法選取動(dòng)作xk,以1-ε的概率選取具有最大q值的動(dòng)作,以ε概率隨機(jī)選取其他動(dòng)作;

在步驟4)中,在第k時(shí)刻,深度卷積神經(jīng)網(wǎng)絡(luò)的輸入是由當(dāng)前狀態(tài)以及以往記錄的w個(gè)狀態(tài)動(dòng)作對(duì)組成,即

5)當(dāng)xk=0時(shí),次用戶離開(kāi)該區(qū)域;當(dāng)xk∈[1,n]時(shí),次用戶選擇信道編號(hào)為xk的信道進(jìn)行通信;

6)次用戶觀測(cè)認(rèn)知無(wú)線電主用戶當(dāng)前的接入狀態(tài)(λk),當(dāng)λk=1時(shí),表示認(rèn)知無(wú)線電主用戶正在使用目標(biāo)通信信道,反之,λk=0;同時(shí)觀察無(wú)線信號(hào)的信干比(sinrk);

在步驟6)中,所述無(wú)線信號(hào)的信干比(sinrk)為單次通信時(shí)間內(nèi)測(cè)得的信號(hào)平均信干比。

7)根據(jù)公式(1)計(jì)算效益uk

uk=λksinrk-cmf(xk=0)(1)

其中,cm為次用戶離開(kāi)目前區(qū)域的移動(dòng)損耗;f(ξ)是一個(gè)指示函數(shù),當(dāng)ξ為真時(shí)其值為1,反之為0;

8)次用戶獲取下一時(shí)刻狀態(tài)sk+1=[λk,sinrk],下一時(shí)刻輸入序列

9)記錄k時(shí)刻經(jīng)驗(yàn)到經(jīng)驗(yàn)池d中;

10)對(duì)第k時(shí)刻網(wǎng)絡(luò)的權(quán)重參數(shù)θk進(jìn)行b次更新操作,在每一次更新過(guò)程中,隨機(jī)從經(jīng)驗(yàn)池d中選取一個(gè)經(jīng)驗(yàn)

根據(jù)公式(2)計(jì)算損失值l(θk):

其中,x′為輸入序列為下使q值最大的動(dòng)作,表示對(duì)隨機(jī)變量做統(tǒng)計(jì)期望計(jì)算。

根據(jù)公式(3)計(jì)算損失值的梯度值

采用隨機(jī)梯度下降法,利用神經(jīng)網(wǎng)絡(luò)反向反饋更新深度卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù)θk,使得梯度值最小化;

11)根據(jù)環(huán)境變化,次用戶重復(fù)步驟3)~10),直到次用戶學(xué)習(xí)到穩(wěn)定的動(dòng)作選擇策略。

本發(fā)明認(rèn)知無(wú)線電次用戶在未知干擾機(jī)攻擊模式和無(wú)線信道環(huán)境的狀態(tài)下,觀察認(rèn)知無(wú)線電主用戶的接入狀態(tài)、無(wú)線信號(hào)的信干比,利用深度強(qiáng)化學(xué)習(xí)機(jī)制決定是否離開(kāi)所在被干擾區(qū)域或者選擇一個(gè)合適的頻點(diǎn)發(fā)送信號(hào)。結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò)和q學(xué)習(xí),利用q學(xué)習(xí)在無(wú)線動(dòng)態(tài)博弈中學(xué)習(xí)最優(yōu)抗干擾策略,將觀測(cè)狀態(tài)和獲取效益輸入深度卷積神經(jīng)網(wǎng)絡(luò)作為訓(xùn)練集加快學(xué)習(xí)速度。該方法利用深度強(qiáng)化學(xué)習(xí)的機(jī)制,提高了認(rèn)知無(wú)線電在動(dòng)態(tài)變化的無(wú)線網(wǎng)絡(luò)環(huán)境場(chǎng)景下對(duì)抗敵意干擾機(jī)的通信效率。

具體實(shí)施方式

下面結(jié)合實(shí)施例進(jìn)一步描述本發(fā)明的技術(shù)方案。

一種基于深度強(qiáng)化學(xué)習(xí)的認(rèn)知無(wú)線電空頻二維抗敵意干擾方法包括以下步驟:

步驟1:構(gòu)造一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò),包含2個(gè)卷積層和2個(gè)全連接層。第一層為卷積層,輸入大小為36,包含有20個(gè)3×3的卷積核,步進(jìn)為1,輸出大小為20×4×4;第二層為卷積層,輸入大小為20×4×4,包含有40個(gè)2×2的卷積核,步進(jìn)為1,輸出大小為40×3×3;第三層為全連接層,輸入大小為360,輸出大小為180;最后一層為全連接層,輸入大小為180,輸出大小為129。4層都采用relu函數(shù)作為激活函數(shù)。

步驟2:初始化深度卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù)θ、輸入序列包含的狀態(tài)動(dòng)作對(duì)個(gè)數(shù)w=11以及網(wǎng)絡(luò)更新的操作次數(shù)b=16;初始化次用戶所有動(dòng)作的q值;初始化折扣因子γ=0.5,貪婪因子ε=0.1,可用的信道數(shù)量n=128。

步驟3:在k時(shí)刻,次用戶記錄上一個(gè)時(shí)刻認(rèn)知無(wú)線電主用戶的接入狀態(tài)(λk-1)和無(wú)線信號(hào)的信干比(sinrk-1),并組成當(dāng)前狀態(tài)sk=[λk-1,sinrk-1]。

步驟4:在k時(shí)刻,當(dāng)k≤w時(shí),次用戶隨機(jī)選取一個(gè)動(dòng)作xk∈[0,128];當(dāng)k>w時(shí),構(gòu)造深度卷積神經(jīng)的輸入序列并將其變?yōu)?×6的矩陣。將狀態(tài)序列輸入到深度卷積神經(jīng)網(wǎng)絡(luò),計(jì)算每一個(gè)動(dòng)作的q值。次用戶以0.9的概率選取具有最大q值的動(dòng)作,以0.1概率隨機(jī)選取其他動(dòng)作。

步驟5:當(dāng)xk=0時(shí),次用戶離開(kāi)該區(qū)域,當(dāng)xk∈[1,128]時(shí),次用戶選擇信道編號(hào)為xk的信道進(jìn)行通信。

步驟6:次用戶觀察當(dāng)前認(rèn)知無(wú)線電主用戶的接入狀態(tài)(λk)、無(wú)線信號(hào)的信干比(sinrk)。

步驟7:根據(jù)公式(1)計(jì)算效益uk

uk=λksinrk-cmf(xk=0)(1)

步驟8:次用戶獲取下一時(shí)刻狀態(tài)sk+1=[λk,sinrk],下一時(shí)刻輸入序列

步驟9:記錄k時(shí)刻經(jīng)驗(yàn)到經(jīng)驗(yàn)池d中。

步驟10:進(jìn)行16次權(quán)重參數(shù)θk更新操作。在每一次更新過(guò)程中,隨機(jī)從經(jīng)驗(yàn)池d中選取一個(gè)經(jīng)驗(yàn)

根據(jù)公式(2)計(jì)算損失值l(θk):

根據(jù)公式(3)計(jì)算損失值的梯度值

采用隨機(jī)梯度下降法,利用神經(jīng)網(wǎng)絡(luò)反向反饋更新深度卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù)θk,使得梯度值最小化。

步驟11:根據(jù)環(huán)境變化,次用戶重復(fù)步驟3)~10),直到次用戶學(xué)習(xí)到穩(wěn)定的動(dòng)作選擇策略。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1