Wsn中基于匪徒對抗解決方法的資源感知任務(wù)調(diào)度方法

文檔序號：9331242閱讀：221來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

Wsn中基于匪徒對抗解決方法的資源感知任務(wù)調(diào)度方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種在無線傳感器網(wǎng)絡(luò)（wirelesssensornetwork:WSN)中基于匪徒對抗解決方法的資源感知任務(wù)調(diào)度方法（Resource-AwareTaskScheduling(RAST)byan AdversarialBanditSolverMethod)，屬于強化學(xué)習(xí)技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 無線傳感器網(wǎng)絡(luò)是由數(shù)百甚至上千個微小的傳感器節(jié)點組成。無線傳感器網(wǎng)絡(luò)是一個非常重要的平臺，對于目標跟蹤、區(qū)域監(jiān)控、網(wǎng)內(nèi)路由和數(shù)據(jù)聚合等各個方面都有普遍的應(yīng)用。每個傳感器節(jié)點根據(jù)不同的任務(wù)或者應(yīng)用需求，通過每一步來執(zhí)行每個任務(wù)。每次執(zhí)行任務(wù)節(jié)點都會消耗一部分能量，而且不同的工作狀態(tài)所消耗的能量也不盡然相同，節(jié)點在不同的工作狀態(tài)會消耗能量。由于傳感器節(jié)點往往都是能量有限的，因此這會極大的限制節(jié)點的有效作用。
[0003] 針對WSN中節(jié)點對目標跟蹤應(yīng)用方面進行優(yōu)化。利用網(wǎng)絡(luò)節(jié)點對目標進行跟蹤，如果一個網(wǎng)絡(luò)節(jié)點總是處于跟蹤目標的狀態(tài)，確實會獲得很好的跟蹤效果，但是能量很快就用完了，后面的目標情況就會完全不知道。相反，如果是想節(jié)約能量，減少節(jié)點進行跟蹤的時間，會降低跟蹤目標的效果。
[0004]目前，一些學(xué)者已對此做了相關(guān)工作，但是他們大部分要么是沒有考慮到分布式的任務(wù)調(diào)度，要么是靜態(tài)的設(shè)置好節(jié)點的工作時間點和需要執(zhí)行的任務(wù)，要么是在能量消耗和節(jié)點工作效率之間權(quán)衡的不是很好。

【發(fā)明內(nèi)容】

[0005] 針對現(xiàn)有技術(shù)存在的不足，本發(fā)明目的是提供一種WSN中基于匪徒對抗解決方法的資源感知任務(wù)調(diào)度方法，將匪徒對抗解決方法應(yīng)用到無線傳感器網(wǎng)絡(luò)的目標跟蹤的資源感知任務(wù)調(diào)度中來控制網(wǎng)絡(luò)節(jié)點執(zhí)行不同的任務(wù)，既能保證節(jié)點的工作效率，又能保證能量剩余最大化。
[0006] 為了實現(xiàn)上述目的，本發(fā)明是通過如下的技術(shù)方案來實現(xiàn)：
[0007] 本發(fā)明的WSN中基于匪徒對抗解決方法的資源感知任務(wù)調(diào)度方法，包括以下幾個步驟：
[0008] (1)設(shè)置參數(shù)A和k，A為所有的任務(wù)；k是調(diào)節(jié)的隨機選擇執(zhí)行統(tǒng)一行為的平衡因子，用于控制傳感器節(jié)點處于哪種工作狀態(tài)并且對應(yīng)節(jié)點應(yīng)該執(zhí)行的任務(wù)，其中， kG[0, 1]；
[0009] (2)設(shè)置初始的權(quán)值1;設(shè)置初始的決定節(jié)點處于哪種工作狀態(tài)并且對應(yīng)節(jié)點應(yīng)該執(zhí)行任務(wù)的概率分布函數(shù)Pu，Pu= 1/A,i= 1, 2,. . . ,A;
[0010](3)判斷節(jié)點是否有剩余能量（傳感器節(jié)點上面會顯示自己還剩下多少能量的），如果沒有能量，此節(jié)點不進行工作，如果有能量，則轉(zhuǎn)向步驟（4);
[0011] ⑷根據(jù)節(jié)點感應(yīng)區(qū)域內(nèi)的已經(jīng)跟蹤的目標的數(shù)目和此時概率分布的情況，執(zhí)行任務(wù)a，aG(1，2,? ? ?，A);
[0012] (5)每次執(zhí)行完一個任務(wù)，則根據(jù)公式（12)更新當(dāng)前的獎勵值，并且根據(jù)公式 (13) 更新當(dāng)前的權(quán)值，根據(jù)公式（11)更新概率分布情況；
[0013] 每次執(zhí)行完一個任務(wù)后，更新當(dāng)前獎勵值rt+1=rt/Pa,t，其中，rt為執(zhí)行任務(wù) 前的獎勵，Pait是在t時刻執(zhí)行a任務(wù)的概率分布函數(shù)；每次執(zhí)行完一個任務(wù)后，更新當(dāng)前權(quán)值％, = ，其中，Wa,t:為執(zhí)行任務(wù)前的權(quán)值；并更新概率分布函數(shù)
,...A，其中，4是t時刻的執(zhí)行任務(wù)a時的權(quán)值；
[0014] (6)然后根據(jù)已經(jīng)執(zhí)行的任務(wù)情況，節(jié)點轉(zhuǎn)移到下一個狀態(tài)，跳轉(zhuǎn)到步驟
[0015] (3)，繼續(xù)執(zhí)行。
[0016] 本發(fā)明的WSN中基于匪徒對抗解決方法的資源感知任務(wù)調(diào)度方法，來優(yōu)化選擇無線傳感器網(wǎng)絡(luò)中節(jié)點保證跟蹤質(zhì)量和降低能量消耗，實現(xiàn)較好的準效果；通過使用匪徒對抗解決方法，與其他三個加強學(xué)習(xí)方法DIRL(DistributedIndependentReinforcement Learning)、RL(ReinforcementLearning)和CRL(CooperativeReinforcementLearning) 任務(wù)調(diào)度進行對比，證明本發(fā)明的方法具有很好的權(quán)衡能力，即保證了跟蹤質(zhì)量也降低了能量消耗。
【附圖說明】
[0017] 圖1為本發(fā)明的工作流程圖；
[0018] 圖2是目標預(yù)測和軌跡相交圖；
[0019] 圖3是節(jié)點狀態(tài)轉(zhuǎn)換過程；
[0020] 圖4是比較改變平衡獎勵函數(shù)參數(shù)的能耗與跟蹤質(zhì)量權(quán)衡圖；
[0021] 圖5是比較不同網(wǎng)絡(luò)大小的能耗與跟蹤質(zhì)量權(quán)衡圖；
[0022] 圖6是目標隨機移動下n = 〇. 10, 〇. 15, 0. 20的能耗與跟蹤質(zhì)量權(quán)衡圖；
[0023] 圖7是目標隨機移動下n =〇? 25, 0? 30, 0? 40的能耗與跟蹤質(zhì)量權(quán)衡圖；
[0024] 圖8是目標隨機移動下n =〇? 50, 0? 70, 0? 90的能耗與跟蹤質(zhì)量權(quán)衡圖。
【具體實施方式】
[0025] 為使本發(fā)明實現(xiàn)的技術(shù)手段、創(chuàng)作特征、達成目的與功效易于明白了解，下面結(jié)合
【具體實施方式】，進一步闡述本發(fā)明。
[0026] 本發(fā)明所描述的工作原理是將匪徒對抗解決方法結(jié)合資源感知任務(wù)調(diào)度中，也就是將Exp3方法（匪徒對抗解決方法）用到無線傳感器網(wǎng)絡(luò)的目標跟蹤的資源感知任務(wù)調(diào) 度中，具體是Exp3方法控制的節(jié)點執(zhí)行任務(wù)后的獎勵情況，Exp3根據(jù)概率分布情況，選擇執(zhí)行某個任務(wù)。執(zhí)行完此任務(wù)后，可以實時根據(jù)獎勵情況更新權(quán)值信息和概率分布情況，最終達到控制節(jié)點執(zhí)行不同的任務(wù)。以這樣的方式達到既能保證節(jié)點效果的同時也能保證能量剩余最大化。用計算機將Exp3方法用到資源感知任務(wù)調(diào)度中進行網(wǎng)絡(luò)仿真分析，并與其他三個加強學(xué)習(xí)方法DIRL、RL和CRL任務(wù)調(diào)度進行對比實驗。
[0027] 節(jié)點執(zhí)行任務(wù)的概率分布是混合了均勾分布和a分布，執(zhí)行每一個任務(wù)都會根據(jù)估計獎勵產(chǎn)生一個概率質(zhì)量指數(shù)。混合的分布確保了算法全部執(zhí)行任務(wù)的每一步并且每一步都獲得了良好的估計獎勵。概率分布函數(shù)是在時間步t時，EXP3根據(jù)分布函數(shù) (Plit，P2it，...，PAit)分布函數(shù)的情況，選擇執(zhí)行一個任務(wù)a(aGA)。Pa，t是在t時刻執(zhí)行a 任務(wù)的分布函數(shù)，k(kG[0，1])是控制每一次循環(huán)的決定執(zhí)行狀態(tài)的平均概率參數(shù)。如果隨機的選擇的行為是全部一樣的，k將會調(diào)整這樣的行為的概率。P]it是t時刻決定執(zhí)行j 任務(wù)時刻的概率分布，t+1時刻就是執(zhí)行完a任務(wù)后的時間，Pit+1則是t+1時刻執(zhí)行完a任務(wù)后的概率分布情況
[0028]
.(1:1.)
[0029]執(zhí)行完每一個任務(wù)后的獎勵是公式（12)，rt+1是執(zhí)行完a任務(wù)后的獎勵值，
[0030] rt+1=rt/Pa_t (12)
[0031] 執(zhí)行完每一個任務(wù)后的權(quán)值是公式（13)，wa,t是執(zhí)行a任務(wù)的權(quán)值
[0032] ~=鳥(13):
[0033] Exp3執(zhí)行每一步操作都會記錄一系列的權(quán)值Wy在概率分布的基礎(chǔ)上，根據(jù)這些權(quán)值來決定下一步的執(zhí)行計劃，當(dāng)獎勵是正向的或者積極的，就會提高相關(guān)的權(quán)值。
[0034] 本發(fā)明所描述的工作原理是將匪徒對抗解決方法結(jié)合資源感知任務(wù)調(diào)度中，也就是將Exp3方法用到無線傳感器網(wǎng)絡(luò)的目標跟蹤的資源感知任務(wù)調(diào)度中，具體是Exp3方法控制的節(jié)點執(zhí)行任務(wù)后的獎勵情況，從而可以實時根據(jù)獎勵情況更新權(quán)值信息和計算新的概率分布情況，從而控制節(jié)點的狀態(tài)，最終達到控制節(jié)點執(zhí)行不同的任務(wù)。以這樣的方式達到既能保證節(jié)點效果的同時也能保證能量剩余最大化。
[0035] 參見圖1，具體步驟如下：
[0036] (1)設(shè)置參數(shù)，所有的任務(wù)A，參數(shù)k彡1 ;
[0037] (2)初始化權(quán)值和分布情況的概率，Wl,Q= 1，P"= 1/A，i= 1，2, ? ??，A;
[0038] (3)判斷節(jié)點是否還有能量，如果沒有能量，則結(jié)束。如果有能量，根據(jù)變量確定當(dāng) 前節(jié)點的所處的狀態(tài)；
[0039] (4)根據(jù)節(jié)點感應(yīng)區(qū)域內(nèi)的已經(jīng)跟蹤的目標的數(shù)目，選擇執(zhí)行一個任務(wù) a(aG(1, 2, . . . ,A))；
[0040] (5)根據(jù)公式（12)計算估計獎勵，然后根據(jù)公式（13)更新當(dāng)前的權(quán)值；
[0041] (6)根據(jù)公式（11)計算更新概率分布，然后根據(jù)已經(jīng)執(zhí)行的任務(wù)情況，節(jié)點轉(zhuǎn)移到下一個狀態(tài)；跳轉(zhuǎn)到步驟（3)。
[0042] 節(jié)點任務(wù)定義：
[0043] 目標檢測掃描感應(yīng)區(qū)域獲得區(qū)域內(nèi)目標的數(shù)量；
[0044] 目標跟蹤在感應(yīng)區(qū)域內(nèi)跟蹤，獲取每個獨特ID目標的的平面位置；
[0045] 發(fā)送信息當(dāng)節(jié)點感應(yīng)區(qū)域內(nèi)目標即將離開感應(yīng)區(qū)域的時候，節(jié)點將目標的當(dāng)前位置、時間信、運行速度很方向發(fā)送給鄰居節(jié)點；
[0046] 預(yù)測軌跡這里面對目標運動軌跡使用Gauss-Markov運動模型，在t時刻預(yù)測目標的運動速度和方向SJPDt，S和D是平均的速度和方向常量，<^1和1^1是高斯分布的隨機變量，n是改變目標運動的隨機性參數(shù)。
[0047]
Cl)
[0048] 如果n= 1，目標運動軌跡則是線性運動方程，如果n= 〇就是隨機朗運動。下面將會根據(jù)n= 1的線性運動方程為例，進行詳細描述。
[0049] 相交軌跡這個是收到鄰居節(jié)點發(fā)送的目標軌跡信息的節(jié)點，檢測感應(yīng)區(qū)域內(nèi)是否和目標軌跡有交集，有交集則預(yù)測到節(jié)點自己的感應(yīng)區(qū)域的時間。下面根據(jù)線性方程進行描述，如圖2所示，預(yù)計到達時間€ , 是點Pi和點P,之間的距離。P,是目標離開節(jié)點j 感應(yīng)區(qū)域時

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：舒磊;穆海杜;張明翔;王堃;朱春生;
技術(shù)所有人：廣東石油化工學(xué)院;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學(xué)與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

Wsn中基于匪徒對抗解決方法的資源感知任務(wù)調(diào)度方法