Wsn中基于匪徒對抗解決方法的資源感知任務(wù)調(diào)度方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種在無線傳感器網(wǎng)絡(luò)(wirelesssensornetwork:WSN)中基于匪徒 對抗解決方法的資源感知任務(wù)調(diào)度方法(Resource-AwareTaskScheduling(RAST)byan AdversarialBanditSolverMethod),屬于強化學(xué)習(xí)技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 無線傳感器網(wǎng)絡(luò)是由數(shù)百甚至上千個微小的傳感器節(jié)點組成。無線傳感器網(wǎng)絡(luò)是 一個非常重要的平臺,對于目標跟蹤、區(qū)域監(jiān)控、網(wǎng)內(nèi)路由和數(shù)據(jù)聚合等各個方面都有普遍 的應(yīng)用。每個傳感器節(jié)點根據(jù)不同的任務(wù)或者應(yīng)用需求,通過每一步來執(zhí)行每個任務(wù)。每 次執(zhí)行任務(wù)節(jié)點都會消耗一部分能量,而且不同的工作狀態(tài)所消耗的能量也不盡然相同, 節(jié)點在不同的工作狀態(tài)會消耗能量。由于傳感器節(jié)點往往都是能量有限的,因此這會極大 的限制節(jié)點的有效作用。
[0003] 針對WSN中節(jié)點對目標跟蹤應(yīng)用方面進行優(yōu)化。利用網(wǎng)絡(luò)節(jié)點對目標進行跟蹤, 如果一個網(wǎng)絡(luò)節(jié)點總是處于跟蹤目標的狀態(tài),確實會獲得很好的跟蹤效果,但是能量很快 就用完了,后面的目標情況就會完全不知道。相反,如果是想節(jié)約能量,減少節(jié)點進行跟蹤 的時間,會降低跟蹤目標的效果。
[0004]目前,一些學(xué)者已對此做了相關(guān)工作,但是他們大部分要么是沒有考慮到分布式 的任務(wù)調(diào)度,要么是靜態(tài)的設(shè)置好節(jié)點的工作時間點和需要執(zhí)行的任務(wù),要么是在能量消 耗和節(jié)點工作效率之間權(quán)衡的不是很好。
【發(fā)明內(nèi)容】
[0005] 針對現(xiàn)有技術(shù)存在的不足,本發(fā)明目的是提供一種WSN中基于匪徒對抗解決方法 的資源感知任務(wù)調(diào)度方法,將匪徒對抗解決方法應(yīng)用到無線傳感器網(wǎng)絡(luò)的目標跟蹤的資源 感知任務(wù)調(diào)度中來控制網(wǎng)絡(luò)節(jié)點執(zhí)行不同的任務(wù),既能保證節(jié)點的工作效率,又能保證能 量剩余最大化。
[0006] 為了實現(xiàn)上述目的,本發(fā)明是通過如下的技術(shù)方案來實現(xiàn):
[0007] 本發(fā)明的WSN中基于匪徒對抗解決方法的資源感知任務(wù)調(diào)度方法,包括以下幾個 步驟:
[0008] (1)設(shè)置參數(shù)A和k,A為所有的任務(wù);k是調(diào)節(jié)的隨機選擇執(zhí)行統(tǒng)一行為的平 衡因子,用于控制傳感器節(jié)點處于哪種工作狀態(tài)并且對應(yīng)節(jié)點應(yīng)該執(zhí)行的任務(wù),其中, kG[0, 1];
[0009] (2)設(shè)置初始的權(quán)值1;設(shè)置初始的決定節(jié)點處于哪種工作狀態(tài)并且對 應(yīng)節(jié)點應(yīng)該執(zhí)行任務(wù)的概率分布函數(shù)Pu,Pu= 1/A,i= 1, 2,. . . ,A;
[0010](3)判斷節(jié)點是否有剩余能量(傳感器節(jié)點上面會顯示自己還剩下多少能量的), 如果沒有能量,此節(jié)點不進行工作,如果有能量,則轉(zhuǎn)向步驟(4);
[0011] ⑷根據(jù)節(jié)點感應(yīng)區(qū)域內(nèi)的已經(jīng)跟蹤的目標的數(shù)目和此時概率分布的情況,執(zhí)行 任務(wù)a,aG(1,2,? ? ?,A);
[0012] (5)每次執(zhí)行完一個任務(wù),則根據(jù)公式(12)更新當(dāng)前的獎勵值,并且根據(jù)公式 (13) 更新當(dāng)前的權(quán)值,根據(jù)公式(11)更新概率分布情況;
[0013] 每次執(zhí)行完一個任務(wù)后,更新當(dāng)前獎勵值rt+1=rt/Pa,t,其中,rt為執(zhí)行任務(wù) 前的獎勵,Pait是在t時刻執(zhí)行a任務(wù)的概率分布函數(shù);每次執(zhí)行完一個任務(wù)后,更新 當(dāng)前權(quán)值%, = ,其中,Wa,t:為執(zhí)行任務(wù)前的權(quán)值;并更新概率分布函數(shù)
,...A,其中,4是t時刻的執(zhí)行任務(wù)a時的權(quán)值;
[0014] (6)然后根據(jù)已經(jīng)執(zhí)行的任務(wù)情況,節(jié)點轉(zhuǎn)移到下一個狀態(tài),跳轉(zhuǎn)到步驟
[0015] (3),繼續(xù)執(zhí)行。
[0016] 本發(fā)明的WSN中基于匪徒對抗解決方法的資源感知任務(wù)調(diào)度方法,來優(yōu)化選擇無 線傳感器網(wǎng)絡(luò)中節(jié)點保證跟蹤質(zhì)量和降低能量消耗,實現(xiàn)較好的準效果;通過使用匪徒對 抗解決方法,與其他三個加強學(xué)習(xí)方法DIRL(DistributedIndependentReinforcement Learning)、RL(ReinforcementLearning)和CRL(CooperativeReinforcementLearning) 任務(wù)調(diào)度進行對比,證明本發(fā)明的方法具有很好的權(quán)衡能力,即保證了跟蹤質(zhì)量也降低了 能量消耗。
【附圖說明】
[0017] 圖1為本發(fā)明的工作流程圖;
[0018] 圖2是目標預(yù)測和軌跡相交圖;
[0019] 圖3是節(jié)點狀態(tài)轉(zhuǎn)換過程;
[0020] 圖4是比較改變平衡獎勵函數(shù)參數(shù)的能耗與跟蹤質(zhì)量權(quán)衡圖;
[0021] 圖5是比較不同網(wǎng)絡(luò)大小的能耗與跟蹤質(zhì)量權(quán)衡圖;
[0022] 圖6是目標隨機移動下n = 〇. 10, 〇. 15, 0. 20的能耗與跟蹤質(zhì)量權(quán)衡圖;
[0023] 圖7是目標隨機移動下n =〇? 25, 0? 30, 0? 40的能耗與跟蹤質(zhì)量權(quán)衡圖;
[0024] 圖8是目標隨機移動下n =〇? 50, 0? 70, 0? 90的能耗與跟蹤質(zhì)量權(quán)衡圖。
【具體實施方式】
[0025] 為使本發(fā)明實現(xiàn)的技術(shù)手段、創(chuàng)作特征、達成目的與功效易于明白了解,下面結(jié)合
【具體實施方式】,進一步闡述本發(fā)明。
[0026] 本發(fā)明所描述的工作原理是將匪徒對抗解決方法結(jié)合資源感知任務(wù)調(diào)度中,也就 是將Exp3方法(匪徒對抗解決方法)用到無線傳感器網(wǎng)絡(luò)的目標跟蹤的資源感知任務(wù)調(diào) 度中,具體是Exp3方法控制的節(jié)點執(zhí)行任務(wù)后的獎勵情況,Exp3根據(jù)概率分布情況,選擇 執(zhí)行某個任務(wù)。執(zhí)行完此任務(wù)后,可以實時根據(jù)獎勵情況更新權(quán)值信息和概率分布情況,最 終達到控制節(jié)點執(zhí)行不同的任務(wù)。以這樣的方式達到既能保證節(jié)點效果的同時也能保證能 量剩余最大化。用計算機將Exp3方法用到資源感知任務(wù)調(diào)度中進行網(wǎng)絡(luò)仿真分析,并與其 他三個加強學(xué)習(xí)方法DIRL、RL和CRL任務(wù)調(diào)度進行對比實驗。
[0027] 節(jié)點執(zhí)行任務(wù)的概率分布是混合了均勾分布和a分布,執(zhí)行每一個任務(wù)都會根 據(jù)估計獎勵產(chǎn)生一個概率質(zhì)量指數(shù)。混合的分布確保了算法全部執(zhí)行任務(wù)的每一步并 且每一步都獲得了良好的估計獎勵。概率分布函數(shù)是在時間步t時,EXP3根據(jù)分布函數(shù) (Plit,P2it,...,PAit)分布函數(shù)的情況,選擇執(zhí)行一個任務(wù)a(aGA)。Pa,t是在t時刻執(zhí)行a 任務(wù)的分布函數(shù),k(kG[0,1])是控制每一次循環(huán)的決定執(zhí)行狀態(tài)的平均概率參數(shù)。如果 隨機的選擇的行為是全部一樣的,k將會調(diào)整這樣的行為的概率。P]it是t時刻決定執(zhí)行j 任務(wù)時刻的概率分布,t+1時刻就是執(zhí)行完a任務(wù)后的時間,Pit+1則是t+1時刻執(zhí)行完a任 務(wù)后的概率分布情況
[0028]
.(1:1.)
[0029]執(zhí)行完每一個任務(wù)后的獎勵是公式(12),rt+1是執(zhí)行完a任務(wù)后的獎勵值,
[0030] rt+1=rt/Pa_t (12)
[0031] 執(zhí)行完每一個任務(wù)后的權(quán)值是公式(13),wa,t是執(zhí)行a任務(wù)的權(quán)值
[0032] ~=鳥(13):
[0033] Exp3執(zhí)行每一步操作都會記錄一系列的權(quán)值Wy在概率分布的基礎(chǔ)上,根據(jù)這些 權(quán)值來決定下一步的執(zhí)行計劃,當(dāng)獎勵是正向的或者積極的,就會提高相關(guān)的權(quán)值。
[0034] 本發(fā)明所描述的工作原理是將匪徒對抗解決方法結(jié)合資源感知任務(wù)調(diào)度中,也就 是將Exp3方法用到無線傳感器網(wǎng)絡(luò)的目標跟蹤的資源感知任務(wù)調(diào)度中,具體是Exp3方法 控制的節(jié)點執(zhí)行任務(wù)后的獎勵情況,從而可以實時根據(jù)獎勵情況更新權(quán)值信息和計算新的 概率分布情況,從而控制節(jié)點的狀態(tài),最終達到控制節(jié)點執(zhí)行不同的任務(wù)。以這樣的方式達 到既能保證節(jié)點效果的同時也能保證能量剩余最大化。
[0035] 參見圖1,具體步驟如下:
[0036] (1)設(shè)置參數(shù),所有的任務(wù)A,參數(shù)k彡1 ;
[0037] (2)初始化權(quán)值和分布情況的概率,Wl,Q= 1,P"= 1/A,i= 1,2, ? ??,A;
[0038] (3)判斷節(jié)點是否還有能量,如果沒有能量,則結(jié)束。如果有能量,根據(jù)變量確定當(dāng) 前節(jié)點的所處的狀態(tài);
[0039] (4)根據(jù)節(jié)點感應(yīng)區(qū)域內(nèi)的已經(jīng)跟蹤的目標的數(shù)目,選擇執(zhí)行一個任務(wù) a(aG(1, 2, . . . ,A));
[0040] (5)根據(jù)公式(12)計算估計獎勵,然后根據(jù)公式(13)更新當(dāng)前的權(quán)值;
[0041] (6)根據(jù)公式(11)計算更新概率分布,然后根據(jù)已經(jīng)執(zhí)行的任務(wù)情況,節(jié)點轉(zhuǎn)移 到下一個狀態(tài);跳轉(zhuǎn)到步驟(3)。
[0042] 節(jié)點任務(wù)定義:
[0043] 目標檢測掃描感應(yīng)區(qū)域獲得區(qū)域內(nèi)目標的數(shù)量;
[0044] 目標跟蹤在感應(yīng)區(qū)域內(nèi)跟蹤,獲取每個獨特ID目標的的平面位置;
[0045] 發(fā)送信息當(dāng)節(jié)點感應(yīng)區(qū)域內(nèi)目標即將離開感應(yīng)區(qū)域的時候,節(jié)點將目標的當(dāng)前位 置、時間信、運行速度很方向發(fā)送給鄰居節(jié)點;
[0046] 預(yù)測軌跡這里面對目標運動軌跡使用Gauss-Markov運動模型,在t時刻預(yù)測目標 的運動速度和方向SJPDt,S和D是平均的速度和方向常量,<^1和1^1是高斯分布的隨機變 量,n是改變目標運動的隨機性參數(shù)。
[0047]
Cl)
[0048] 如果n= 1,目標運動軌跡則是線性運動方程,如果n= 〇就是隨機朗運動。下 面將會根據(jù)n= 1的線性運動方程為例,進行詳細描述。
[0049] 相交軌跡這個是收到鄰居節(jié)點發(fā)送的目標軌跡信息的節(jié)點,檢測感應(yīng)區(qū)域內(nèi)是否 和目標軌跡有交集,有交集則預(yù)測到節(jié)點自己的感應(yīng)區(qū)域的時間。下面根據(jù)線性方程進行 描述,如圖2所示,預(yù)計到達時間€ , 是點Pi和點P,之間的距離。P,是目標離開節(jié)點j 感應(yīng)區(qū)域時