亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于強化學習的高能效多跳與功率控制聯(lián)合方法與流程

文檔序號:40394013發(fā)布日期:2024-12-20 12:17閱讀:5來源:國知局
一種基于強化學習的高能效多跳與功率控制聯(lián)合方法與流程

本發(fā)明屬于輸電線物聯(lián)網(wǎng)領(lǐng)域,具體是一種基于強化學習的高能效多跳與功率控制聯(lián)合方法。


背景技術(shù):

1、在當今快速發(fā)展的數(shù)字化時代,感知物聯(lián)網(wǎng)(iot)正迅速成為人們?nèi)粘I詈凸I(yè)自動化的核心組成部分,其設(shè)備通過實時監(jiān)測和數(shù)據(jù)交換,給人們的生活和工作帶來了極大的便利。然而,隨著物聯(lián)網(wǎng)設(shè)備的指數(shù)級增長,對能源的需求也在急劇上升。這些設(shè)備往往部署在難以接入傳統(tǒng)能源供應的地方,且很多都依賴于電池供電。因此,提升感知物聯(lián)網(wǎng)的能效不僅是為了降低運營成本和維護難度,而是確保這些設(shè)備長期穩(wěn)定運行的關(guān)鍵。

2、在感知物聯(lián)網(wǎng)中,智能調(diào)度和資源分配是提升能效的關(guān)鍵技術(shù)之一,特別是在多跳網(wǎng)絡結(jié)構(gòu)中,數(shù)據(jù)需要通過多個節(jié)點傳輸?shù)侥康牡?,多跳選擇和功率控制顯得尤為重要。

3、多跳選擇(multi-hop?selection):在多跳網(wǎng)絡中,數(shù)據(jù)包的傳輸路徑不是直接從一個節(jié)點到另一個節(jié)點,而是通過多個中間節(jié)點進行轉(zhuǎn)發(fā)。智能的多跳選擇算法可以根據(jù)當前網(wǎng)絡狀況、節(jié)點的剩余能量、通信距離以及擁塞程度等因素,選擇最優(yōu)的傳輸路徑;這樣可以減少因路徑選擇不當導致的能源浪費和數(shù)據(jù)傳輸延遲。

4、功率控制(power?control):能夠根據(jù)通信距離和鏈路質(zhì)量,動態(tài)調(diào)整每個節(jié)點的發(fā)射功率。當節(jié)點之間的距離較近或者信道條件較好時,可以降低發(fā)射功率,從而減少能量消耗。同時,功率控制還可以減少信號干擾,提高網(wǎng)絡的整體性能。

5、通過結(jié)合多跳選擇和功率控制,感知物聯(lián)網(wǎng)可以實現(xiàn)更加高效的能源利用和數(shù)據(jù)傳輸。例如,在智能電網(wǎng)、環(huán)境監(jiān)測或者工業(yè)自動化等場景中,可以幫助物聯(lián)網(wǎng)設(shè)備根據(jù)實際需求和環(huán)境變化,靈活調(diào)整通信策略,延長電池壽命,降低維護成本,同時保證數(shù)據(jù)傳輸?shù)目煽啃院蛯崟r性。

6、此外,感知物聯(lián)網(wǎng)還可以與機器學習算法相結(jié)合,實現(xiàn)自適應的調(diào)度和資源分配,進一步提高感知物聯(lián)網(wǎng)的能效和智能化水平。


技術(shù)實現(xiàn)思路

1、針對多個感知節(jié)點的輸電線網(wǎng)絡長距離傳輸導致信號衰落嚴重,單節(jié)點負擔重的問題,本發(fā)明提出了一種基于強化學習的高能效多跳與功率控制聯(lián)合方法,能夠根據(jù)環(huán)境動態(tài)變化自適應地選擇傳輸路徑和發(fā)射功率,提升系統(tǒng)能效的智能調(diào)度與資源分配。

2、所述基于強化學習的高能效多跳與功率控制聯(lián)合方法,具體步驟如下:

3、步驟一、在輸電線物聯(lián)網(wǎng)環(huán)境下,搭建包含n個感知節(jié)點和1個匯聚節(jié)點的鏈路型無線傳感網(wǎng)絡架構(gòu);n為正整數(shù);

4、感知節(jié)點周期性地感知輸電塔的健康狀態(tài),并將感知數(shù)據(jù)交付給匯聚節(jié)點;

5、匯聚節(jié)點收集輸電塔健康狀態(tài)數(shù)據(jù)后判斷輸電塔是否正常運行,是否需要人工維修等。

6、步驟二、鏈路型無線傳感網(wǎng)絡在學習時,針對當前時隙初始,各感知節(jié)點分別獲取自身狀態(tài)以及鄰居感知節(jié)點的觀測狀態(tài)st:

7、st={b(t),b1(t),…,bm(t),…,bm(t),e(t),e1(t),…,em(t),…,em(t)}

8、其中b(t)是感知節(jié)點智能體觀測到的自身數(shù)據(jù)緩存狀態(tài),e(t)是觀測到的自身剩余能量緩存狀態(tài),bm(t)是感知節(jié)點與鄰居節(jié)點交流后獲得的鄰居節(jié)點m的數(shù)據(jù)緩存信息,em(t)是感知節(jié)點與鄰居節(jié)點交流后獲得的鄰居節(jié)點m的剩余能量狀態(tài)信息。

9、步驟三、各感知節(jié)點在當前時隙內(nèi)采集到感知數(shù)據(jù)或接收到鄰居感知節(jié)點發(fā)送的數(shù)據(jù)后,在同一時隙根據(jù)觀測狀態(tài)st選擇包含下一跳節(jié)點以及發(fā)送功率等級的動作at,并執(zhí)行該動作;

10、at~πθ(st),πθ(st)=softmax(θtφ(st))

11、φ(st)是觀測狀態(tài)st的特征向量,θ是策略網(wǎng)絡的參數(shù),后續(xù)根據(jù)環(huán)境反饋獎勵進行更新。

12、步驟四、同時,各感知節(jié)點獲取的動作決策同時執(zhí)行與環(huán)境進行交互,得到全局效用函數(shù)rt;

13、

14、分別為權(quán)值系數(shù),re(t)為最小剩余能量獎勵,rb(t)為數(shù)據(jù)包滯留懲罰。

15、步驟五、當前時隙結(jié)束,將每個感知節(jié)點的觀測狀態(tài)st,動作at,全局效用函數(shù)r(t)以及下一時隙的觀測狀態(tài)st+1,組成各節(jié)點對應的四元組<st,at,rt,st+1>,返回步驟二,繼續(xù)執(zhí)行下一個時隙。

16、步驟六、當前回合的所有時隙都執(zhí)行完畢后,鏈路型無線傳感網(wǎng)絡記憶每個時隙下的n個四元組作為訓練集,對多跳與功率控制模型進行訓練,更新該模型的參數(shù);

17、具體訓練過程為:

18、首先,從鏈路型無線傳感網(wǎng)絡記憶緩存中隨機采樣一個批次

19、該批次包含若干對四元組數(shù)據(jù)<st,at,rt,st+1>,具體選擇的對數(shù)根據(jù)實際情況人為設(shè)定。

20、對于批次中的每一對四元組,分別計算各自的時間差分目標td_target和td誤差δt:

21、td_target=rt+γvφ(st+1)×(1-dt+1)

22、δt=td_target-vφ(st)

23、其中st+1是下一時刻的狀態(tài),dt+1是episode是否結(jié)束的標志,γ是折扣因子,vφ(st)是當前狀態(tài)的值函數(shù)估計;

24、然后,對于批次中的每一對四元組,使用gae方法計算每個狀態(tài)-動作對的優(yōu)勢函數(shù):

25、

26、其中λ是gae的衰減參數(shù)。

27、接著,利用優(yōu)勢函數(shù)分別計算策略損失lppo(θ)與值網(wǎng)絡損失lvalue(φ):

28、

29、其中,表示在批次中采樣(st,at)的期望值。lclip(at|st)表示表示給定狀態(tài)st下采取動作at的截斷損失函數(shù)。πθ(at|st)是在當前策略參數(shù)θ下,給定狀態(tài)st采取動作at的概率。πold(at|st)表示舊策略參數(shù)θold下,給定狀態(tài)st采取動作at的概率?!适鞘且粋€預設(shè)的小正數(shù),表示截斷的嚴格程度。

30、最后,利用策略損失lppo(θ)與值網(wǎng)絡損失lvalue(φ)執(zhí)行梯度下降,來更新策略網(wǎng)絡參數(shù)θ和值網(wǎng)絡參數(shù)φ,直至收斂,得到訓練好的多跳與功率控制模型。

31、

32、其中,α,β分別代表兩個網(wǎng)絡的學習率。

33、步驟七、將訓練好的多跳與功率控制模型部署在鏈路型無線傳感網(wǎng)絡的傳感器節(jié)點上,傳感器節(jié)點將獲取的信息輸入到多跳與功率控制模型中,輸出下一跳節(jié)點以及發(fā)送功率。

34、每個感知節(jié)點獲取的信息包括:數(shù)據(jù)包緩存非空時,與鄰居節(jié)點交換的數(shù)據(jù),能量緩存信息,信道狀態(tài)、輸電線電磁干擾情況、自身剩余能量、自身數(shù)據(jù)緩存、鄰居節(jié)點剩余能量與鄰居數(shù)據(jù)緩存等。

35、步驟八、每個感知節(jié)點向選擇的下一跳節(jié)點以選定的發(fā)射功率發(fā)送數(shù)據(jù)包。

36、本發(fā)明的優(yōu)點在于:

37、1、一種基于強化學習的高能效多跳與功率控制聯(lián)合方法,能夠幫助節(jié)點進行高能效的數(shù)據(jù)傳輸,達到提高網(wǎng)絡壽命,提高系統(tǒng)整體吞吐量的目的。

38、2、一種基于強化學習的高能效多跳與功率控制聯(lián)合方法,訓練各節(jié)點學習不同能量與數(shù)據(jù)包積壓時的最優(yōu)下一跳選擇與功率控制策略,相比于傳統(tǒng)多跳與功率控制方法,本發(fā)明考慮了輸電線場景下長距離傳輸與電磁干擾的特點,聯(lián)合優(yōu)化下一跳節(jié)點選擇和功率控制,能夠智能地根據(jù)實時的網(wǎng)絡狀態(tài)和環(huán)境變化,動態(tài)調(diào)整傳輸路徑和功率分配,從而最大化整個網(wǎng)絡的能量效率和傳輸可靠性,確保關(guān)鍵監(jiān)控數(shù)據(jù)能夠穩(wěn)定、準確地傳輸至sink節(jié)點,對于保障超高壓輸電線路的安全運行至關(guān)重要。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1