面向復(fù)雜環(huán)境的元強化學(xué)習(xí)多智能體系統(tǒng)的制作方法

文檔序號：40391155發(fā)布日期：2024-12-20 12:14閱讀：5來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

面向復(fù)雜環(huán)境的元強化學(xué)習(xí)多智能體系統(tǒng)的制作方法

本申請屬于電力系統(tǒng)，更具體地說，涉及面向復(fù)雜環(huán)境的元強化學(xué)習(xí)多智能體系統(tǒng)。

背景技術(shù)：

1、電力電網(wǎng)系統(tǒng)是一個極其復(fù)雜的網(wǎng)絡(luò)系統(tǒng),其包括大量發(fā)電廠、變電站、輸電線路以及各類用電設(shè)備等構(gòu)成的綜合系統(tǒng)。隨著智能電網(wǎng)技術(shù)的不斷發(fā)展,電網(wǎng)系統(tǒng)正在向著更加分布式、互聯(lián)互通的方向演變。這不僅提高了電網(wǎng)的靈活性和可靠性,但也帶來了新的技術(shù)挑戰(zhàn)。

2、在現(xiàn)代電網(wǎng)系統(tǒng)中,各類電力資產(chǎn)的配置、狀態(tài)和連接關(guān)系正在不斷變化。例如,分布式可再生能源的廣泛接入、電動汽車充電設(shè)施的部署、用戶側(cè)儲能系統(tǒng)的應(yīng)用等,都導(dǎo)致了電網(wǎng)拓?fù)浣Y(jié)構(gòu)的持續(xù)演化。同時,由于環(huán)境因素和設(shè)備故障的影響,電網(wǎng)系統(tǒng)還會經(jīng)常面臨突發(fā)的狀態(tài)變化。這些動態(tài)的電網(wǎng)環(huán)境給電網(wǎng)運維管理帶來了巨大的挑戰(zhàn)。

3、傳統(tǒng)的集中式電網(wǎng)管理和控制方法,難以有效應(yīng)對電網(wǎng)復(fù)雜環(huán)境下的動態(tài)變化。電網(wǎng)系統(tǒng)往往需要依靠大量的人工干預(yù)和經(jīng)驗判斷,來維護資產(chǎn)的拓?fù)鋱D、檢測和處理故障等。這不僅效率低下,還容易因人為失誤而導(dǎo)致電網(wǎng)運行不穩(wěn)定。因此,迫切需要開發(fā)新型的智能控制技術(shù),來實現(xiàn)電網(wǎng)系統(tǒng)的自適應(yīng)管理。

4、近年來,基于多智能體系統(tǒng)$(multi-agent?system,mas)的分布式電網(wǎng)控制方法引起了廣泛關(guān)注。在這種方法中,電網(wǎng)中的各個節(jié)點或設(shè)備被建模為相互協(xié)作的智能代理,通過局部信息交換和自組織協(xié)調(diào),共同完成電網(wǎng)的優(yōu)化調(diào)度和故障處理等任務(wù)。然而,現(xiàn)有的mas方法大多依賴于預(yù)先設(shè)計的規(guī)則和策略,難以適應(yīng)復(fù)雜多變的電網(wǎng)環(huán)境。

技術(shù)實現(xiàn)思路

1、本發(fā)明提供了面向復(fù)雜環(huán)境的元強化學(xué)習(xí)多智能體系統(tǒng)，擬解決現(xiàn)有的mas方法大多依賴于預(yù)先設(shè)計的規(guī)則和策略,難以適應(yīng)復(fù)雜多變的電網(wǎng)環(huán)境的技術(shù)問題。

2、面向復(fù)雜環(huán)境的元強化學(xué)習(xí)多智能體系統(tǒng)，包括智能體模塊、元學(xué)習(xí)模塊、多智能體協(xié)作模塊以及環(huán)境模擬模塊；

3、所述智能體模塊包括多個，用于執(zhí)行決策和行為控制；每個智能體之間通過通信和信息共享進行協(xié)調(diào)和交互；

4、所述元學(xué)習(xí)模塊提供基于梯度的優(yōu)化算法，用于智能體模塊的策略和價值函數(shù)的可快速學(xué)習(xí)和遷移；

5、所述多智能體協(xié)作模塊用于管理和協(xié)調(diào)多個智能體之間的合作和競爭關(guān)系；

6、所述環(huán)境模擬模塊基于所構(gòu)建的仿真環(huán)境模擬實際環(huán)境，為元學(xué)習(xí)模塊提供適合的訓(xùn)練和驗證場景。

7、本發(fā)明通過元學(xué)習(xí)模塊從大量模擬的電網(wǎng)場景中學(xué)習(xí)到一組通用的策略參數(shù)，將該策略參數(shù)作為智能體的初始化參數(shù)，幫組智能體模塊快速適應(yīng)新的環(huán)境；再基于多智能體協(xié)作模塊管理和協(xié)調(diào)電網(wǎng)中各個節(jié)點智能體之間的合作和競爭關(guān)系，使得個智能體模塊能夠根據(jù)環(huán)境變化，動態(tài)調(diào)整自身的行為策略，提高整個系統(tǒng)的靈活性和魯棒性；并且通過環(huán)境模擬模塊構(gòu)建高保真的電網(wǎng)仿真環(huán)境為元學(xué)習(xí)模塊提供了豐富的訓(xùn)練場景，增加了策略在復(fù)雜電網(wǎng)環(huán)境下的泛化能力。

8、優(yōu)選的，每個所述智能體模塊包括一個決策模塊和一個行為執(zhí)行模塊；

9、所述決策模塊負(fù)責(zé)根據(jù)當(dāng)前環(huán)境狀態(tài)和目標(biāo)，使用元強化學(xué)習(xí)算法生成最優(yōu)的行動決策；

10、所述行為執(zhí)行光模塊負(fù)責(zé)將決策轉(zhuǎn)換為實際的動作輸出，并將結(jié)果反饋給決策模塊。

11、優(yōu)選的，所述決策模塊基于深度強化學(xué)習(xí)的方法構(gòu)建一個深度神經(jīng)網(wǎng)絡(luò)作為策略函數(shù)近似器，使用maml算法學(xué)習(xí)一組通用的策略網(wǎng)絡(luò)參數(shù)，提高智能體在復(fù)雜環(huán)境下的快速學(xué)習(xí)能力；當(dāng)輸入為當(dāng)前環(huán)境觀測時，輸出為每種可選行動的概率分布，智能體根據(jù)概率最高的分布確定最終的行動。

12、優(yōu)選的，所述智能體之間通過廣播和單播的形式進行信息交換，共享環(huán)境信息和行為決策，采用基于局部領(lǐng)域的通信機制。

13、優(yōu)選的，所述元學(xué)習(xí)模塊包括一個元學(xué)習(xí)訓(xùn)練器和一個元策略生成器；

14、所述元學(xué)習(xí)訓(xùn)練器負(fù)責(zé)基于maml算法對智能體決策模塊的策略網(wǎng)絡(luò)急性元級別的訓(xùn)練和優(yōu)化；

15、所述元策略生成負(fù)責(zé)根據(jù)訓(xùn)練好的策略參數(shù)為各個智能體生成合適當(dāng)前環(huán)境的初始策略。

16、優(yōu)選的，所述元學(xué)習(xí)訓(xùn)練器的訓(xùn)練步驟如下：

17、a.從一組模擬環(huán)境中，隨機采樣若個任務(wù)作為訓(xùn)練集；

18、b.對每個任務(wù)，使用maml算法更新策略參數(shù)，獲得針對該任務(wù)的最優(yōu)策略；

19、c.計算策略參數(shù)對于整個任務(wù)集的梯度，并用該梯度更新初始的策略參數(shù)；

20、d.重復(fù)步驟a到步驟c直至元策略收斂，得到適合復(fù)雜環(huán)境的通用策略參數(shù)。

21、優(yōu)選的，所述多智能體模塊包括協(xié)作機制單元、合作激勵單元、爭議解決單元、自組織協(xié)調(diào)單元以及學(xué)習(xí)優(yōu)化單元；

22、所述協(xié)作機制單元采用分布式協(xié)作機制，每個智能體模塊具有獨立的決策能力和行為執(zhí)行能力，通過廣播和單播的通信方式，智能體模塊之間進行信息交換，共享環(huán)境性信息和行為決策，并通過局部領(lǐng)域的通信機制，提高協(xié)作效率；

23、所述合作激勵單元采用基于全局獎勵的合作激勵機制，當(dāng)智能體模塊之間的行為產(chǎn)生協(xié)同效果時，給予正向反饋和獎勵；當(dāng)智能體模塊之間的行為產(chǎn)生沖突時，給出負(fù)向反饋和獎勵；

24、爭議解決單元采用基于博弈論的解決機制，利用各智能體的局部信息和預(yù)期收益，通過博弈策略達成折衷方案，并引入仲裁者角色對爭議進行調(diào)節(jié)和仲裁；

25、所述自組織協(xié)調(diào)單元對每個智能體之間采用自組織的方式進行動態(tài)的角色分工和任務(wù)分配；并根據(jù)當(dāng)前環(huán)境狀態(tài)和任務(wù)需求，智能體自主調(diào)整自身的行為策略；并通過自適應(yīng)的協(xié)調(diào)機制，提高整個系統(tǒng)的靈活性和魯棒性；

26、所述學(xué)習(xí)和優(yōu)化單元利用強化學(xué)習(xí)方法，不斷優(yōu)化智能體模塊的協(xié)作策略；根據(jù)反饋的懲罰信號，調(diào)整智能體模塊的決策和行為；通過多輪迭代使多個智能體之間形成穩(wěn)定高效的協(xié)作模式。

27、本發(fā)明的有益效果包括：

28、本發(fā)明通過元學(xué)習(xí)模塊從大量模擬的電網(wǎng)場景中學(xué)習(xí)到一組通用的策略參數(shù)，將該策略參數(shù)作為智能體的初始化參數(shù)，幫組智能體模塊快速適應(yīng)新的環(huán)境；再基于多智能體協(xié)作模塊管理和協(xié)調(diào)電網(wǎng)中各個節(jié)點智能體之間的合作和競爭關(guān)系，使得個智能體模塊能夠根據(jù)環(huán)境變化，動態(tài)調(diào)整自身的行為策略，提高整個系統(tǒng)的靈活性和魯棒性；并且通過環(huán)境模擬模塊構(gòu)建高保真的電網(wǎng)仿真環(huán)境為元學(xué)習(xí)模塊提供了豐富的訓(xùn)練場景，增加了策略在復(fù)雜電網(wǎng)環(huán)境下的泛化能力。

技術(shù)特征：

1.面向復(fù)雜環(huán)境的元強化學(xué)習(xí)多智能體系統(tǒng)，其特征在于，包括智能體模塊、元學(xué)習(xí)模塊、多智能體協(xié)作模塊以及環(huán)境模擬模塊；

2.根據(jù)權(quán)利要求1所述的面向復(fù)雜環(huán)境的強化學(xué)習(xí)多智能體系統(tǒng)，其特征在于，每個所述智能體模塊包括一個決策模塊和一個行為執(zhí)行模塊；

3.根據(jù)權(quán)利要求2所述的面向復(fù)雜環(huán)境的強化學(xué)習(xí)多智能體系統(tǒng)，其特征在于，所述決策模塊基于深度強化學(xué)習(xí)的方法構(gòu)建一個深度神經(jīng)網(wǎng)絡(luò)作為策略函數(shù)近似器，使用maml算法學(xué)習(xí)一組通用的策略網(wǎng)絡(luò)參數(shù)，提高智能體在復(fù)雜環(huán)境下的快速學(xué)習(xí)能力；當(dāng)輸入為當(dāng)前環(huán)境觀測時，輸出為每種可選行動的概率分布，智能體根據(jù)概率最高的分布確定最終的行動。

4.根據(jù)權(quán)利要求1所述的面向復(fù)雜環(huán)境的強化學(xué)習(xí)多智能體系統(tǒng)，其特征在于，所述智能體之間通過廣播和單播的形式進行信息交換，共享環(huán)境信息和行為決策，采用基于局部領(lǐng)域的通信機制。

5.根據(jù)權(quán)利要求1所述的面向復(fù)雜環(huán)境的強化學(xué)習(xí)多智能體系統(tǒng)，其特征在于，所述元學(xué)習(xí)模塊包括一個元學(xué)習(xí)訓(xùn)練器和一個元策略生成器；

6.根據(jù)權(quán)利要求5所述的面向復(fù)雜環(huán)境的強化學(xué)習(xí)多智能體系統(tǒng)，其特征在于，所述元學(xué)習(xí)訓(xùn)練器的訓(xùn)練步驟如下：

7.根據(jù)權(quán)利要求1所述的面向復(fù)雜環(huán)境的強化學(xué)習(xí)智能體系統(tǒng)，其特征在于，所述多智能體模塊包括協(xié)作機制單元、合作激勵單元、爭議解決單元、自組織協(xié)調(diào)單元以及學(xué)習(xí)優(yōu)化單元；

技術(shù)總結(jié)
本申請屬于電力系統(tǒng)技術(shù)領(lǐng)域，更具體地說，涉及面向復(fù)雜環(huán)境的元強化學(xué)習(xí)多智能體系統(tǒng)，本發(fā)明通過元學(xué)習(xí)模塊從大量模擬的電網(wǎng)場景中學(xué)習(xí)到一組通用的策略參數(shù)，將該策略參數(shù)作為智能體的初始化參數(shù)，幫組智能體模塊快速適應(yīng)新的環(huán)境；再基于多智能體協(xié)作模塊管理和協(xié)調(diào)電網(wǎng)中各個節(jié)點智能體之間的合作和競爭關(guān)系，使得個智能體模塊能夠根據(jù)環(huán)境變化，動態(tài)調(diào)整自身的行為策略，提高整個系統(tǒng)的靈活性和魯棒性；并且通過環(huán)境模擬模塊構(gòu)建高保真的電網(wǎng)仿真環(huán)境為元學(xué)習(xí)模塊提供了豐富的訓(xùn)練場景，增加了策略在復(fù)雜電網(wǎng)環(huán)境下的泛化能力。

技術(shù)研發(fā)人員：鄭樺,陳騫,楊偉,梁壽愚,盧志良,姜誠,董召杰,李成,彭君權(quán),趙必美,任正國,曾凡強,陳元峰,王鵬凱
受保護的技術(shù)使用者：鄭樺
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄭樺,陳騫,楊偉,梁壽愚,盧志良,姜誠,董召杰,李成,彭君權(quán),趙必美,任正國,曾凡強,陳元峰,王鵬凱
技術(shù)所有人：鄭樺
我是此專利的發(fā)明人

上一篇：一種可拆卸乳貼的制作方法
上一篇：一種一次性醫(yī)用沖洗連接管的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

面向復(fù)雜環(huán)境的元強化學(xué)習(xí)多智能體系統(tǒng)的制作方法