一種基于運(yùn)行成本優(yōu)化的多智能體強(qiáng)化學(xué)習(xí)方法與流程

文檔序號(hào)：40395400發(fā)布日期：2024-12-20 12:18閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種基于運(yùn)行成本優(yōu)化的多智能體強(qiáng)化學(xué)習(xí)方法與流程

技術(shù)特征：

1.一種基于運(yùn)行成本優(yōu)化的多智能體強(qiáng)化學(xué)習(xí)方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的一種基于運(yùn)行成本優(yōu)化的多智能體強(qiáng)化學(xué)習(xí)方法，其特征在于，所述構(gòu)建的成本函數(shù)如下：

3.根據(jù)權(quán)利要求1所述的一種基于運(yùn)行成本優(yōu)化的多智能體強(qiáng)化學(xué)習(xí)方法，其特征在于，所述決策模型的結(jié)構(gòu)如下：

4.根據(jù)權(quán)利要求1所述的一種基于運(yùn)行成本優(yōu)化的多智能體強(qiáng)化學(xué)習(xí)方法，其特征在于，所多智能體強(qiáng)化學(xué)習(xí)框架的訓(xùn)練步驟如下：

5.根據(jù)權(quán)利要求4所述的一種基于運(yùn)行成本優(yōu)化的多智能體強(qiáng)化學(xué)習(xí)方法，其特征在于，所述步驟c包括以下步驟：

6.根據(jù)權(quán)利要求1所述的一種基于運(yùn)行成本優(yōu)化的多智能體強(qiáng)化學(xué)習(xí)方法，其特征在于，所述步驟4包括以下步驟：

7.根據(jù)權(quán)利要求6所述的一種基于運(yùn)行成本優(yōu)化的多智能體強(qiáng)化學(xué)習(xí)方法，其特征在于，所述步驟4.3中納什均衡解應(yīng)當(dāng)滿足如下條件：

8.根據(jù)權(quán)利要求6所述的一種基于運(yùn)行成本優(yōu)化的多智能體強(qiáng)化學(xué)習(xí)方法，其特征在于，所述步驟4.4中的決策協(xié)調(diào)包括以下步驟：

技術(shù)總結(jié)
本申請屬于電力系統(tǒng)技術(shù)領(lǐng)域，涉及一種基于運(yùn)行成本優(yōu)化的多智能體強(qiáng)化學(xué)習(xí)方法，本發(fā)明將電網(wǎng)系統(tǒng)劃分為多個(gè)區(qū)域，每個(gè)區(qū)域?qū)?yīng)一個(gè)獨(dú)立的智能體，將復(fù)雜的全局問題轉(zhuǎn)換為多個(gè)局部問題，提高決策的可實(shí)施性；對于每個(gè)智能體建立成本函數(shù)全面的描述智能體執(zhí)行某種行動(dòng)所帶來的成本影響；并采用深度神經(jīng)網(wǎng)絡(luò)作為每個(gè)智能體的決策模型，通過與環(huán)境的交互，智能體可以資助學(xué)習(xí)出最優(yōu)的行動(dòng)決策策略；并構(gòu)建基于多智能體演化策略算法的強(qiáng)化學(xué)習(xí)框架，每個(gè)智能體根據(jù)自身的狀態(tài)和其他智能體的決策，學(xué)習(xí)最優(yōu)的行動(dòng)策略；最優(yōu)采用基于博弈論的方法進(jìn)一步協(xié)調(diào)各智能體的行動(dòng)決策，確保系統(tǒng)收斂到全局最優(yōu)狀態(tài)；提高電網(wǎng)系統(tǒng)的整體運(yùn)行效率和經(jīng)濟(jì)性。

技術(shù)研發(fā)人員：盧志良,陳元峰,任正國,梁壽愚,姚森敬,梁凌宇,董召杰,尚佳寧,吳石松,李成,彭君權(quán),趙必美,曾凡強(qiáng),敖榜,王鵬凱
受保護(hù)的技術(shù)使用者：盧志良
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于運(yùn)行成本優(yōu)化的多智能體強(qiáng)化學(xué)習(xí)方法與流程