基于最優(yōu)性保證的多智能體強化學(xué)習(xí)調(diào)度方法與流程

文檔序號：40386797發(fā)布日期：2024-12-20 12:09閱讀：4來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于最優(yōu)性保證的多智能體強化學(xué)習(xí)調(diào)度方法與流程

本申請屬于故電網(wǎng)，更具體地說，涉及基于最優(yōu)性保證的多智能體強化學(xué)習(xí)調(diào)度方法。

背景技術(shù)：

1、電力系統(tǒng)作為現(xiàn)代社會的重要基礎(chǔ)設(shè)施之一，其運行狀態(tài)直接關(guān)系到經(jīng)濟發(fā)展和社會穩(wěn)定。在電力系統(tǒng)中，電網(wǎng)調(diào)度是確保電力系統(tǒng)安全、穩(wěn)定和高效運行的關(guān)鍵環(huán)節(jié)。然而，隨著電力系統(tǒng)規(guī)模的不斷擴大和電力需求的增長，傳統(tǒng)的電網(wǎng)調(diào)度方法已經(jīng)難以滿足復(fù)雜、大規(guī)模電網(wǎng)的要求。

2、當(dāng)前，針對電網(wǎng)調(diào)度優(yōu)化的技術(shù)方案主要包括基于規(guī)則的靜態(tài)調(diào)度方法和基于數(shù)學(xué)模型的優(yōu)化算法?；谝?guī)則的靜態(tài)調(diào)度方法往往依賴于經(jīng)驗和固定的規(guī)則，如按照負(fù)荷預(yù)測結(jié)果制定調(diào)度計劃，或者根據(jù)歷史數(shù)據(jù)設(shè)定閾值進行安全控制。

3、基于規(guī)則的靜態(tài)調(diào)度方法在處理電網(wǎng)大規(guī)模和復(fù)雜性方面存在一定的局限性，往往無法達(dá)到最優(yōu)的調(diào)度效果。而基于數(shù)學(xué)模型的優(yōu)化算法雖然能夠提供更精確的調(diào)度方案，但計算復(fù)雜度較高，難以在實時環(huán)境中快速求解。

4、傳統(tǒng)的調(diào)度方法往往缺乏靈活性和實時性，無法有效應(yīng)對電網(wǎng)運行狀態(tài)的動態(tài)變化。在電力系統(tǒng)中，實時性是至關(guān)重要的，因為任何延遲或錯誤都可能導(dǎo)致電網(wǎng)不穩(wěn)定甚至事故發(fā)生。

技術(shù)實現(xiàn)思路

1、本發(fā)明提供了基于最優(yōu)性保證的多智能體強化學(xué)習(xí)調(diào)度方法，擬解決目前采用基靜態(tài)調(diào)度方法處理電網(wǎng)大規(guī)模和復(fù)雜的數(shù)據(jù)存在一定局限性的技術(shù)問題。

2、基于最優(yōu)性保證的多智能體強化學(xué)習(xí)調(diào)度方法，包括以下步驟：

3、步驟1：獲取電網(wǎng)拓?fù)浣Y(jié)構(gòu)和電網(wǎng)中各個元素之間的關(guān)聯(lián)關(guān)系和參數(shù)數(shù)據(jù)，并基于所獲取的數(shù)據(jù)建立基于數(shù)學(xué)模型的電網(wǎng)仿真系統(tǒng)；

4、步驟2：構(gòu)建調(diào)度目標(biāo)和約束，指導(dǎo)智能體學(xué)習(xí)過程中的決策；

5、步驟3：構(gòu)建每個智能體的狀態(tài)空間、動作空間和獎勵函數(shù)，實現(xiàn)對電網(wǎng)狀態(tài)的感知、決策和學(xué)習(xí)；

6、步驟4：采用強化學(xué)習(xí)算法，基于所構(gòu)建的調(diào)度目標(biāo)、約束、智能體的狀態(tài)空間、動作空間以及獎勵函數(shù)，再結(jié)合仿真環(huán)境訓(xùn)練智能體的策略；

7、步驟5：基于訓(xùn)練好的智能體策略，生成實時的調(diào)度方案，并基于電網(wǎng)的動態(tài)變化，對調(diào)度方案進行實時調(diào)整和優(yōu)化。

8、本發(fā)明通過建立基于數(shù)學(xué)模型的電網(wǎng)仿真系統(tǒng)，以模擬電網(wǎng)的實際運行情況，根據(jù)電網(wǎng)調(diào)度的需求和要求，構(gòu)建調(diào)度目標(biāo)和約束指導(dǎo)智能體在學(xué)習(xí)過程中作出合適的決策；再針對每個智能體，構(gòu)建狀態(tài)空間、動作空間和獎勵函數(shù)，并利用強化學(xué)習(xí)算法結(jié)合仿真環(huán)境訓(xùn)練智能體的策略，訓(xùn)練過程中，智能體通過仿真環(huán)境的交互，不斷優(yōu)化策略，已達(dá)到最優(yōu)的調(diào)度效果；并且智能體可以實時感知電網(wǎng)的動態(tài)變化，并根據(jù)實時信息對調(diào)度方案進行實時調(diào)整和優(yōu)化，如此保證了電網(wǎng)調(diào)度的及時性和準(zhǔn)確性，有效解決了傳統(tǒng)調(diào)度方法缺乏靈活性和實時性的問題。

9、優(yōu)選的，所述步驟1包括以下步驟：

10、步驟1.1：獲取電網(wǎng)拓?fù)浣Y(jié)構(gòu)和電網(wǎng)中各個元素之間的關(guān)聯(lián)關(guān)系和參數(shù)數(shù)據(jù)，將獲取的電網(wǎng)數(shù)據(jù)整理成節(jié)點和邊的形式，其中節(jié)點表示電網(wǎng)中的各個設(shè)備，便表示設(shè)備間的連接關(guān)系，并根據(jù)拓?fù)浣Y(jié)構(gòu)確定各個節(jié)點之間的直接連接關(guān)系；

11、步驟1.2：基于潮流計算方法，建立節(jié)點潮流方程，描述電網(wǎng)中各個節(jié)點之間的功率平衡關(guān)系；

12、步驟1.3：將節(jié)點潮流方程整合為一個非線性方程組，構(gòu)建潮流計算模型；

13、步驟1.4：基于所建立的潮流計算模型構(gòu)建電網(wǎng)仿真系統(tǒng)的軟件實現(xiàn)。

14、優(yōu)選的，所述節(jié)點潮流方程如下：

15、

16、式中：pi和qi分別是第i個節(jié)點的有功功率和無功功率；vi表示第i個節(jié)點的電壓幅值；vj表示第j個節(jié)點的電壓幅值；θi表示第i個節(jié)點的電壓相角；gij和bij分別是第i到第j個節(jié)點之間的導(dǎo)納的實部和虛部；θj表示第j個節(jié)點的電壓相角；n表示電網(wǎng)中節(jié)點的總數(shù)。

17、優(yōu)選的，所述非線性方程組如下：

18、f(v,θ)＝0；

19、式中：v表示電網(wǎng)所有節(jié)點的電壓幅值向量；θ表示電網(wǎng)所有節(jié)點的電壓相角向量。

20、優(yōu)選的，所述調(diào)度目標(biāo)以最小成本為調(diào)度目標(biāo)，目標(biāo)函數(shù)如下：

21、

22、式中：w1、w2以及w3表示各項成本的權(quán)重；vgen表示發(fā)電成本；closs表示輸電損耗成本；cimbalance表示負(fù)荷不平衡成本；v表示節(jié)點電壓向量；θ表示節(jié)點相角向量；pg表示發(fā)電機有功功率向量；qg表示發(fā)電機無功功率向量。

23、優(yōu)選的，所述約束包括：

24、電壓穩(wěn)定限制：

25、

26、式中：vmin和vmax表示每個節(jié)點允許的最小和最大電壓幅值；vi表示節(jié)點i的電壓幅值；輸電線路容量限制：

27、

28、式中：pl和ql分別表示每條輸電線路上的有功和無功功率流；sl表示輸電線路的額定容量；

29、功率平衡約束：

30、pg-pd-ploss＝0；

31、qg-qd＝0；

32、式中：pg表示所有發(fā)電機產(chǎn)生的總有功功率；pd表示所有負(fù)荷消耗的總有功功率；qg表示所有發(fā)電機產(chǎn)生的總無功功率；qd表示所有負(fù)荷消耗的總無功功率；ploss表示輸電線路中的總有功功率損耗。

33、優(yōu)選的，所述步驟3包括以下步驟：

34、步驟3.1：將電網(wǎng)的狀態(tài)表示為一個向量，并將電網(wǎng)的狀態(tài)表示為智能體的狀態(tài)空間；

35、步驟3.2：將每個智能體的調(diào)度決策動作用一個向量進行表示，并將該向量表示為智能體的動作空間；

36、步驟3.3：以成本最小化為獎勵函數(shù)的目標(biāo)，獎勵智能體采取降低成本的動作。

37、優(yōu)選的，所述步驟3.1包括以下步驟：

38、對于每個時間步，獲取電網(wǎng)中所有節(jié)點的電壓幅值和相角；

39、將電壓幅值和相角按照順序排列，形成狀態(tài)向量；將所述形成的狀態(tài)向量作為智能體的狀態(tài)空間。

40、優(yōu)選的，所述步驟3.2包括以下步驟：

41、對于每個智能體，在每個時間步選擇一個動作，該動作對應(yīng)于一個動作向量；

42、動作向量中的每個元素代表一個調(diào)度參數(shù)，將調(diào)度參數(shù)按照順序排列，形成動作向量。

43、本發(fā)明的有益效果包括：

44、本發(fā)明通過建立基于數(shù)學(xué)模型的電網(wǎng)仿真系統(tǒng)，以模擬電網(wǎng)的實際運行情況，根據(jù)電網(wǎng)調(diào)度的需求和要求，構(gòu)建調(diào)度目標(biāo)和約束指導(dǎo)智能體在學(xué)習(xí)過程中作出合適的決策；再針對每個智能體，構(gòu)建狀態(tài)空間、動作空間和獎勵函數(shù)，并利用強化學(xué)習(xí)算法結(jié)合仿真環(huán)境訓(xùn)練智能體的策略，訓(xùn)練過程中，智能體通過仿真環(huán)境的交互，不斷優(yōu)化策略，已達(dá)到最優(yōu)的調(diào)度效果；并且智能體可以實時感知電網(wǎng)的動態(tài)變化，并根據(jù)實時信息對調(diào)度方案進行實時調(diào)整和優(yōu)化，如此保證了電網(wǎng)調(diào)度的及時性和準(zhǔn)確性，有效解決了傳統(tǒng)調(diào)度方法缺乏靈活性和實時性的問題。

技術(shù)特征：

1.基于最優(yōu)性保證的多智能體強化學(xué)習(xí)調(diào)度方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的基于最優(yōu)性保證的多智能體強化學(xué)習(xí)調(diào)度方法，其特征在于，所述步驟1包括以下步驟：

3.根據(jù)權(quán)利要求2所述的基于最優(yōu)性保證的多智能體強化學(xué)習(xí)調(diào)度方法，其特征在于，所述節(jié)點潮流方程如下：

4.根據(jù)權(quán)利要求2所述的基于最優(yōu)性保證的多智能體強化學(xué)習(xí)調(diào)度方法，其特征在于，所述非線性方程組如下：

5.根據(jù)權(quán)利要求1所述的基于最優(yōu)性保證的多智能體強化學(xué)習(xí)調(diào)度方法，其特征在于，所述調(diào)度目標(biāo)以最小成本為調(diào)度目標(biāo)，目標(biāo)函數(shù)如下：

6.根據(jù)權(quán)利要求1所述的基于最優(yōu)性保證的多智能體強化學(xué)習(xí)調(diào)度方法，其特征在于，所述約束包括：

7.根據(jù)權(quán)利要求1所述的基于最優(yōu)性保證的多智能體強化學(xué)習(xí)調(diào)度方法，其特征在于，所述步驟3包括以下步驟：

8.根據(jù)權(quán)利要求7所述的基于最優(yōu)性保證的多智能體強化學(xué)習(xí)調(diào)度方法，其特征在于，所述步驟3.1包括以下步驟：

9.根據(jù)權(quán)利要求7所述的基于最優(yōu)性保證的多智能體強化學(xué)習(xí)調(diào)度方法，其特征在于，所述步驟3.2包括以下步驟：

技術(shù)總結(jié)
本申請屬于故電網(wǎng)技術(shù)領(lǐng)域，更具體地說，涉及基于最優(yōu)性保證的多智能體強化學(xué)習(xí)調(diào)度方法，本發(fā)明通過建立基于數(shù)學(xué)模型的電網(wǎng)仿真系統(tǒng)，以模擬電網(wǎng)的實際運行情況，根據(jù)電網(wǎng)調(diào)度的需求和要求，構(gòu)建調(diào)度目標(biāo)和約束指導(dǎo)智能體在學(xué)習(xí)過程中作出合適的決策；再針對每個智能體，構(gòu)建狀態(tài)空間、動作空間和獎勵函數(shù)，并利用強化學(xué)習(xí)算法結(jié)合仿真環(huán)境訓(xùn)練智能體的策略，訓(xùn)練過程中，智能體通過仿真環(huán)境的交互，不斷優(yōu)化策略，已達(dá)到最優(yōu)的調(diào)度效果；并且智能體可以實時感知電網(wǎng)的動態(tài)變化，并根據(jù)實時信息對調(diào)度方案進行實時調(diào)整和優(yōu)化，如此保證了電網(wǎng)調(diào)度的及時性和準(zhǔn)確性，有效解決了傳統(tǒng)調(diào)度方法缺乏靈活性和實時性的問題。

技術(shù)研發(fā)人員：林志達(dá),張喜銘,徐歡,邵彥寧,高松川
受保護的技術(shù)使用者：林志達(dá)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：林志達(dá),張喜銘,徐歡,邵彥寧,高松川
技術(shù)所有人：林志達(dá)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于最優(yōu)性保證的多智能體強化學(xué)習(xí)調(diào)度方法與流程