本技術(shù)屬于電力系統(tǒng),更具體地說,涉及一種基于運(yùn)行成本優(yōu)化的多智能體強(qiáng)化學(xué)習(xí)方法。
背景技術(shù):
1、隨著智能電網(wǎng)的發(fā)展,如何提高電力系統(tǒng)的運(yùn)行效率和可靠性成為了關(guān)鍵問題之一。電力系統(tǒng)通常由眾多發(fā)電廠、輸電線路、變電站等組成,構(gòu)成了一個(gè)復(fù)雜的網(wǎng)絡(luò)系統(tǒng)。在系統(tǒng)運(yùn)行過程中,需要協(xié)調(diào)各節(jié)點(diǎn)的發(fā)電、調(diào)度、配電等決策,以滿足電力需求,同時(shí)需要最小化總體運(yùn)行成本。
2、傳統(tǒng)的電網(wǎng)調(diào)度方法主要依靠人工經(jīng)驗(yàn)進(jìn)行決策,難以適應(yīng)日益復(fù)雜的電力系統(tǒng)環(huán)境。近年來,強(qiáng)化學(xué)習(xí)技術(shù)在電力系統(tǒng)優(yōu)化中展現(xiàn)了良好的應(yīng)用前景。強(qiáng)化學(xué)習(xí)可以通過與環(huán)境的交互,自動學(xué)習(xí)出最優(yōu)的決策策略,從而提高電網(wǎng)的運(yùn)行效率。
3、然而,電力系統(tǒng)中存在多個(gè)獨(dú)立的決策主體,如發(fā)電廠、輸配電公司等,它們各自有自己的目標(biāo)和決策方式。如何在多智能體環(huán)境下,通過協(xié)調(diào)優(yōu)化每個(gè)主體的決策,實(shí)現(xiàn)電網(wǎng)系統(tǒng)的全局最優(yōu)調(diào)度,成為了一個(gè)亟待解決的關(guān)鍵問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供了一種基于運(yùn)行成本優(yōu)化的多智能體強(qiáng)化學(xué)習(xí)方法,擬實(shí)現(xiàn)在多智能體環(huán)境下,通過協(xié)調(diào)優(yōu)化每個(gè)主體的決策,實(shí)現(xiàn)電網(wǎng)系統(tǒng)在最低成本下的最優(yōu)調(diào)度。
2、一種基于運(yùn)行成本優(yōu)化的多智能體強(qiáng)化學(xué)習(xí)方法,包括以下步驟:
3、步驟1:將整個(gè)電網(wǎng)系統(tǒng)劃分為多個(gè)區(qū)域,每個(gè)區(qū)域?qū)?yīng)一個(gè)智能體;定義每個(gè)智能體的狀態(tài)向量,并確定每個(gè)智能體可采取的行動,建立每個(gè)智能體的成本函數(shù),用于描述執(zhí)行所述行動的成本;
4、步驟2:采用深度神經(jīng)網(wǎng)絡(luò)作為每個(gè)智能體的決策模型,并采用深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練每個(gè)智能體的決策模型,通過決策模型輸出每個(gè)智能體的行動決策;
5、步驟3:構(gòu)建基于多智能體演化策略算法的多智能體強(qiáng)化學(xué)習(xí)框架,為每個(gè)智能體定義獨(dú)立的獎(jiǎng)勵(lì)函數(shù),并建立智能體之間的信息交換和協(xié)調(diào)決策,通過多智能體強(qiáng)化學(xué)習(xí)框架以最小化成本優(yōu)化每個(gè)智能體的行動決策;
6、步驟4:基于博弈論的方法協(xié)調(diào)各智能體的行動決策達(dá)到全局最優(yōu);輸出全局最優(yōu)的行動決策,各智能體基于輸出的行動決策執(zhí)行相應(yīng)的動作。
7、本發(fā)明將電網(wǎng)系統(tǒng)劃分為多個(gè)區(qū)域,每個(gè)區(qū)域?qū)?yīng)一個(gè)獨(dú)立的智能體,將復(fù)雜的全局問題轉(zhuǎn)換為多個(gè)局部問題,提高決策的可實(shí)施性;對于每個(gè)智能體建立成本函數(shù)全面的描述智能體執(zhí)行某種行動所帶來的成本影響;并采用深度神經(jīng)網(wǎng)絡(luò)作為每個(gè)智能體的決策模型,并使用深度強(qiáng)化學(xué)習(xí)算法對決策模型進(jìn)行訓(xùn)練;通過與環(huán)境的交互,智能體可以資助學(xué)習(xí)出最優(yōu)的行動決策策略,逐步降低自身的運(yùn)行成本;并構(gòu)建基于多智能體演化策略算法的強(qiáng)化學(xué)習(xí)框架,為每個(gè)智能體構(gòu)建單獨(dú)的獎(jiǎng)勵(lì)函數(shù),使得能夠根據(jù)自身的狀態(tài)和其他智能體的決策,學(xué)習(xí)最優(yōu)的行動策略;最優(yōu)采用基于博弈論的方法進(jìn)一步協(xié)調(diào)各智能體的行動決策,確保系統(tǒng)收斂到全局最優(yōu)狀態(tài);提高電網(wǎng)系統(tǒng)的整體運(yùn)行效率和經(jīng)濟(jì)性。
8、優(yōu)選的,所述構(gòu)建的成本函數(shù)如下:
9、
10、式中:w1、w2和w3為相應(yīng)的權(quán)重系數(shù),ci(si,ai)表示智能體i的總成本函數(shù);表示智能體i的發(fā)電成本函數(shù);表示智能體i的電網(wǎng)損耗成本函數(shù);表示智能體i的排放成本函數(shù),即發(fā)電過程中產(chǎn)生的污染物排放所導(dǎo)致的環(huán)境成本;si表示智能體i所處的狀態(tài);ai表示智能體i的初步?jīng)Q策。
11、優(yōu)選的,所述決策模型的結(jié)構(gòu)如下:
12、輸入層:輸入為智能體的狀態(tài)向量;
13、隱藏層:決策模型所采用一個(gè)多層感知機(jī)結(jié)構(gòu),多層感知機(jī)由多個(gè)全連接隱藏層組成;每個(gè)全連接隱藏層使用relu?activation?function作為激活函數(shù);
14、輸出層:輸出層輸出智能體可采取的行動;若智能體的輸出為離散動作的輸出層采用全連接層+softmax?activation的結(jié)構(gòu),輸出個(gè)動作的概率分布;若智能體的輸出為連續(xù)動作的使用全連接層+tanh?activation,輸出動作的確定性值;對于輸出的概率分布選擇概率最高的動作。
15、優(yōu)選的,所多智能體強(qiáng)化學(xué)習(xí)框架的訓(xùn)練步驟如下:
16、a.每個(gè)智能體根據(jù)當(dāng)前狀態(tài)和其他智能體的當(dāng)前狀態(tài)信息,通過自身的決策模型輸出行動決策;
17、b.智能體執(zhí)行行動決策后,通過獎(jiǎng)勵(lì)函數(shù)獲得及時(shí)的獎(jiǎng)勵(lì),所述獎(jiǎng)勵(lì)函數(shù)與智能體的成本函數(shù)相反;
18、c.利用多智能體演化策略算法,更新每個(gè)智能體決策模型的參數(shù),使得整體系統(tǒng)的總成本不斷降低;
19、d.重復(fù)上述步驟a到步驟d,直至系統(tǒng)達(dá)到穩(wěn)定的全局最優(yōu)狀態(tài)。
20、優(yōu)選的,所述步驟c包括以下步驟:
21、初始化每個(gè)智能體的決策模型參數(shù)θi;
22、在當(dāng)前參數(shù)θi下,采樣k個(gè)動作序列:
23、對于每個(gè)采樣的動作序列執(zhí)行動作序列,獲得累積獎(jiǎng)勵(lì):
24、
25、式中:表示在執(zhí)行動作序列后,智能體i獲得的累積獎(jiǎng)勵(lì);表示智能體i在第t個(gè)時(shí)間步獲得的即時(shí)獎(jiǎng)勵(lì);
26、計(jì)算動作序列的性能指標(biāo):
27、
28、式中:表示動作序列對應(yīng)的性能指標(biāo),即智能體i的總成本;
29、使用采樣的性能指標(biāo),更新智能體i的參數(shù)θi:
30、
31、式中:θi表示智能體i的決策模型參數(shù);θi'表示智能體i更新后的決策模型參數(shù);α表示學(xué)習(xí)率,控制參數(shù)更新的步長;表示針對θi的梯度;k表示采樣數(shù)量。
32、優(yōu)選的,所述步驟4包括以下步驟:
33、步驟4.1:將整個(gè)多智能體建模為一個(gè)非合作博弈模型;每個(gè)智能體都是博弈的參與者,目標(biāo)是最小化自身的成本函數(shù);
34、步驟4.2:尋找每個(gè)智能體在其他智能體決策確定的情況自身的納什均衡解,即自身的決策最優(yōu)解;
35、步驟4.3:基于博弈論分析,檢查當(dāng)前的行動決策是否已達(dá)到納什均衡;
36、步驟4.4:若未達(dá)到納什均衡,則進(jìn)行決策協(xié)調(diào),直至最終收斂到納什均衡解。
37、優(yōu)選的,所述步驟4.3中納什均衡解應(yīng)當(dāng)滿足如下條件:
38、
39、式中:ai*表示智能體i的最優(yōu)決策;ai表示智能體i的初步?jīng)Q策;ci(si,ai*)表示智能體i的總成本函數(shù);ci(si,ai*)表示智能體i基于最優(yōu)決策計(jì)算出的成本;ci(si,ai)表示智能體i基于初步?jīng)Q策計(jì)算出的成本。
40、優(yōu)選的,所述步驟4.4中的決策協(xié)調(diào)包括以下步驟:
41、每個(gè)智能體根據(jù)當(dāng)前狀態(tài)和其他智能體的決策計(jì)算自身的最優(yōu)決策;
42、將各智能體的最優(yōu)決策進(jìn)行交換和比較,直至所有智能體的決策都不能再進(jìn)行改善后,輸出最終的全局最優(yōu)行動決策。
43、本發(fā)明的有益效果包括:
44、本發(fā)明將電網(wǎng)系統(tǒng)劃分為多個(gè)區(qū)域,每個(gè)區(qū)域?qū)?yīng)一個(gè)獨(dú)立的智能體,將復(fù)雜的全局問題轉(zhuǎn)換為多個(gè)局部問題,提高決策的可實(shí)施性;對于每個(gè)智能體建立成本函數(shù)全面的描述智能體執(zhí)行某種行動所帶來的成本影響;并采用深度神經(jīng)網(wǎng)絡(luò)作為每個(gè)智能體的決策模型,并使用深度強(qiáng)化學(xué)習(xí)算法對決策模型進(jìn)行訓(xùn)練;通過與環(huán)境的交互,智能體可以資助學(xué)習(xí)出最優(yōu)的行動決策策略,逐步降低自身的運(yùn)行成本;并構(gòu)建基于多智能體演化策略算法的強(qiáng)化學(xué)習(xí)框架,為每個(gè)智能體構(gòu)建單獨(dú)的獎(jiǎng)勵(lì)函數(shù),使得能夠根據(jù)自身的狀態(tài)和其他智能體的決策,學(xué)習(xí)最優(yōu)的行動策略;最優(yōu)采用基于博弈論的方法進(jìn)一步協(xié)調(diào)各智能體的行動決策,確保系統(tǒng)收斂到全局最優(yōu)狀態(tài);提高電網(wǎng)系統(tǒng)的整體運(yùn)行效率和經(jīng)濟(jì)性。