本發(fā)明涉及電網(wǎng)調(diào)度領(lǐng)域,尤其是一種基于強(qiáng)化學(xué)習(xí)的智能電網(wǎng)調(diào)度算法。
背景技術(shù):
1、電力,作為現(xiàn)代社會(huì)的命脈,其高效與可靠的調(diào)度構(gòu)成了維系社會(huì)生產(chǎn)與生活平穩(wěn)運(yùn)行的生命線。在當(dāng)今世界,電力不僅僅是簡(jiǎn)單的能量傳遞,它承載著數(shù)字化轉(zhuǎn)型、經(jīng)濟(jì)活力與可持續(xù)發(fā)展的多重使命,是現(xiàn)代社會(huì)不可或缺的基石。隨著全球電氣化進(jìn)程的加速推進(jìn),電力需求呈現(xiàn)指數(shù)級(jí)增長(zhǎng)的態(tài)勢(shì),加之可再生能源的大規(guī)模接入,電網(wǎng)調(diào)度系統(tǒng)正面臨一場(chǎng)深刻的變革與挑戰(zhàn)。
2、盡管當(dāng)前的電網(wǎng)調(diào)度系統(tǒng)已邁入自動(dòng)化時(shí)代,顯著提升了調(diào)度效率與準(zhǔn)確性,但傳統(tǒng)的調(diào)度模式在應(yīng)對(duì)日益復(fù)雜多變的電力供需環(huán)境時(shí),其局限性日益凸顯。在電網(wǎng)調(diào)度領(lǐng)域,動(dòng)作空間是指調(diào)度決策者或調(diào)度算法可以選擇的所有可能的操作集合。在電力系統(tǒng)的調(diào)度和控制中,動(dòng)作空間的定義對(duì)于實(shí)現(xiàn)有效的調(diào)度策略至關(guān)重要,因?yàn)樗苯雨P(guān)系到如何在復(fù)雜多變的電力供需環(huán)境中做出最優(yōu)決策。動(dòng)作空間的龐大復(fù)雜性與調(diào)度策略的固有僵化,意味著電網(wǎng)調(diào)度難以在瞬息萬(wàn)變的市場(chǎng)環(huán)境中做出最優(yōu)化決策。此外,依賴于專家設(shè)計(jì)的啟發(fā)式調(diào)度策略雖在特定場(chǎng)景下表現(xiàn)不俗,但持續(xù)優(yōu)化的難度與復(fù)雜度卻成為制約其進(jìn)一步發(fā)展的瓶頸。尤其在突發(fā)事件面前,如電力需求的驟然飆升或由自然災(zāi)害引發(fā)的電網(wǎng)故障,人工干預(yù)雖是必要的補(bǔ)救手段,但其耗時(shí)且易受主觀判斷影響的特性,往往使得電網(wǎng)恢復(fù)過(guò)程緩慢且充滿不確定性,甚至因人為失誤而加劇電網(wǎng)的不穩(wěn)定狀態(tài)。
技術(shù)實(shí)現(xiàn)思路
1、發(fā)明目的,為了解決上述提出的問(wèn)題,本發(fā)明提供一種基于強(qiáng)化學(xué)習(xí)的智能電網(wǎng)調(diào)度算法,通過(guò)在線強(qiáng)化學(xué)習(xí)的自我調(diào)整和學(xué)習(xí),達(dá)到減少人工干預(yù),增強(qiáng)模型對(duì)智能電網(wǎng)電力調(diào)度的參與度。
2、技術(shù)方案,一種基于強(qiáng)化學(xué)習(xí)的智能電網(wǎng)調(diào)度算法,包括如下步驟:
3、步驟s1、構(gòu)建智能電網(wǎng)調(diào)度的基礎(chǔ)模型,同時(shí)輸入預(yù)采集的電網(wǎng)數(shù)據(jù),并描述算法應(yīng)用的環(huán)境以及目標(biāo),包括定義環(huán)境中的狀態(tài)空間及動(dòng)作空間;
4、步驟s2、使用所構(gòu)建的模型對(duì)預(yù)采集數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,使得模型掌握基本的安全行為和環(huán)境規(guī)則;
5、步驟s3、基于在線強(qiáng)化學(xué)習(xí)動(dòng)態(tài)調(diào)整的能力,根據(jù)實(shí)際環(huán)境反饋對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào),以提高模型性能;
6、步驟s4、引入分層強(qiáng)化學(xué)習(xí)理念處理持續(xù)安全的場(chǎng)景,將包括連續(xù)與離散情況的復(fù)雜動(dòng)作空間細(xì)分為不同的層次結(jié)構(gòu),每個(gè)層次負(fù)責(zé)特定類型的決策;
7、步驟s5、引入了啟發(fā)式規(guī)則,對(duì)層次結(jié)構(gòu)進(jìn)行裁剪與優(yōu)化;
8、步驟s6、優(yōu)化后的模型輸出決策,供電網(wǎng)調(diào)度采用。
9、根據(jù)本技術(shù)的另一個(gè)方面,所述步驟s1中定義環(huán)境中的狀態(tài)空間及動(dòng)作空間具體為:
10、步驟s11、定義環(huán)境中的狀態(tài)空間,包括:
11、步驟s111、將環(huán)境的狀態(tài)空間建模為一個(gè)異質(zhì)圖,用一個(gè)五元組g=(v,e,τ,φ,ψ)來(lái)表示,其中,v代表頂點(diǎn)集合,即電網(wǎng)中的各個(gè)節(jié)點(diǎn),e代表邊的集合,即各個(gè)節(jié)點(diǎn)之間連接的拓?fù)浣Y(jié)構(gòu);
12、步驟s112、對(duì)于節(jié)點(diǎn)類型采用映射函數(shù)τ:v→n,將每個(gè)節(jié)點(diǎn)映射到一種節(jié)點(diǎn)的類型,其中v代表頂點(diǎn)集合,n代表環(huán)境中對(duì)應(yīng)的節(jié)點(diǎn)類型集合,
13、n={line,substation,generator,loader,storage};
14、步驟s113、對(duì)于邊類型采用映射函數(shù)φ:e→r,將每個(gè)節(jié)點(diǎn)映射到對(duì)應(yīng)的特征,其中,r代表環(huán)境中對(duì)應(yīng)的邊類型集合,r={1,2}代表其所連接的母線編號(hào),ψ:v→f代表特征映射函數(shù);
15、步驟s12、定義環(huán)境中的動(dòng)作空間,包括:對(duì)于環(huán)境中的動(dòng)作空間a,將其分解為以下6個(gè)部分,即
16、do-nothing:當(dāng)前時(shí)間節(jié)點(diǎn)什么都不做;
17、電線重連:重新連接某條斷掉的線路li;
18、電線斷連:斷連某條未斷的線路lj;
19、重新配置變電站母線結(jié)構(gòu):改變某個(gè)變電站si的母線配置;
20、恢復(fù)變電站母線結(jié)構(gòu):恢復(fù)某個(gè)變電站si的母線配置,即,將所有節(jié)點(diǎn)連接到母線1上;
21、重新分配發(fā)電機(jī)發(fā)電量、存儲(chǔ)結(jié)構(gòu)的充放電:連續(xù)的動(dòng)作類型,調(diào)整各個(gè)發(fā)電機(jī){gi}或者存儲(chǔ)單元{sti}的發(fā)電或者充電功率。
22、根據(jù)本技術(shù)的另一個(gè)方面,所述步驟s2中訓(xùn)練采用的獎(jiǎng)勵(lì)函數(shù)采取以下的方法:
23、
24、根據(jù)本技術(shù)的另一個(gè)方面,所述步驟s1構(gòu)建的模型基礎(chǔ)結(jié)構(gòu)以及各個(gè)頭的結(jié)構(gòu)如下:
25、骨干網(wǎng):使用異質(zhì)圖神經(jīng)網(wǎng)絡(luò)hn對(duì)每種節(jié)點(diǎn)的原始特征進(jìn)行表征學(xué)習(xí),得到每個(gè)節(jié)點(diǎn)相同維度的抽象特征{f1,f2,f3,...},之后具體的決策是以這些抽象特征作為輸入,整個(gè)過(guò)程用數(shù)學(xué)關(guān)系描述為g'=hn(g),其中,g為原始輸入圖,g'為輸出圖,二者只有特征映射函數(shù)發(fā)生改變;
26、頂層決策節(jié)點(diǎn):頂層決策節(jié)點(diǎn)的決策目標(biāo)是選擇一個(gè)寬泛的動(dòng)作類型,即從6個(gè)子集中選擇一個(gè),節(jié)點(diǎn)結(jié)構(gòu)接受6個(gè)代表不同動(dòng)作空間的特征向量經(jīng)過(guò)mlp輸出一個(gè)6維的邏輯值logits代表不同的動(dòng)作;
27、電線重/斷連單元:模型輸入為正常/斷連線路的特征向量,即input={fi|i∈lr}或input={fi|i∈ld},其中,lr與ld分別代表斷連與正常線路節(jié)點(diǎn)組成的集合,決策的神經(jīng)網(wǎng)絡(luò)模型為transformers模型或直接使用特征向量,利用得到的向量做目標(biāo)定位得到選擇某條線路的概率,并對(duì)未冷卻的線路做標(biāo)記;
28、母線的配置單元:利用變電站節(jié)點(diǎn)得到特征向量{fi|i∈s},選擇某個(gè)具體的變電站節(jié)點(diǎn)i,其中,s為變電站節(jié)點(diǎn)組成的集合;
29、發(fā)電機(jī)以及存儲(chǔ)結(jié)構(gòu)單元:使用各個(gè)發(fā)電機(jī)以及存儲(chǔ)單元節(jié)點(diǎn)的特征向量{fi|i∈st∪ge},利用mlp輸出二維向量值做決策,其中,st與ge分別代表存儲(chǔ)結(jié)構(gòu)節(jié)點(diǎn)與發(fā)電機(jī)節(jié)點(diǎn)。
30、根據(jù)本技術(shù)的另一個(gè)方面,所述步驟s3中的強(qiáng)化學(xué)習(xí)微調(diào)階段進(jìn)一步為:
31、步驟s31、選擇固定骨干網(wǎng)backbone的部分參數(shù),用以維持強(qiáng)化學(xué)習(xí)目標(biāo)對(duì)應(yīng)的動(dòng)態(tài)變化的分布穩(wěn)定性;
32、步驟s32、選擇交替優(yōu)化頂層決策節(jié)點(diǎn)以及其他決策節(jié)點(diǎn),用以減少訓(xùn)練以及決策的困難;
33、步驟s33、采用ppo算法并引入了廣義動(dòng)作option準(zhǔn)則,對(duì)gae進(jìn)行一定的修正,使ppo算法兼容option;
34、修正之后的gae如下所示:
35、
36、其中,ki代表第i個(gè)動(dòng)作持續(xù)的時(shí)間,對(duì)于普通動(dòng)作ki=1;對(duì)于option來(lái)說(shuō),ki≥1;若對(duì)任意i都有ki=1,則修正公式退化到原始的gae公式。
37、根據(jù)本技術(shù)的另一個(gè)方面,所述步驟s4中的決策過(guò)程進(jìn)一步為:
38、步驟s41、首先根據(jù)環(huán)境輸入,構(gòu)造圖模型的輸入結(jié)構(gòu)g,之后,由異質(zhì)圖模型hg得到每個(gè)節(jié)點(diǎn)的特征向量{fi};
39、步驟s42、利用特征向量,在頂層決策節(jié)點(diǎn)輸出對(duì)應(yīng)的概率分布上采樣,選擇某個(gè)具體的動(dòng)作類型ai;
40、步驟s43、確定選定的動(dòng)作類型之后,在具體的節(jié)點(diǎn)上得到具體的動(dòng)作分布,再進(jìn)行采樣得到最終的動(dòng)作。
41、有益效果:通過(guò)前期的模仿學(xué)習(xí),模型迅速掌握專家行為模式,減少了從零開始探索環(huán)境所需的時(shí)間和資源,提高了電網(wǎng)調(diào)度的穩(wěn)定性和效率;在不斷變化的真實(shí)環(huán)境中,模型結(jié)合在線強(qiáng)化學(xué)習(xí)進(jìn)行自我調(diào)整,提高對(duì)新情境的適應(yīng)能力和魯棒性,實(shí)現(xiàn)對(duì)電網(wǎng)調(diào)度的有效控制和優(yōu)化;本發(fā)明使用分層強(qiáng)化學(xué)習(xí)思想,特別是廣義動(dòng)作的引入,強(qiáng)化了模型在安全環(huán)境下采取更高效的決策路徑,減少無(wú)謂的計(jì)算負(fù)擔(dān),同時(shí)確保了系統(tǒng)在面對(duì)突發(fā)情況時(shí)的快速響應(yīng)能力;針對(duì)復(fù)雜環(huán)境設(shè)計(jì)多層級(jí)神經(jīng)網(wǎng)絡(luò)輸出,有效管理連續(xù)與離散混合的動(dòng)作空間和分層結(jié)構(gòu),同時(shí),通過(guò)啟發(fā)式規(guī)則對(duì)分層結(jié)構(gòu)進(jìn)行裁剪,簡(jiǎn)化決策樹的深度,確保神經(jīng)網(wǎng)絡(luò)的決策邏輯清晰、不冗余,既能充分挖掘環(huán)境的深層規(guī)律,又保證了模型訓(xùn)練與決策過(guò)程的高效與簡(jiǎn)潔。