本發(fā)明涉及光伏發(fā)電系統(tǒng)電壓控制,特別涉及一種基于深度強(qiáng)化學(xué)習(xí)的光伏系統(tǒng)電壓控制方法、裝置及介質(zhì)。
背景技術(shù):
1、隨著化石燃料的枯竭和環(huán)境問題日益嚴(yán)重,光伏等可再生能源得到了大力發(fā)展,光伏可再生能源接入電網(wǎng),有助于提高清潔能源的比例,但也帶來了電網(wǎng)運(yùn)行的新挑戰(zhàn)。為了維持電網(wǎng)的穩(wěn)定性和安全運(yùn)行,光伏發(fā)電系統(tǒng)的電壓控制策略已成為當(dāng)下研究熱點(diǎn)。
2、在光伏發(fā)電系統(tǒng)中,無功功率的電壓控制對于維持電網(wǎng)的穩(wěn)定性和可靠性至關(guān)重要。然而在實(shí)際應(yīng)用中,由于光照條件的變化和電網(wǎng)負(fù)荷的波動,光伏設(shè)備的電壓可能會出現(xiàn)波動或超過安全范圍,導(dǎo)致系統(tǒng)的不穩(wěn)定和損壞風(fēng)險增加。
3、光伏發(fā)電系統(tǒng)的電壓控制策略的方法主要是深度強(qiáng)化學(xué)習(xí)方法,尤其是多智能體深度強(qiáng)化學(xué)習(xí)。多智能體深度強(qiáng)化學(xué)習(xí)可以從高維的原始數(shù)據(jù)中自動提取出有用的表達(dá),不必要求建立實(shí)際系統(tǒng)的辨識格式,減少了對精確系統(tǒng)模型的依賴,但是多智能體深度強(qiáng)化學(xué)習(xí)時智能體對動作的探索比較隨機(jī),智能體深度策略網(wǎng)絡(luò)輸出的動作直接施加于電網(wǎng),可能導(dǎo)致電壓越限,從而影響電網(wǎng)的安全。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本發(fā)明提供了一種基于深度強(qiáng)化學(xué)習(xí)的光伏系統(tǒng)電壓控制方法、裝置及介質(zhì),主要目的在于解決現(xiàn)有的光伏系統(tǒng)電壓控制方法中的智能體對動作的探索比較隨機(jī),確定的動作直接施加于電網(wǎng),可能導(dǎo)致電壓越限,影響電網(wǎng)的安全的問題。
2、根據(jù)本技術(shù)的一個方面,提供了一種基于深度強(qiáng)化學(xué)習(xí)的光伏系統(tǒng)電壓控制方法,該方法包括:
3、基于光伏系統(tǒng)的電壓控制任務(wù),構(gòu)建分布式部分可觀測馬爾可夫決策過程模型;
4、基于預(yù)設(shè)的訓(xùn)練數(shù)據(jù)對所述分布式部分可觀測馬爾可夫決策過程模型進(jìn)行訓(xùn)練,得到電壓控制策略網(wǎng)絡(luò),其中,所述分布式部分可觀測馬爾可夫決策過程模型中的每個智能體表示一個光伏發(fā)電設(shè)備,訓(xùn)練時所述智能體與預(yù)設(shè)的電網(wǎng)仿真環(huán)境進(jìn)行反饋與獎勵互動;
5、獲取待調(diào)節(jié)的光伏發(fā)電系統(tǒng)的實(shí)際觀測數(shù)據(jù)和實(shí)際狀態(tài)數(shù)據(jù),將所述實(shí)際觀測數(shù)據(jù)輸入至所述電壓控制策略網(wǎng)絡(luò),得到每個智能體對應(yīng)的第一動作策略;
6、基于所述實(shí)際狀態(tài)數(shù)據(jù),對每個智能體對應(yīng)的第一動作策略進(jìn)行安全約束處理,獲得每個智能體對應(yīng)的第二動作策略;
7、根據(jù)每個所述智能體對應(yīng)的第二動作策略,得到所述光伏發(fā)電系統(tǒng)的電壓控制策略。
8、可選地,所述基于所述實(shí)際狀態(tài)數(shù)據(jù),對每個智能體對應(yīng)的第一動作策略進(jìn)行安全約束處理,獲得每個智能體對應(yīng)的第二動作策略,包括:
9、基于所述實(shí)際狀態(tài)數(shù)據(jù)、每個智能體對應(yīng)的第一動作策略和訓(xùn)練完的靈敏度網(wǎng)絡(luò),構(gòu)建安全約束模型的優(yōu)化約束條件;
10、構(gòu)建所述安全約束模型的優(yōu)化目標(biāo)函數(shù),基于所述優(yōu)化約束條件,對所述優(yōu)化目標(biāo)函數(shù)進(jìn)行求解,若所述優(yōu)化目標(biāo)函數(shù)有解,得到每個智能體對應(yīng)的第二動作策略;
11、若所述優(yōu)化目標(biāo)函數(shù)無解,基于懲罰約束和松弛約束,計(jì)算所述優(yōu)化目標(biāo)函數(shù)的解,得到每個智能體對應(yīng)的第二動作策略。
12、可選地,所述安全約束模型的優(yōu)化目標(biāo)函數(shù)為:
13、
14、所述安全約束模型的優(yōu)化約束條件為:
15、
16、其中,a為智能體對應(yīng)的第一動作策略,是所有智能體的聯(lián)合策略,n是智能體的個數(shù),cj(s)為當(dāng)前狀態(tài)下的約束函數(shù),cj為約束限值,h(s|uj)為當(dāng)前狀態(tài)下的靈敏度網(wǎng)絡(luò),uj為權(quán)重。
17、可選地,所述基于懲罰約束和松弛約束,計(jì)算所述優(yōu)化目標(biāo)函數(shù)的解,得到每個智能體對應(yīng)的第二動作策略的方法為:
18、
19、其中,ε={ε1,…εz}是松弛變量,ρ是違反約束的懲罰權(quán)重,a*,ε*分別為最優(yōu)安全動作和最優(yōu)松弛變量。
20、可選地,所述分布式部分可觀測馬爾可夫決策過程模型包括以(s,a,o,ω,t,r)表示的六元組,其中,所述s用于表征狀態(tài),所述o用于表征觀測,所述a用于表征動作,所述r用于表征獎勵,所述t用于表征狀態(tài)轉(zhuǎn)移,所述ω用于表征觀測轉(zhuǎn)移。
21、可選地,所述基于預(yù)設(shè)的訓(xùn)練數(shù)據(jù)對所述分布式部分可觀測馬爾可夫決策過程模型進(jìn)行訓(xùn)練,得到電壓控制策略網(wǎng)絡(luò),包括:
22、獲取組訓(xùn)練數(shù)據(jù),利用所述訓(xùn)練數(shù)據(jù)訓(xùn)練所述分布式部分可觀測馬爾可夫決策過程模型,生成當(dāng)前時刻的初始動作策略;
23、對初始動作策略進(jìn)行安全約束處理,獲得約束后的動作策略;
24、將約束后的動作策略輸入至電網(wǎng)仿真環(huán)境,使得所述電網(wǎng)仿真環(huán)境根據(jù)所述初始動作策略更新狀態(tài),得到下一時刻的下一狀態(tài)數(shù)據(jù)和下一觀測數(shù)據(jù);
25、基于所述下一時刻的狀態(tài)數(shù)據(jù),計(jì)算當(dāng)前時刻的獎勵值;
26、根據(jù)所述下一狀態(tài)數(shù)據(jù)、下一觀測數(shù)據(jù)和當(dāng)前時刻的獎勵值繼續(xù)訓(xùn)練所述智能體,直到達(dá)到預(yù)設(shè)停止條件,得到電壓控制策略網(wǎng)絡(luò)。
27、可選地,采用下述方法計(jì)算當(dāng)前時刻的獎勵值:
28、
29、其中,n為電網(wǎng)仿真環(huán)境中節(jié)點(diǎn)的個數(shù),fv(·)為電壓屏障函數(shù),vk為節(jié)點(diǎn)k的電壓幅值,vref為參考電壓,a,b,c,d>0為用于調(diào)整函數(shù)形狀和平滑度的超參數(shù),lq(qpv)為光伏設(shè)備為調(diào)節(jié)電壓而產(chǎn)生的無功功率,k為電網(wǎng)仿真環(huán)境中光伏設(shè)備的個數(shù),qpv為光伏設(shè)備逆變器在上一時刻發(fā)出無功功率,α∈(0,1)為拉格朗日乘子。
30、根據(jù)本技術(shù)的另一個方面,提供了一種基于深度強(qiáng)化學(xué)習(xí)的光伏系統(tǒng)電壓控制裝置,包括:
31、模型構(gòu)建模塊,用于基于光伏系統(tǒng)的電壓控制任務(wù),構(gòu)建分布式部分可觀測馬爾可夫決策過程模型;
32、訓(xùn)練模塊,用于基于預(yù)設(shè)的訓(xùn)練數(shù)據(jù)對所述分布式部分可觀測馬爾可夫決策過程模型進(jìn)行訓(xùn)練,得到電壓控制策略網(wǎng)絡(luò),其中,所述分布式部分可觀測馬爾可夫決策過程模型中的每個智能體表示一個光伏發(fā)電設(shè)備,訓(xùn)練時所述智能體與預(yù)設(shè)的電網(wǎng)仿真環(huán)境進(jìn)行反饋與獎勵互動;
33、第一動作策略獲得模塊,用于獲取待調(diào)節(jié)的光伏發(fā)電系統(tǒng)的實(shí)際觀測數(shù)據(jù)和實(shí)際狀態(tài)數(shù)據(jù),將所述實(shí)際觀測數(shù)據(jù)輸入至所述電壓控制策略網(wǎng)絡(luò),得到每個智能體對應(yīng)的第一動作策略;
34、第二動作策略獲得模塊,用于基于所述實(shí)際狀態(tài)數(shù)據(jù),對每個智能體對應(yīng)的第一動作策略進(jìn)行安全約束處理,獲得每個智能體對應(yīng)的第二動作策略;
35、電壓控制策略獲得模塊,用于根據(jù)每個所述智能體對應(yīng)的第二動作策略,得到所述光伏發(fā)電系統(tǒng)的電壓控制策略。
36、可選地,所述第二動作策略獲得模塊還用于:
37、基于所述實(shí)際狀態(tài)數(shù)據(jù)、每個智能體對應(yīng)的第一動作策略和訓(xùn)練完的靈敏度網(wǎng)絡(luò),構(gòu)建安全約束模型的優(yōu)化約束條件;
38、構(gòu)建所述安全約束模型的優(yōu)化目標(biāo)函數(shù),基于所述優(yōu)化約束條件,對所述優(yōu)化目標(biāo)函數(shù)進(jìn)行求解,若所述優(yōu)化目標(biāo)函數(shù)有解,得到每個智能體對應(yīng)的第二動作策略;
39、若所述優(yōu)化目標(biāo)函數(shù)無解,基于懲罰約束和松弛約束,計(jì)算所述優(yōu)化目標(biāo)函數(shù)的解,得到每個智能體對應(yīng)的第二動作策略
40、根據(jù)本技術(shù)的另一個方面,提供了一種存儲介質(zhì),所述存儲介質(zhì)中存儲有至少一可執(zhí)行指令,所述可執(zhí)行指令使處理器執(zhí)行上述基于深度強(qiáng)化學(xué)習(xí)的光伏系統(tǒng)電壓控制方法對應(yīng)的操作。
41、根據(jù)本技術(shù)的另一個方面,提供了一種計(jì)算機(jī)設(shè)備,包括:處理器、存儲器、通信接口和通信總線,所述處理器、所述存儲器和所述通信接口通過所述通信總線完成相互間的通信;
42、所述存儲器用于存放至少一可執(zhí)行指令,所述可執(zhí)行指令使所述處理器執(zhí)行上述基于深度強(qiáng)化學(xué)習(xí)的光伏系統(tǒng)電壓控制方法對應(yīng)的操作。
43、借由上述技術(shù)方案,本發(fā)明實(shí)施例提供的技術(shù)方案至少具有下列優(yōu)點(diǎn):
44、本技術(shù)提供的一種基于深度強(qiáng)化學(xué)習(xí)的光伏系統(tǒng)電壓控制方法、裝置及介質(zhì),將光伏系統(tǒng)的電壓控制問題轉(zhuǎn)換為分布式部分可觀測馬爾可夫決策過程,基于預(yù)設(shè)的訓(xùn)練數(shù)據(jù)對分布式部分可觀測馬爾可夫決策過程模型進(jìn)行訓(xùn)練,得到電壓控制策略網(wǎng)絡(luò),將待調(diào)節(jié)的光伏發(fā)電系統(tǒng)的實(shí)際觀測數(shù)據(jù)輸入至電壓控制策略網(wǎng)絡(luò),得到每個智能體對應(yīng)的第一動作策略,基于待調(diào)節(jié)的光伏發(fā)電系統(tǒng)的實(shí)際狀態(tài)數(shù)據(jù),對每個智能體對應(yīng)的第一動作策略進(jìn)行安全約束處理,獲得每個智能體對應(yīng)的第二動作策略,根據(jù)每個智能體對應(yīng)的第二動作策略,得到光伏發(fā)電系統(tǒng)的電壓控制策略,對光伏發(fā)電系統(tǒng)進(jìn)行電壓控制,通過對第一動作策略進(jìn)行安全約束的校正處理,降低了不安全動作施加于電網(wǎng)導(dǎo)致電壓越限的概率,提高了電網(wǎng)的安全性、電壓穩(wěn)定性和可靠性。
45、上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。