本發(fā)明涉及電力調(diào)度,具體為一種基于多智能體的源荷雙側(cè)儲能協(xié)同調(diào)度方法。
背景技術(shù):
1、隨著新型電力系統(tǒng)(下稱系統(tǒng))建設(shè)的快速推進,新能源發(fā)電比例迅速提升,但其不確定性對系統(tǒng)運行構(gòu)成了巨大挑戰(zhàn)。儲能憑借其高度靈活性支持新能源的消納,增強了電力系統(tǒng)的調(diào)節(jié)能力。然而,由于儲能資源分布不均、調(diào)用方式單一,部分儲能未能得到充分利用,導(dǎo)致資源浪費。在電力系統(tǒng)中,源荷雙側(cè)均建有儲能設(shè)備。電源側(cè)受儲能容量限制存在新能源消納不足的現(xiàn)象,使得系統(tǒng)運行性能有限。
2、另一方面,用戶側(cè)供應(yīng)商整合分布式和集中式儲能后通過對外出租共享從而獲利,未出租部分儲能可以利用電價差進行充放電套利。但該模式的充放電策略比較單一,所獲收益較低,無法最大化儲能效率。
技術(shù)實現(xiàn)思路
1、為解決現(xiàn)有技術(shù)中存在的上述技術(shù)問題,本發(fā)明提供了一種基于多智能體的源荷雙側(cè)儲能協(xié)同調(diào)度方法,具體技術(shù)方案包括以下步驟:
2、步驟s1:基于多智能體的源荷雙側(cè)儲能系統(tǒng)構(gòu)建目標(biāo)函數(shù),并設(shè)置約束條件;
3、步驟s2:基于目標(biāo)函數(shù)及約束條件,構(gòu)建馬爾可夫決策模型;
4、步驟s3:基于馬爾可夫決策模型,對每一個馬爾科夫決策周期,獲取源荷雙側(cè)儲能系統(tǒng)對應(yīng)的狀態(tài)空間;
5、步驟s4:將狀態(tài)空間代入馬爾可夫決策模型進行q值擬合,得到對應(yīng)的動作空間并執(zhí)行。
6、優(yōu)選地,步驟s1具體包括:
7、步驟s11:以棄風(fēng)量最小以及儲能利用率最大為目標(biāo)構(gòu)建目標(biāo)函數(shù),公式如下:
8、;
9、式中,為調(diào)度時段序數(shù),為單日總調(diào)度時段數(shù),為棄風(fēng)懲罰系數(shù),為時段內(nèi)新能源機組的實際出力,為時段內(nèi)新能源機組的最大可調(diào)用出力,為儲能的臺序數(shù),為第臺儲能時段內(nèi)的實際功率,為第臺儲能時段內(nèi)的功率最大值;
10、步驟s12:設(shè)置約束條件,公式如下:
11、;
12、;
13、;
14、式中,為時段內(nèi)發(fā)電機組注入節(jié)點的有功功率,為時段內(nèi)儲能注入節(jié)點的有功功率,為時段內(nèi)節(jié)點的有功功率,、分別為時段內(nèi)節(jié)點、節(jié)點的電壓,、分別為節(jié)點導(dǎo)納矩陣的實部、虛部,為時段內(nèi)線路上的電壓相角差,為發(fā)電機組的臺序數(shù),為時段內(nèi)第臺發(fā)電機組有功功率的出力值,、分別為第臺發(fā)電機組有功功率的最小出力值、最大出力值,為時段內(nèi)時段第臺發(fā)電機組無功功率的出力值,、分別為第臺發(fā)電機組無功功率的最小出力值、最大出力值,為第臺儲能時段內(nèi)的功率最小值。
15、優(yōu)選地,步驟s2具體包括:基于目標(biāo)函數(shù)及約束條件,構(gòu)建馬爾可夫決策模型(,,,,);其中,
16、為狀態(tài)空間,公式如下:
17、;
18、式中,為功率信息,為電網(wǎng)電壓,為儲能的荷電狀態(tài),為時間;
19、為動作空間,公式如下:
20、;
21、式中,為共享儲能的充放電功率,為廠站儲能的充放電功率;
22、為狀態(tài)轉(zhuǎn)移概率;為獎勵函數(shù),具體為,公式如下:
23、;
24、式中,為時段內(nèi)智能體與環(huán)境交互獲得的獎勵,為越限動作懲罰;
25、為折扣因子,0≦≦1;
26、對每一個馬爾科夫決策周期,獲取對應(yīng)的狀態(tài)空間;
27、將狀態(tài)空間代入馬爾可夫決策模型進行q值擬合,得到對應(yīng)的動作空間并執(zhí)行。
28、優(yōu)選地,步驟s4具體為:
29、在actor-critic框架中,將注意力網(wǎng)絡(luò)引入critic網(wǎng)絡(luò),并通過maan-td3算法(multi-agent?attention?noisy?twin?delayed?deep?deterministic?policy?gradient,多智能體含噪注意力雙延遲策略梯度算法)擬合q值;
30、步驟s41:將全局的狀態(tài)動作對( s, a)輸入多層感知機,按智能體順序堆疊向量后得到向量;其中, s∈, a∈;
31、步驟s42:將向量輸入多頭注意力網(wǎng)絡(luò)提取特征,得到特征輸出;
32、步驟s43:層歸一化處理特征輸出,得到結(jié)果 x;將結(jié)果 x輸入殘差網(wǎng)絡(luò)結(jié)合向量,再輸入全連接層,并將全連接層的輸出 out作為q值。
33、進一步,步驟s41之前,還包括:為狀態(tài) s添加隨機噪聲擾動,構(gòu)成探索狀態(tài),公式如下:
34、?。
35、進一步,使用神經(jīng)網(wǎng)絡(luò)參數(shù)化actor網(wǎng)絡(luò),并通過梯度下降法更新actor網(wǎng)絡(luò)。
36、優(yōu)選地,殘差網(wǎng)絡(luò)為bellman殘差網(wǎng)絡(luò)。
37、優(yōu)選地,通過最小化損失函數(shù)更新critic網(wǎng)絡(luò)的參數(shù),公式如下:
38、;
39、;
40、式中,為網(wǎng)絡(luò)參數(shù),為第個智能體的critic網(wǎng)絡(luò)的損失函數(shù),為經(jīng)驗池中儲存的第二觀測數(shù)據(jù),為對應(yīng)的獎勵值,為更新后儲存的第二觀測數(shù)據(jù),為損失函數(shù)的期望值,為價值函數(shù)的目標(biāo)策略,表示第個智能體的actor網(wǎng)絡(luò)得到的q值,為目標(biāo)q值,為第個智能體獲得的獎勵值,為更新后價值函數(shù)的目標(biāo)策略,表示更新actor網(wǎng)絡(luò)得到的q值,為智能體的數(shù)量,為第個智能體對應(yīng)的動作,為更新后第個智能體對應(yīng)的動作,為第個智能體的觀測;其中,=1,2,…,。
41、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:本發(fā)明所提供的技術(shù)方案可通過協(xié)同調(diào)度源荷雙側(cè)儲能提升儲能的利用效率、電源側(cè)的新能源消納能力和系統(tǒng)運行性能。另一方面,可在棄風(fēng)量減少的基礎(chǔ)上提升整體經(jīng)濟效益。
1.一種基于多智能體的源荷雙側(cè)儲能協(xié)同調(diào)度方法,其特征在于,包括以下步驟:
2.如權(quán)利要求1所述的一種基于多智能體的源荷雙側(cè)儲能協(xié)同調(diào)度方法,其特征在于,步驟s1具體包括:
3.如權(quán)利要求2所述的一種基于多智能體的源荷雙側(cè)儲能協(xié)同調(diào)度方法,其特征在于,步驟s2具體包括:基于目標(biāo)函數(shù)及約束條件,構(gòu)建馬爾可夫決策模型(,,,,);其中,
4.如權(quán)利要求1所述的一種基于多智能體的源荷雙側(cè)儲能協(xié)同調(diào)度方法,其特征在于,步驟s4具體為:
5.如權(quán)利要求4所述的一種基于多智能體的源荷雙側(cè)儲能協(xié)同調(diào)度方法,其特征在于,步驟s41之前,還包括:為狀態(tài)s添加隨機噪聲擾動,構(gòu)成探索狀態(tài),公式如下:
6.如權(quán)利要求4所述的一種基于多智能體的源荷雙側(cè)儲能協(xié)同調(diào)度方法,其特征在于,使用神經(jīng)網(wǎng)絡(luò)參數(shù)化actor網(wǎng)絡(luò),并通過梯度下降法更新actor網(wǎng)絡(luò)。
7.如權(quán)利要求4所述的一種基于多智能體的源荷雙側(cè)儲能協(xié)同調(diào)度方法,其特征在于,殘差網(wǎng)絡(luò)為bellman殘差網(wǎng)絡(luò)。
8.如權(quán)利要求4所述的一種基于多智能體的源荷雙側(cè)儲能協(xié)同調(diào)度方法,其特征在于,還包括,通過最小化損失函數(shù)更新critic網(wǎng)絡(luò)的參數(shù),公式如下: