本發(fā)明涉及微電網(wǎng),尤其是涉及一種基于強(qiáng)化學(xué)習(xí)的微電網(wǎng)電能分配方法。
背景技術(shù):
微電網(wǎng)的提出是用于整合可再生能源、降低電網(wǎng)成本及提供更好電網(wǎng)質(zhì)量。微電網(wǎng)包括有源負(fù)載、可再生能源發(fā)電機(jī)及電能存儲(chǔ)設(shè)備,且可以通過(guò)變電站與主電網(wǎng)相連。
如果微電網(wǎng)中的本地產(chǎn)能和儲(chǔ)能無(wú)法滿足需求時(shí),可以和主電網(wǎng)進(jìn)行交易,購(gòu)買(mǎi)電能;反之,當(dāng)微電網(wǎng)中有多余的電能時(shí),也可以賣(mài)給主電網(wǎng)[S.M.Amin and B.F.Wollenberg,“Toward a smart grid:Power delivery for the 21st century,”IEEE Power Energy Mag.,vol.3,no.5,pp.34–41,Sep./Oct.2005.]。[Z.Wang,B.Chen,J.Wang,et al.,“Coordinated energy management of networked microgrids in distribution systems,”IEEE Trans.on Smart Grid,6(1):45-53,2015.]闡述了一種基于分層結(jié)構(gòu)的主電網(wǎng)和微電網(wǎng)之間的互動(dòng)交易。[W.Saad,Z.Han,H.V.Poor,and T.Basar,“Game-theoretic methods for the smart grid:An overview of microgrid systems,demand-side management,and smart grid communications,”IEEE Signal Process.Mag.,vol.29,no.5,pp.86–105,Sep.2012.]指出主電網(wǎng)與微電網(wǎng)通過(guò)變電站進(jìn)行交易過(guò)程中,由于兩者距離較遠(yuǎn),消耗、轉(zhuǎn)換以及運(yùn)輸成本高,而地理位置臨近的微電網(wǎng)之間的交易可以平衡電能的供需要求,并減少微電網(wǎng)對(duì)主電網(wǎng)的依賴,從而降低電網(wǎng)成本。[W.Saad,Z.Han,and H.V.Poor,“Coalitional game theory for cooperative microgrid distribution networks,”in Proc.IEEE Int.Conf.Commun.Workshop(ICC),Kyoto,Japan,Jun.2011,pp.1–5.]將博弈論應(yīng)用于微電網(wǎng)之間的交易,通過(guò)合作減少損失從而達(dá)到全局成本最小化。[Pipattanasomporn M,Feroze H,Rahman S.Multi-agent systems in a distributed smart grid:Design and implementation[C]//Power Systems Conference and Exposition,2009.PSCE'09.IEEE/PES.IEEE,2009:1-8.]用拍賣(mài)算法模擬微電網(wǎng)的交易,即微電網(wǎng)之間通過(guò)多次的相互協(xié)商,找到雙方都可接受的交易價(jià)格。[L.Xiao,N.B.Mandayam,and H.V.Poor,"Prospect Theoretic Analysis of Energy Exchange Among Microgrids,"IEEE Trans.Smart Grids,vol.6,no.1,pp.63-72,Jan.2015.]將前景理論用于微電網(wǎng)的能量交換,每個(gè)微電網(wǎng)應(yīng)該考慮自己的利益,即每個(gè)交易者都是主觀的,在電能低時(shí)不會(huì)冒險(xiǎn)賣(mài)出或在電價(jià)高時(shí)不會(huì)買(mǎi)入。
在電能交易中,存在一些變量,包括可再生能源的產(chǎn)量、本地需求量等。[M.Fathi and H.Bevrani,“Adaptive energy consumption scheduling for connected microgrids under demand uncertainty,”IEEE Trans.on Power Delivery,28(3):1576-1583,2013.]提出采用自適應(yīng)的能量消費(fèi)計(jì)劃解決不確定的能量需求,用在線隨機(jī)迭代方式來(lái)模擬需求的隨機(jī)性。由于可再生能源(風(fēng)能)的產(chǎn)能與天氣有關(guān),產(chǎn)能不會(huì)發(fā)生驟變,即相鄰時(shí)隙的產(chǎn)能有一定的關(guān)系,[Kuznetsova E,Li Y F,Ruiz C,et al.Reinforcement learning for microgrid energy management[J].Energy,2013,59:133-146.]將可再生能源(風(fēng)能)的產(chǎn)量模擬為馬爾可夫過(guò)程。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明目的為了解決微電網(wǎng)電能交易控制的問(wèn)題,提供一種基于強(qiáng)化學(xué)習(xí)的微電網(wǎng)電能分配方法。
本發(fā)明包括以下步驟:
1)設(shè)置:
N個(gè)微電網(wǎng)用戶MG和一個(gè)發(fā)電廠PP;
微電網(wǎng)用戶之間的交易價(jià)格ρ-(買(mǎi)的價(jià)格)、ρ+(賣(mài)的價(jià)格)以及微電網(wǎng)用戶和發(fā)電廠PP之間的交易價(jià)格ρp-(買(mǎi)的價(jià)格)、ρp+(賣(mài)的價(jià)格);
微電網(wǎng)用戶MG最大儲(chǔ)能值E和一次交易的最大交易值M;
微電網(wǎng)各電能值的增益g;
2)微電網(wǎng)用戶MGx初始化學(xué)習(xí)因子γ、折扣因子β和最大時(shí)隙m,選擇最優(yōu)動(dòng)作的概率p,設(shè)置Q值表、V值表值為0;
3)微電網(wǎng)用戶MGx在k時(shí)隙的狀態(tài)s,并根據(jù)Q值表,選擇最優(yōu)行為ax;
4)微電網(wǎng)用戶MGy在k時(shí)隙的狀態(tài)s,根據(jù)greedy策略選擇可行交易行為下所能達(dá)到最大效益值的行為ay;
5)微電網(wǎng)用戶MGx觀察其他微電網(wǎng)用戶當(dāng)前時(shí)隙所采用行為ay,結(jié)合自身的行為ax與MGy進(jìn)行交易,并計(jì)算本次信息傳輸?shù)募磿r(shí)回報(bào)ux;
6)更新微電網(wǎng)用戶MGx的狀態(tài)以及強(qiáng)化學(xué)習(xí)下Q學(xué)習(xí)算法的Q值表、V值表;
7)微電網(wǎng)用戶MGx重復(fù)步驟3)-6),直到找到最優(yōu)策略。
在步驟1)中,所述N可為3,3個(gè)微電網(wǎng)用戶分兩類:采用強(qiáng)化學(xué)習(xí)下Q學(xué)習(xí)方法的微電網(wǎng)用戶MGx和其他2個(gè)用戶(統(tǒng)稱為用戶MGy),發(fā)電廠PP無(wú)論何時(shí)都可與微電網(wǎng)進(jìn)行交易,為促進(jìn)微電網(wǎng)用戶MG之間進(jìn)行交易,設(shè)置即能保證優(yōu)先與MGy進(jìn)行交易,在MGy不可用情況下與PP交易;所述微電網(wǎng)用戶MG最大儲(chǔ)能值E和最大交易值M分別為E=10,M=2,各個(gè)電量值增益g=[1,2.25,4,4.15,4.25,4.35,4.45,4.55,5.26,6.65]表示電量值變化,采取的交易值a具體含義如下公式所示:
在步驟2)中,所述Q值表是一個(gè)二維矩陣Q(Sx,Ax),其中Sx是一個(gè)非空集合,表示微電網(wǎng)用戶MGx的所有可能狀態(tài)集合,Ax表示MGx所有可能行為的集合;所述V值表是一個(gè)一維向量,表示在每個(gè)狀態(tài)sx∈S下的最大Q值,即
在步驟3)中,所述狀態(tài)sx包括MGx當(dāng)前電量值以及觀察到MGy采取的動(dòng)作ay,即微電網(wǎng)MGx的狀態(tài)sx=(Storex,ay),Storex∈Store={1,...,E},采取的動(dòng)作即交易值ay∈Ay,Ay表示MGy所有可能行為的集合;所述最優(yōu)行為表示的是在當(dāng)前狀態(tài)sx下,按照使得值函數(shù)Q(sx,ax)最大的行為ax,即ax∈Ax。
在步驟4)中,所述可行交易行為是指當(dāng)前狀態(tài)下MGy根據(jù)greedy策略和最優(yōu)選擇概率p選擇所有可行動(dòng)作值中所達(dá)到最大效益值的動(dòng)作ay。
在步驟5)中,所述即時(shí)回報(bào)ux包括MG之間或者M(jìn)G與PP之間的交易獲益Ct、MGx一次交易的增益差值Δg以及是否滿足正常供電要求的獎(jiǎng)懲Cn,如下公式所示:
ux(ax,ay)=Δg+Ct+Cn,其中Δg=g(sx+ax)-g(sx)
上式中Stemp表示微電網(wǎng)MG當(dāng)前的存儲(chǔ)的電量值,Use_need表示每時(shí)隙正常需求量,能夠滿足則給獎(jiǎng)勵(lì),否則進(jìn)行懲罰。
在步驟6)中,Q學(xué)習(xí)算法的Q值表、V值表更新算法表示如下:
Q(Sxk,Axk)=(1-γ)Q(Sxk,Axk)+γ(ux+βV(Sxk+1))
在步驟7)中,所述最優(yōu)策略指的是每個(gè)狀態(tài)下,使得累計(jì)回報(bào)函數(shù)最大化。
與已有的微電網(wǎng)交易方法不同,本發(fā)明基于強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)交易控制,從而達(dá)到電能交換的目的。該方法中微電網(wǎng)通過(guò)不斷學(xué)習(xí)環(huán)境,決定是否與其他微電網(wǎng)交易及交易量,隨著迭代學(xué)習(xí)的延續(xù),最終使得自身的收益最大化。
與現(xiàn)有的方法(指背景技術(shù)中所述方法)不同,本發(fā)明的目的在于解決微電網(wǎng)電能交易控制的問(wèn)題,提供一種基于強(qiáng)化學(xué)習(xí)的微電網(wǎng)電能交易系統(tǒng)。根據(jù)其他微電網(wǎng)和發(fā)電廠的電能交易值以及自身的儲(chǔ)電量等信息,采用強(qiáng)化學(xué)習(xí)算法,選擇每次交易的最優(yōu)電能值。微電網(wǎng)根據(jù)每次交易的即時(shí)回報(bào)進(jìn)行信息更新,并對(duì)下一次交易策略做出不同的調(diào)整。該方法不需預(yù)測(cè)周邊各微電網(wǎng)的耗電模型和產(chǎn)電模式,可適應(yīng)動(dòng)態(tài)智能電網(wǎng)場(chǎng)景,通過(guò)智能學(xué)習(xí)獲取最優(yōu)的電量買(mǎi)賣(mài)值,從而提高微電網(wǎng)整體效益和電能利用率,并降低對(duì)電廠總體電能需求。
具體實(shí)施方式
1)設(shè)置3個(gè)微電網(wǎng)用戶MG,一個(gè)發(fā)電廠PP,微電網(wǎng)用戶之間的交易價(jià)格ρ-(買(mǎi)的價(jià)格)、ρ+(賣(mài)的價(jià)格)以及微電網(wǎng)用戶和發(fā)電廠PP之間的交易價(jià)格(買(mǎi)的價(jià)格)、(賣(mài)的價(jià)格),設(shè)置微電網(wǎng)用戶MG最大儲(chǔ)能值E和一次交易的最大交易值M,微電網(wǎng)各電能值的增益g;
2)微電網(wǎng)用戶MGx初始化學(xué)習(xí)因子γ、折扣因子β和最大時(shí)隙m,選擇最優(yōu)動(dòng)作的概率p,設(shè)置Q值表、V值表值為0;
3)微電網(wǎng)用戶MGy在k時(shí)隙的狀態(tài)根據(jù)greedy策略選擇可行交易行為下所能達(dá)到最大效益值的行為ay;
4)微電網(wǎng)用戶MGx在k時(shí)隙觀察當(dāng)前狀態(tài)并根據(jù)Q值表,選擇此狀態(tài)下最優(yōu)行為ax;
5)微電網(wǎng)用戶MGx觀察其他微電網(wǎng)用戶當(dāng)前時(shí)隙所采用行為ay,結(jié)合自身的行為ax與MGy進(jìn)行交易,并計(jì)算交易之后的即時(shí)回報(bào)ux:ux(ax,ay)=Δg+Ct+Cn;
6)微電網(wǎng)用戶MGx觀察下一個(gè)時(shí)隙狀態(tài)sxk+1;
7)微電網(wǎng)用戶更新Q值表和V值表:
8)當(dāng)前時(shí)隙k=k+1;
9)判斷當(dāng)前時(shí)隙k是否已是Q學(xué)習(xí)的最大時(shí)隙m,若是,則結(jié)束學(xué)習(xí),否則重復(fù)2)-9)。
本發(fā)明涉及微電網(wǎng)電能交易系統(tǒng),屬于智能電網(wǎng)領(lǐng)域。本發(fā)明目的在于解決微電網(wǎng)電能交易控制的問(wèn)題,提供一種基于強(qiáng)化學(xué)習(xí)的微電網(wǎng)電能交易系統(tǒng)。根據(jù)其他微電網(wǎng)和發(fā)電廠的電能交易值以及自身的儲(chǔ)電量等信息,采用強(qiáng)化學(xué)習(xí)算法,選擇每次交易的最優(yōu)電能值。微電網(wǎng)根據(jù)每次交易的即時(shí)回報(bào)進(jìn)行信息更新,并對(duì)下一次交易策略做出不同的調(diào)整。該方法不需預(yù)測(cè)周邊各微電網(wǎng)的耗電模型和產(chǎn)電模式,可適應(yīng)動(dòng)態(tài)智能電網(wǎng)場(chǎng)景,通過(guò)智能學(xué)習(xí)獲取最優(yōu)的電量買(mǎi)賣(mài)值,從而提高微電網(wǎng)整體效益和電能利用率,并降低對(duì)電廠總體電能需求。