1.一種基于Q學(xué)習(xí)的戶(hù)用微電網(wǎng)能量?jī)?yōu)化方法,其特征在于:包括步驟:
步驟(1):在所述戶(hù)用微電網(wǎng)系統(tǒng)中配備光伏發(fā)電系統(tǒng)以及儲(chǔ)能設(shè)備;將所述戶(hù)用微電網(wǎng)中負(fù)荷分為可平移負(fù)荷、可削減負(fù)荷和不可控負(fù)荷三類(lèi);
步驟(2):對(duì)所述戶(hù)用微電網(wǎng)當(dāng)前場(chǎng)景空調(diào)工作時(shí)的室內(nèi)外溫度及功率歷史數(shù)據(jù)進(jìn)行實(shí)時(shí)采樣,通過(guò)遺傳算法對(duì)歷史數(shù)據(jù)擬合得到適合當(dāng)前建筑物的熱力學(xué)模型,同時(shí)對(duì)歷史數(shù)據(jù)進(jìn)行離線訓(xùn)練通過(guò)預(yù)學(xué)習(xí)獲得初始Q矩陣;
步驟(3):根據(jù)步驟(2)得到的空調(diào)熱力學(xué)模型、步驟(1)中儲(chǔ)能設(shè)備的儲(chǔ)能模型以及負(fù)荷的可平移負(fù)荷模型在日前階段由用戶(hù)選擇需要的能量管理模式,以用電成本與舒適度為目標(biāo),以功率平衡約束與交互點(diǎn)功率限制作為約束條件,計(jì)算得出室內(nèi)溫度、儲(chǔ)能的工作指令以及可平移負(fù)荷優(yōu)化結(jié)果;
步驟(4):Q矩陣根據(jù)室外溫度及房屋內(nèi)部人員、環(huán)境的變化,不停地在線學(xué)習(xí)并實(shí)時(shí)更新;根據(jù)步驟(3)下發(fā)可平移負(fù)荷及儲(chǔ)能的工作指令,空調(diào)根據(jù)步驟(3)得到的室內(nèi)溫度優(yōu)化結(jié)果在日內(nèi)階段根據(jù)在線更新的Q矩陣修正后下發(fā)設(shè)置溫度,從而實(shí)現(xiàn)戶(hù)用微電網(wǎng)的能量?jī)?yōu)化。
2.根據(jù)權(quán)利要求1所述的戶(hù)用微電網(wǎng)能量?jī)?yōu)化方法,其特征在于:所述步驟(2)得到的熱力學(xué)模型具體如下:
目前空調(diào)所屬建筑物熱力學(xué)模型等效熱參數(shù)模型以制冷時(shí):
其中,Tin,t表示t時(shí)刻室內(nèi)溫度,Tout,t表示t時(shí)刻室外溫度,Δt為時(shí)間間隔,C表示房間的熱容量,R表示房間熱阻,Qair,t表示t時(shí)刻空調(diào)的制熱量,可表示為:
Qair,t=COPair,t·Pair,t
其中,COPair,t為空調(diào)能效比,即空調(diào)制熱量與功率之間的定量關(guān)系,對(duì)定頻空調(diào),COPair,t為固定常數(shù);對(duì)變頻空調(diào),COPair,t隨空調(diào)壓縮機(jī)頻率變化而變化;
對(duì)于定頻空調(diào),得到目標(biāo)函數(shù)為:
其中,Tin,t表示t時(shí)刻室內(nèi)溫度,Tout,t表示t時(shí)刻室外溫度,Δt為時(shí)間間隔,C表示房間的熱容量,R表示房間熱阻,Pair,t表示空調(diào)功率,歷史數(shù)據(jù)個(gè)數(shù)為n;
對(duì)于變頻空調(diào),得到目標(biāo)函數(shù)為:
3.根據(jù)權(quán)利要求1所述的戶(hù)用微電網(wǎng)能量?jī)?yōu)化方法,其特征在于:所述儲(chǔ)能模型包含運(yùn)行成本模型與充放電約束兩個(gè)部分;
運(yùn)行成本模型:計(jì)算儲(chǔ)能在t時(shí)段的運(yùn)行費(fèi)用為:
其中:Pcmax和Pdmax分別為儲(chǔ)能充電、放電最大功率,均為正值;PB(t)為t時(shí)間段儲(chǔ)能的充放電功率,正值表示放電,負(fù)值表示充電;對(duì)能量?jī)?yōu)化而言,在一個(gè)調(diào)度周期內(nèi)認(rèn)為設(shè)備的功率為常數(shù),功率值取其在該周期內(nèi)的平均功率;
充放電約束:
其中,SOCmax和SOCmin分別為儲(chǔ)能單元荷電狀態(tài)上、下限值;ΔSOCmax(t)和ΔSOCmin(t)分別為t時(shí)間段儲(chǔ)能單元荷電狀態(tài)變化量上下限值;Pcmax和Pdmax分別為儲(chǔ)能充電、放電最大功率,均為正值;PB(t)為t時(shí)間段儲(chǔ)能的充放電功率,正值表示放電,負(fù)值表示充電。
4.根據(jù)權(quán)利要求1所述的戶(hù)用微電網(wǎng)能量?jī)?yōu)化方法,其特征在于:所述可平移負(fù)荷模型為:
可平移負(fù)荷i的實(shí)際工作功率Psli(t)為:
Psli(t)=xsli(t)PNsli
其中,PNsli表示可平移負(fù)荷i的額定功率,xsli(t)表示可平移負(fù)荷i的工作狀態(tài),其值為1表示可平移負(fù)荷運(yùn)行,為0表示可平移負(fù)荷停運(yùn);
可平移負(fù)荷需要滿(mǎn)足約束條件:
其中,Tistart、Tifinish、Tsli分別表示可平移負(fù)荷i的最早啟動(dòng)時(shí)間、最遲停止時(shí)間和連續(xù)運(yùn)行時(shí)長(zhǎng),該約束表示可平移負(fù)荷工作時(shí)長(zhǎng)滿(mǎn)足要求并且工作不可中斷。
5.根據(jù)權(quán)利要求1所述的戶(hù)用微電網(wǎng)能量?jī)?yōu)化方法,其特征在于:所述優(yōu)化目標(biāo)具體為:
其中,F(xiàn)表示系統(tǒng)全天用電成本;N為一天劃分時(shí)間段數(shù);Fss(t)為t時(shí)間段的購(gòu)售電費(fèi)用;α、β分別為用電成本與用戶(hù)舒適度的權(quán)重系數(shù);
所述購(gòu)售電費(fèi)用為微電網(wǎng)與上級(jí)電網(wǎng)進(jìn)行功率交互時(shí)產(chǎn)生的費(fèi)用或收益:
FSS(t)=c(t)Pcc(t)Δt
其中,PCC(t)為t時(shí)間段聯(lián)絡(luò)線功率,正值表示從電網(wǎng)購(gòu)電,負(fù)值表示向電網(wǎng)售電;Δt為一個(gè)調(diào)度周期的時(shí)長(zhǎng);c(t)、sell_price(t)、buy_price(t)分別為t時(shí)間段購(gòu)售電價(jià)、售電價(jià)格、購(gòu)電價(jià)格。
6.根據(jù)權(quán)利要求1所述的戶(hù)用微電網(wǎng)能量?jī)?yōu)化方法,其特征在于:所述用戶(hù)選擇需要的能量管理模式包括用電成本優(yōu)化模式、用戶(hù)舒適度優(yōu)化模式和綜合優(yōu)化模式;由用戶(hù)根據(jù)自身需求選擇對(duì)應(yīng)的能量管理模式,確定優(yōu)化目標(biāo)中用電成本與用戶(hù)舒適度的比重,得出適應(yīng)不同用戶(hù)需求的戶(hù)用微電網(wǎng)日前計(jì)劃。
7.根據(jù)權(quán)利要求1所述的戶(hù)用微電網(wǎng)能量?jī)?yōu)化方法,其特征在于:所述Q學(xué)習(xí)算法具體為:
假設(shè)狀態(tài)集和動(dòng)作集分別劃分為M和N個(gè)離散區(qū)間,則將每個(gè)狀態(tài)—?jiǎng)幼鲗?duì)的評(píng)價(jià)值Q(s,a)建立為一個(gè)M*N階的Q矩陣,其公式如下:
式中,α為學(xué)習(xí)率,a'為在狀態(tài)s下可執(zhí)行的所有動(dòng)作;Q(s,a)的值是從狀態(tài)s執(zhí)行動(dòng)作a后獲得的累計(jì)回報(bào)值;
在每個(gè)時(shí)刻t,根據(jù)環(huán)境狀態(tài)s選擇對(duì)應(yīng)Q值最大的動(dòng)作a,并觀察瞬時(shí)獎(jiǎng)賞r和新?tīng)顟B(tài)s’,并更新Q值,其基本形式:
式中,s為當(dāng)前狀態(tài),s'為下一時(shí)刻環(huán)境狀態(tài),Q*(s,a)表示在狀態(tài)s下執(zhí)行動(dòng)作a獲得的回報(bào)總和,P(s,a,s')為執(zhí)行動(dòng)作a后狀態(tài)從s轉(zhuǎn)換到s’的概率,R(s,s',a)為從s狀態(tài)選擇動(dòng)作a后轉(zhuǎn)換到s’后獲得的獎(jiǎng)勵(lì),γ為折扣因子,S為環(huán)境狀態(tài)集,A為控制器動(dòng)作集;
采用室內(nèi)溫度與目標(biāo)溫度Tgoal的偏差ΔT作為Q學(xué)習(xí)輸入的環(huán)境狀態(tài)變量,其中Tgoal根據(jù)日前能量管理優(yōu)化得出;將室內(nèi)溫度偏差ΔT劃分為一系列離散區(qū)間{ΔT1,ΔT2,…ΔTm},對(duì)應(yīng)環(huán)境狀態(tài)集;將室內(nèi)溫度的控制目標(biāo)設(shè)置為T(mén)goal±0.5℃,將狀態(tài)集ΔT設(shè)定為:{(-∞,-3],(-3,-2],(-2,-1],(-1,0.5],(-0.5,0],(0,0.5],(0.5,1],(1,2],(2,3],(3,+∞)};
獎(jiǎng)勵(lì)函數(shù)定義為:
當(dāng)室內(nèi)溫度偏差|ΔT|>0.5℃時(shí),根據(jù)不同偏差大小,學(xué)習(xí)將獲得不同程度的懲罰,偏差越大,受到的懲罰越大,則經(jīng)過(guò)迭代后獲得的Q值越小,此后選擇此動(dòng)作的概率越小。