亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于Q學(xué)習(xí)的戶(hù)用微電網(wǎng)能量?jī)?yōu)化方法與流程

文檔序號(hào):12181350閱讀:來(lái)源:國(guó)知局

技術(shù)特征:

1.一種基于Q學(xué)習(xí)的戶(hù)用微電網(wǎng)能量?jī)?yōu)化方法,其特征在于:包括步驟:

步驟(1):在所述戶(hù)用微電網(wǎng)系統(tǒng)中配備光伏發(fā)電系統(tǒng)以及儲(chǔ)能設(shè)備;將所述戶(hù)用微電網(wǎng)中負(fù)荷分為可平移負(fù)荷、可削減負(fù)荷和不可控負(fù)荷三類(lèi);

步驟(2):對(duì)所述戶(hù)用微電網(wǎng)當(dāng)前場(chǎng)景空調(diào)工作時(shí)的室內(nèi)外溫度及功率歷史數(shù)據(jù)進(jìn)行實(shí)時(shí)采樣,通過(guò)遺傳算法對(duì)歷史數(shù)據(jù)擬合得到適合當(dāng)前建筑物的熱力學(xué)模型,同時(shí)對(duì)歷史數(shù)據(jù)進(jìn)行離線訓(xùn)練通過(guò)預(yù)學(xué)習(xí)獲得初始Q矩陣;

步驟(3):根據(jù)步驟(2)得到的空調(diào)熱力學(xué)模型、步驟(1)中儲(chǔ)能設(shè)備的儲(chǔ)能模型以及負(fù)荷的可平移負(fù)荷模型在日前階段由用戶(hù)選擇需要的能量管理模式,以用電成本與舒適度為目標(biāo),以功率平衡約束與交互點(diǎn)功率限制作為約束條件,計(jì)算得出室內(nèi)溫度、儲(chǔ)能的工作指令以及可平移負(fù)荷優(yōu)化結(jié)果;

步驟(4):Q矩陣根據(jù)室外溫度及房屋內(nèi)部人員、環(huán)境的變化,不停地在線學(xué)習(xí)并實(shí)時(shí)更新;根據(jù)步驟(3)下發(fā)可平移負(fù)荷及儲(chǔ)能的工作指令,空調(diào)根據(jù)步驟(3)得到的室內(nèi)溫度優(yōu)化結(jié)果在日內(nèi)階段根據(jù)在線更新的Q矩陣修正后下發(fā)設(shè)置溫度,從而實(shí)現(xiàn)戶(hù)用微電網(wǎng)的能量?jī)?yōu)化。

2.根據(jù)權(quán)利要求1所述的戶(hù)用微電網(wǎng)能量?jī)?yōu)化方法,其特征在于:所述步驟(2)得到的熱力學(xué)模型具體如下:

目前空調(diào)所屬建筑物熱力學(xué)模型等效熱參數(shù)模型以制冷時(shí):

<mrow> <msub> <mi>T</mi> <mrow> <mi>i</mi> <mi>n</mi> <mo>,</mo> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>=</mo> <msup> <mi>e</mi> <mfrac> <mrow> <mo>-</mo> <mi>&Delta;</mi> <mi>t</mi> </mrow> <mrow> <mi>R</mi> <mi>C</mi> </mrow> </mfrac> </msup> <msub> <mi>T</mi> <mrow> <mi>i</mi> <mi>n</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>-</mo> <mi>R</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>e</mi> <mfrac> <mrow> <mo>-</mo> <mi>&Delta;</mi> <mi>t</mi> </mrow> <mrow> <mi>R</mi> <mi>C</mi> </mrow> </mfrac> </msup> <mo>)</mo> </mrow> <msub> <mi>Q</mi> <mrow> <mi>a</mi> <mi>i</mi> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>e</mi> <mfrac> <mrow> <mo>-</mo> <mi>&Delta;</mi> <mi>t</mi> </mrow> <mrow> <mi>R</mi> <mi>C</mi> </mrow> </mfrac> </msup> <mo>)</mo> </mrow> <msub> <mi>T</mi> <mrow> <mi>o</mi> <mi>u</mi> <mi>t</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> </mrow>

其中,Tin,t表示t時(shí)刻室內(nèi)溫度,Tout,t表示t時(shí)刻室外溫度,Δt為時(shí)間間隔,C表示房間的熱容量,R表示房間熱阻,Qair,t表示t時(shí)刻空調(diào)的制熱量,可表示為:

Qair,t=COPair,t·Pair,t

其中,COPair,t為空調(diào)能效比,即空調(diào)制熱量與功率之間的定量關(guān)系,對(duì)定頻空調(diào),COPair,t為固定常數(shù);對(duì)變頻空調(diào),COPair,t隨空調(diào)壓縮機(jī)頻率變化而變化;

對(duì)于定頻空調(diào),得到目標(biāo)函數(shù)為:

<mrow> <mi>f</mi> <mo>=</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>{</mo> <msub> <mi>T</mi> <mrow> <mi>i</mi> <mi>n</mi> <mo>,</mo> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>-</mo> <mo>&lsqb;</mo> <msup> <mi>e</mi> <mfrac> <mrow> <mo>-</mo> <mi>&Delta;</mi> <mi>t</mi> </mrow> <mrow> <mi>R</mi> <mi>C</mi> </mrow> </mfrac> </msup> <msub> <mi>T</mi> <mrow> <mi>i</mi> <mi>n</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>e</mi> <mfrac> <mrow> <mo>-</mo> <mi>&Delta;</mi> <mi>t</mi> </mrow> <mrow> <mi>R</mi> <mi>C</mi> </mrow> </mfrac> </msup> <mo>)</mo> </mrow> <msub> <mi>T</mi> <mrow> <mi>o</mi> <mi>u</mi> <mi>t</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>-</mo> <mi>C</mi> <mi>O</mi> <mi>P</mi> <mo>&CenterDot;</mo> <mi>R</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>e</mi> <mfrac> <mrow> <mo>-</mo> <mi>&Delta;</mi> <mi>t</mi> </mrow> <mrow> <mi>R</mi> <mi>C</mi> </mrow> </mfrac> </msup> <mo>)</mo> </mrow> <msub> <mi>P</mi> <mrow> <mi>a</mi> <mi>i</mi> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>&rsqb;</mo> <mo>}</mo> </mrow> <mn>2</mn> </msup> </mrow>

其中,Tin,t表示t時(shí)刻室內(nèi)溫度,Tout,t表示t時(shí)刻室外溫度,Δt為時(shí)間間隔,C表示房間的熱容量,R表示房間熱阻,Pair,t表示空調(diào)功率,歷史數(shù)據(jù)個(gè)數(shù)為n;

對(duì)于變頻空調(diào),得到目標(biāo)函數(shù)為:

<mrow> <mi>f</mi> <mo>=</mo> <mi>min</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>{</mo> <msub> <mi>T</mi> <mrow> <mi>i</mi> <mi>n</mi> <mo>,</mo> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>-</mo> <mo>&lsqb;</mo> <msup> <mi>e</mi> <mfrac> <mrow> <mo>-</mo> <mi>&Delta;</mi> <mi>t</mi> </mrow> <mrow> <mi>R</mi> <mi>C</mi> </mrow> </mfrac> </msup> <msub> <mi>T</mi> <mrow> <mi>i</mi> <mi>n</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>e</mi> <mfrac> <mrow> <mo>-</mo> <mi>&Delta;</mi> <mi>t</mi> </mrow> <mrow> <mi>R</mi> <mi>C</mi> </mrow> </mfrac> </msup> <mo>)</mo> </mrow> <msub> <mi>T</mi> <mrow> <mi>o</mi> <mi>u</mi> <mi>t</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>-</mo> <mrow> <mo>(</mo> <msub> <mi>k</mi> <mn>1</mn> </msub> <mo>&CenterDot;</mo> <msub> <mi>P</mi> <mrow> <mi>a</mi> <mi>i</mi> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>k</mi> <mn>2</mn> </msub> <mo>&CenterDot;</mo> <mfrac> <mn>1</mn> <msub> <mi>P</mi> <mrow> <mi>a</mi> <mi>i</mi> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> </mfrac> <mo>+</mo> <msub> <mi>k</mi> <mn>3</mn> </msub> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mi>R</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>e</mi> <mfrac> <mrow> <mo>-</mo> <mi>&Delta;</mi> <mi>t</mi> </mrow> <mrow> <mi>R</mi> <mi>C</mi> </mrow> </mfrac> </msup> <mo>)</mo> </mrow> <msub> <mi>P</mi> <mrow> <mi>a</mi> <mi>i</mi> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>&rsqb;</mo> <mo>}</mo> </mrow> <mn>2</mn> </msup> <mo>.</mo> </mrow>

3.根據(jù)權(quán)利要求1所述的戶(hù)用微電網(wǎng)能量?jī)?yōu)化方法,其特征在于:所述儲(chǔ)能模型包含運(yùn)行成本模型與充放電約束兩個(gè)部分;

運(yùn)行成本模型:計(jì)算儲(chǔ)能在t時(shí)段的運(yùn)行費(fèi)用為:

<mrow> <msub> <mi>F</mi> <mrow> <mi>e</mi> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msup> <msub> <mi>&alpha;P</mi> <mi>B</mi> </msub> <mn>2</mn> </msup> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mi>&Delta;</mi> <mi>t</mi> <mrow> <mo>(</mo> <mo>-</mo> <msub> <mi>P</mi> <mrow> <mi>c</mi> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> <mo>&le;</mo> <msub> <mi>P</mi> <mi>B</mi> </msub> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>&le;</mo> <msub> <mi>P</mi> <mrow> <mi>d</mi> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> <mo>)</mo> </mrow>

其中:Pcmax和Pdmax分別為儲(chǔ)能充電、放電最大功率,均為正值;PB(t)為t時(shí)間段儲(chǔ)能的充放電功率,正值表示放電,負(fù)值表示充電;對(duì)能量?jī)?yōu)化而言,在一個(gè)調(diào)度周期內(nèi)認(rèn)為設(shè)備的功率為常數(shù),功率值取其在該周期內(nèi)的平均功率;

充放電約束:

其中,SOCmax和SOCmin分別為儲(chǔ)能單元荷電狀態(tài)上、下限值;ΔSOCmax(t)和ΔSOCmin(t)分別為t時(shí)間段儲(chǔ)能單元荷電狀態(tài)變化量上下限值;Pcmax和Pdmax分別為儲(chǔ)能充電、放電最大功率,均為正值;PB(t)為t時(shí)間段儲(chǔ)能的充放電功率,正值表示放電,負(fù)值表示充電。

4.根據(jù)權(quán)利要求1所述的戶(hù)用微電網(wǎng)能量?jī)?yōu)化方法,其特征在于:所述可平移負(fù)荷模型為:

可平移負(fù)荷i的實(shí)際工作功率Psli(t)為:

Psli(t)=xsli(t)PNsli

其中,PNsli表示可平移負(fù)荷i的額定功率,xsli(t)表示可平移負(fù)荷i的工作狀態(tài),其值為1表示可平移負(fù)荷運(yùn)行,為0表示可平移負(fù)荷停運(yùn);

可平移負(fù)荷需要滿(mǎn)足約束條件:

<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <msub> <mi>T</mi> <mrow> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mi>a</mi> <mi>r</mi> <mi>t</mi> </mrow> </msub> </mrow> <msub> <mi>T</mi> <mrow> <mi>i</mi> <mi>f</mi> <mi>i</mi> <mi>n</mi> <mi>i</mi> <mi>s</mi> <mi>h</mi> </mrow> </msub> </munderover> <msub> <mi>x</mi> <mrow> <mi>s</mi> <mi>l</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>T</mi> <mrow> <mi>s</mi> <mi>l</mi> <mi>i</mi> </mrow> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>T</mi> <mrow> <mi>i</mi> <mi>f</mi> <mi>i</mi> <mi>n</mi> <mi>i</mi> <mi>s</mi> <mi>h</mi> </mrow> </msub> </munderover> <msub> <mi>x</mi> <mrow> <mi>s</mi> <mi>l</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <msub> <mi>T</mi> <mrow> <mi>s</mi> <mi>l</mi> <mi>i</mi> </mrow> </msub> <mo>&lsqb;</mo> <msub> <mi>x</mi> <mrow> <mi>s</mi> <mi>l</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>x</mi> <mrow> <mi>s</mi> <mi>l</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow> </mtd> </mtr> </mtable> </mfenced>

其中,Tistart、Tifinish、Tsli分別表示可平移負(fù)荷i的最早啟動(dòng)時(shí)間、最遲停止時(shí)間和連續(xù)運(yùn)行時(shí)長(zhǎng),該約束表示可平移負(fù)荷工作時(shí)長(zhǎng)滿(mǎn)足要求并且工作不可中斷。

5.根據(jù)權(quán)利要求1所述的戶(hù)用微電網(wǎng)能量?jī)?yōu)化方法,其特征在于:所述優(yōu)化目標(biāo)具體為:

<mrow> <mi>F</mi> <mo>=</mo> <mi>min</mi> <mi>&alpha;</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mo>&lsqb;</mo> <msub> <mi>F</mi> <mrow> <mi>s</mi> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>F</mi> <mrow> <mi>e</mi> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>+</mo> <mi>&beta;</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msup> <mrow> <mo>&lsqb;</mo> <mi>T</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>T</mi> <mrow> <mi>b</mi> <mi>e</mi> <mi>s</mi> <mi>t</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow> <mn>2</mn> </msup> </mrow>

其中,F(xiàn)表示系統(tǒng)全天用電成本;N為一天劃分時(shí)間段數(shù);Fss(t)為t時(shí)間段的購(gòu)售電費(fèi)用;α、β分別為用電成本與用戶(hù)舒適度的權(quán)重系數(shù);

所述購(gòu)售電費(fèi)用為微電網(wǎng)與上級(jí)電網(wǎng)進(jìn)行功率交互時(shí)產(chǎn)生的費(fèi)用或收益:

FSS(t)=c(t)Pcc(t)Δt

<mrow> <mi>c</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mi>e</mi> <mi>l</mi> <mi>l</mi> <mo>_</mo> <mi>p</mi> <mi>r</mi> <mi>i</mi> <mi>c</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>P</mi> <mrow> <mi>C</mi> <mi>C</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>&lt;</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>b</mi> <mi>u</mi> <mi>y</mi> <mo>_</mo> <mi>p</mi> <mi>r</mi> <mi>i</mi> <mi>c</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>P</mi> <mrow> <mi>C</mi> <mi>C</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

其中,PCC(t)為t時(shí)間段聯(lián)絡(luò)線功率,正值表示從電網(wǎng)購(gòu)電,負(fù)值表示向電網(wǎng)售電;Δt為一個(gè)調(diào)度周期的時(shí)長(zhǎng);c(t)、sell_price(t)、buy_price(t)分別為t時(shí)間段購(gòu)售電價(jià)、售電價(jià)格、購(gòu)電價(jià)格。

6.根據(jù)權(quán)利要求1所述的戶(hù)用微電網(wǎng)能量?jī)?yōu)化方法,其特征在于:所述用戶(hù)選擇需要的能量管理模式包括用電成本優(yōu)化模式、用戶(hù)舒適度優(yōu)化模式和綜合優(yōu)化模式;由用戶(hù)根據(jù)自身需求選擇對(duì)應(yīng)的能量管理模式,確定優(yōu)化目標(biāo)中用電成本與用戶(hù)舒適度的比重,得出適應(yīng)不同用戶(hù)需求的戶(hù)用微電網(wǎng)日前計(jì)劃。

7.根據(jù)權(quán)利要求1所述的戶(hù)用微電網(wǎng)能量?jī)?yōu)化方法,其特征在于:所述Q學(xué)習(xí)算法具體為:

假設(shè)狀態(tài)集和動(dòng)作集分別劃分為M和N個(gè)離散區(qū)間,則將每個(gè)狀態(tài)—?jiǎng)幼鲗?duì)的評(píng)價(jià)值Q(s,a)建立為一個(gè)M*N階的Q矩陣,其公式如下:

<mrow> <msup> <mi>Q</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>Q</mi> <mi>k</mi> </msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&alpha;</mi> <mo>&lsqb;</mo> <mi>R</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&gamma;</mi> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <msup> <mi>a</mi> <mo>&prime;</mo> </msup> <mo>&Element;</mo> <mi>A</mi> </mrow> </munder> <msup> <mi>Q</mi> <mi>k</mi> </msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msup> <mi>a</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <mo>-</mo> <msup> <mi>Q</mi> <mi>k</mi> </msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow>

式中,α為學(xué)習(xí)率,a'為在狀態(tài)s下可執(zhí)行的所有動(dòng)作;Q(s,a)的值是從狀態(tài)s執(zhí)行動(dòng)作a后獲得的累計(jì)回報(bào)值;

在每個(gè)時(shí)刻t,根據(jù)環(huán)境狀態(tài)s選擇對(duì)應(yīng)Q值最大的動(dòng)作a,并觀察瞬時(shí)獎(jiǎng)賞r和新?tīng)顟B(tài)s’,并更新Q值,其基本形式:

<mrow> <msup> <mi>Q</mi> <mo>*</mo> </msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>R</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <msup> <mi>s</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>&gamma;</mi> <munder> <mo>&Sigma;</mo> <mrow> <msup> <mi>s</mi> <mo>&prime;</mo> </msup> <mo>&Element;</mo> <mi>S</mi> </mrow> </munder> <mi>P</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>,</mo> <msup> <mi>s</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>a</mi> <mo>&Element;</mo> <mi>A</mi> </mrow> </munder> <msup> <mi>Q</mi> <mo>*</mo> </msup> <mrow> <mo>(</mo> <msup> <mi>s</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> </mrow>

式中,s為當(dāng)前狀態(tài),s'為下一時(shí)刻環(huán)境狀態(tài),Q*(s,a)表示在狀態(tài)s下執(zhí)行動(dòng)作a獲得的回報(bào)總和,P(s,a,s')為執(zhí)行動(dòng)作a后狀態(tài)從s轉(zhuǎn)換到s’的概率,R(s,s',a)為從s狀態(tài)選擇動(dòng)作a后轉(zhuǎn)換到s’后獲得的獎(jiǎng)勵(lì),γ為折扣因子,S為環(huán)境狀態(tài)集,A為控制器動(dòng)作集;

采用室內(nèi)溫度與目標(biāo)溫度Tgoal的偏差ΔT作為Q學(xué)習(xí)輸入的環(huán)境狀態(tài)變量,其中Tgoal根據(jù)日前能量管理優(yōu)化得出;將室內(nèi)溫度偏差ΔT劃分為一系列離散區(qū)間{ΔT1,ΔT2,…ΔTm},對(duì)應(yīng)環(huán)境狀態(tài)集;將室內(nèi)溫度的控制目標(biāo)設(shè)置為T(mén)goal±0.5℃,將狀態(tài)集ΔT設(shè)定為:{(-∞,-3],(-3,-2],(-2,-1],(-1,0.5],(-0.5,0],(0,0.5],(0.5,1],(1,2],(2,3],(3,+∞)};

獎(jiǎng)勵(lì)函數(shù)定義為:

當(dāng)室內(nèi)溫度偏差|ΔT|>0.5℃時(shí),根據(jù)不同偏差大小,學(xué)習(xí)將獲得不同程度的懲罰,偏差越大,受到的懲罰越大,則經(jīng)過(guò)迭代后獲得的Q值越小,此后選擇此動(dòng)作的概率越小。

當(dāng)前第2頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1