一種基于Q學(xué)習(xí)的戶(hù)用微電網(wǎng)能量?jī)?yōu)化方法與流程

文檔序號(hào)：12181350閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>發(fā)電;變電;配電裝置的制造技術(shù)>一種基于Q學(xué)習(xí)的戶(hù)用微電網(wǎng)能量?jī)?yōu)化方法與流程

技術(shù)特征：

1.一種基于Q學(xué)習(xí)的戶(hù)用微電網(wǎng)能量?jī)?yōu)化方法，其特征在于：包括步驟：

步驟(1)：在所述戶(hù)用微電網(wǎng)系統(tǒng)中配備光伏發(fā)電系統(tǒng)以及儲(chǔ)能設(shè)備；將所述戶(hù)用微電網(wǎng)中負(fù)荷分為可平移負(fù)荷、可削減負(fù)荷和不可控負(fù)荷三類(lèi)；

步驟(2)：對(duì)所述戶(hù)用微電網(wǎng)當(dāng)前場(chǎng)景空調(diào)工作時(shí)的室內(nèi)外溫度及功率歷史數(shù)據(jù)進(jìn)行實(shí)時(shí)采樣，通過(guò)遺傳算法對(duì)歷史數(shù)據(jù)擬合得到適合當(dāng)前建筑物的熱力學(xué)模型，同時(shí)對(duì)歷史數(shù)據(jù)進(jìn)行離線訓(xùn)練通過(guò)預(yù)學(xué)習(xí)獲得初始Q矩陣；

步驟(3)：根據(jù)步驟(2)得到的空調(diào)熱力學(xué)模型、步驟(1)中儲(chǔ)能設(shè)備的儲(chǔ)能模型以及負(fù)荷的可平移負(fù)荷模型在日前階段由用戶(hù)選擇需要的能量管理模式，以用電成本與舒適度為目標(biāo)，以功率平衡約束與交互點(diǎn)功率限制作為約束條件，計(jì)算得出室內(nèi)溫度、儲(chǔ)能的工作指令以及可平移負(fù)荷優(yōu)化結(jié)果；

步驟(4)：Q矩陣根據(jù)室外溫度及房屋內(nèi)部人員、環(huán)境的變化，不停地在線學(xué)習(xí)并實(shí)時(shí)更新；根據(jù)步驟(3)下發(fā)可平移負(fù)荷及儲(chǔ)能的工作指令，空調(diào)根據(jù)步驟(3)得到的室內(nèi)溫度優(yōu)化結(jié)果在日內(nèi)階段根據(jù)在線更新的Q矩陣修正后下發(fā)設(shè)置溫度，從而實(shí)現(xiàn)戶(hù)用微電網(wǎng)的能量?jī)?yōu)化。

2.根據(jù)權(quán)利要求1所述的戶(hù)用微電網(wǎng)能量?jī)?yōu)化方法，其特征在于：所述步驟(2)得到的熱力學(xué)模型具體如下：

目前空調(diào)所屬建筑物熱力學(xué)模型等效熱參數(shù)模型以制冷時(shí)：

$<mrow> <msub> <mi>T</mi> <mrow> <mi>i</mi> <mi>n</mi> <mo>,</mo> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>=</mo> <msup> <mi>e</mi> <mfrac> <mrow> <mo>-</mo> <mi>Δ</mi> <mi>t</mi> </mrow> <mrow> <mi>R</mi> <mi>C</mi> </mrow> </mfrac> </msup> <msub> <mi>T</mi> <mrow> <mi>i</mi> <mi>n</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>-</mo> <mi>R</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>e</mi> <mfrac> <mrow> <mo>-</mo> <mi>Δ</mi> <mi>t</mi> </mrow> <mrow> <mi>R</mi> <mi>C</mi> </mrow> </mfrac> </msup> <mo>)</mo> </mrow> <msub> <mi>Q</mi> <mrow> <mi>a</mi> <mi>i</mi> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>e</mi> <mfrac> <mrow> <mo>-</mo> <mi>Δ</mi> <mi>t</mi> </mrow> <mrow> <mi>R</mi> <mi>C</mi> </mrow> </mfrac> </msup> <mo>)</mo> </mrow> <msub> <mi>T</mi> <mrow> <mi>o</mi> <mi>u</mi> <mi>t</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> </mrow>$

其中，T_in，t表示t時(shí)刻室內(nèi)溫度，T_out,t表示t時(shí)刻室外溫度，Δt為時(shí)間間隔，C表示房間的熱容量，R表示房間熱阻，Q_air,t表示t時(shí)刻空調(diào)的制熱量，可表示為：

Q_air,t＝COP_air,t·P_air,t

其中，COP_air,t為空調(diào)能效比，即空調(diào)制熱量與功率之間的定量關(guān)系，對(duì)定頻空調(diào)，COP_air,t為固定常數(shù)；對(duì)變頻空調(diào)，COP_air,t隨空調(diào)壓縮機(jī)頻率變化而變化；

對(duì)于定頻空調(diào)，得到目標(biāo)函數(shù)為：

$<mrow> <mi>f</mi> <mo>=</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>{</mo> <msub> <mi>T</mi> <mrow> <mi>i</mi> <mi>n</mi> <mo>,</mo> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>-</mo> <mo>[</mo> <msup> <mi>e</mi> <mfrac> <mrow> <mo>-</mo> <mi>Δ</mi> <mi>t</mi> </mrow> <mrow> <mi>R</mi> <mi>C</mi> </mrow> </mfrac> </msup> <msub> <mi>T</mi> <mrow> <mi>i</mi> <mi>n</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>e</mi> <mfrac> <mrow> <mo>-</mo> <mi>Δ</mi> <mi>t</mi> </mrow> <mrow> <mi>R</mi> <mi>C</mi> </mrow> </mfrac> </msup> <mo>)</mo> </mrow> <msub> <mi>T</mi> <mrow> <mi>o</mi> <mi>u</mi> <mi>t</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>-</mo> <mi>C</mi> <mi>O</mi> <mi>P</mi> <mo>·</mo> <mi>R</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>e</mi> <mfrac> <mrow> <mo>-</mo> <mi>Δ</mi> <mi>t</mi> </mrow> <mrow> <mi>R</mi> <mi>C</mi> </mrow> </mfrac> </msup> <mo>)</mo> </mrow> <msub> <mi>P</mi> <mrow> <mi>a</mi> <mi>i</mi> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>]</mo> <mo>}</mo> </mrow> <mn>2</mn> </msup> </mrow>$

其中，T_in，t表示t時(shí)刻室內(nèi)溫度，T_out,t表示t時(shí)刻室外溫度，Δt為時(shí)間間隔，C表示房間的熱容量，R表示房間熱阻，P_air,t表示空調(diào)功率，歷史數(shù)據(jù)個(gè)數(shù)為n；

對(duì)于變頻空調(diào)，得到目標(biāo)函數(shù)為：

$<mrow> <mi>f</mi> <mo>=</mo> <mi>min</mi> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>{</mo> <msub> <mi>T</mi> <mrow> <mi>i</mi> <mi>n</mi> <mo>,</mo> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>-</mo> <mo>[</mo> <msup> <mi>e</mi> <mfrac> <mrow> <mo>-</mo> <mi>Δ</mi> <mi>t</mi> </mrow> <mrow> <mi>R</mi> <mi>C</mi> </mrow> </mfrac> </msup> <msub> <mi>T</mi> <mrow> <mi>i</mi> <mi>n</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>e</mi> <mfrac> <mrow> <mo>-</mo> <mi>Δ</mi> <mi>t</mi> </mrow> <mrow> <mi>R</mi> <mi>C</mi> </mrow> </mfrac> </msup> <mo>)</mo> </mrow> <msub> <mi>T</mi> <mrow> <mi>o</mi> <mi>u</mi> <mi>t</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>-</mo> <mrow> <mo>(</mo> <msub> <mi>k</mi> <mn>1</mn> </msub> <mo>·</mo> <msub> <mi>P</mi> <mrow> <mi>a</mi> <mi>i</mi> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>k</mi> <mn>2</mn> </msub> <mo>·</mo> <mfrac> <mn>1</mn> <msub> <mi>P</mi> <mrow> <mi>a</mi> <mi>i</mi> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> </mfrac> <mo>+</mo> <msub> <mi>k</mi> <mn>3</mn> </msub> <mo>)</mo> </mrow> <mo>·</mo> <mi>R</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>e</mi> <mfrac> <mrow> <mo>-</mo> <mi>Δ</mi> <mi>t</mi> </mrow> <mrow> <mi>R</mi> <mi>C</mi> </mrow> </mfrac> </msup> <mo>)</mo> </mrow> <msub> <mi>P</mi> <mrow> <mi>a</mi> <mi>i</mi> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>]</mo> <mo>}</mo> </mrow> <mn>2</mn> </msup> <mo>.</mo> </mrow>$

3.根據(jù)權(quán)利要求1所述的戶(hù)用微電網(wǎng)能量?jī)?yōu)化方法，其特征在于：所述儲(chǔ)能模型包含運(yùn)行成本模型與充放電約束兩個(gè)部分；

運(yùn)行成本模型：計(jì)算儲(chǔ)能在t時(shí)段的運(yùn)行費(fèi)用為：

$<mrow> <msub> <mi>F</mi> <mrow> <mi>e</mi> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msup> <msub> <mi>αP</mi> <mi>B</mi> </msub> <mn>2</mn> </msup> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mi>Δ</mi> <mi>t</mi> <mrow> <mo>(</mo> <mo>-</mo> <msub> <mi>P</mi> <mrow> <mi>c</mi> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> <mo>≤</mo> <msub> <mi>P</mi> <mi>B</mi> </msub> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>≤</mo> <msub> <mi>P</mi> <mrow> <mi>d</mi> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> <mo>)</mo> </mrow>$

其中：P_cmax和P_dmax分別為儲(chǔ)能充電、放電最大功率，均為正值；P_B(t)為t時(shí)間段儲(chǔ)能的充放電功率，正值表示放電，負(fù)值表示充電；對(duì)能量?jī)?yōu)化而言，在一個(gè)調(diào)度周期內(nèi)認(rèn)為設(shè)備的功率為常數(shù)，功率值取其在該周期內(nèi)的平均功率；

充放電約束：

其中，SOC_max和SOC_min分別為儲(chǔ)能單元荷電狀態(tài)上、下限值；ΔSOC_max(t)和ΔSOC_min(t)分別為t時(shí)間段儲(chǔ)能單元荷電狀態(tài)變化量上下限值；P_cmax和P_dmax分別為儲(chǔ)能充電、放電最大功率，均為正值；P_B(t)為t時(shí)間段儲(chǔ)能的充放電功率，正值表示放電，負(fù)值表示充電。

4.根據(jù)權(quán)利要求1所述的戶(hù)用微電網(wǎng)能量?jī)?yōu)化方法，其特征在于：所述可平移負(fù)荷模型為：

可平移負(fù)荷i的實(shí)際工作功率P_sli(t)為：

P_sli(t)＝x_sli(t)P_Nsli

其中，P_Nsli表示可平移負(fù)荷i的額定功率，x_sli(t)表示可平移負(fù)荷i的工作狀態(tài)，其值為1表示可平移負(fù)荷運(yùn)行，為0表示可平移負(fù)荷停運(yùn)；

可平移負(fù)荷需要滿(mǎn)足約束條件：

$<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <munderover> <mo>Σ</mo> <mrow> <mi>t</mi> <mo>=</mo> <msub> <mi>T</mi> <mrow> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mi>a</mi> <mi>r</mi> <mi>t</mi> </mrow> </msub> </mrow> <msub> <mi>T</mi> <mrow> <mi>i</mi> <mi>f</mi> <mi>i</mi> <mi>n</mi> <mi>i</mi> <mi>s</mi> <mi>h</mi> </mrow> </msub> </munderover> <msub> <mi>x</mi> <mrow> <mi>s</mi> <mi>l</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>T</mi> <mrow> <mi>s</mi> <mi>l</mi> <mi>i</mi> </mrow> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <munderover> <mo>Σ</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>T</mi> <mrow> <mi>i</mi> <mi>f</mi> <mi>i</mi> <mi>n</mi> <mi>i</mi> <mi>s</mi> <mi>h</mi> </mrow> </msub> </munderover> <msub> <mi>x</mi> <mrow> <mi>s</mi> <mi>l</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <msub> <mi>T</mi> <mrow> <mi>s</mi> <mi>l</mi> <mi>i</mi> </mrow> </msub> <mo>[</mo> <msub> <mi>x</mi> <mrow> <mi>s</mi> <mi>l</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>x</mi> <mrow> <mi>s</mi> <mi>l</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>]</mo> </mrow> </mtd> </mtr> </mtable> </mfenced>$

其中，T_istart、T_ifinish、T_sli分別表示可平移負(fù)荷i的最早啟動(dòng)時(shí)間、最遲停止時(shí)間和連續(xù)運(yùn)行時(shí)長(zhǎng)，該約束表示可平移負(fù)荷工作時(shí)長(zhǎng)滿(mǎn)足要求并且工作不可中斷。

5.根據(jù)權(quán)利要求1所述的戶(hù)用微電網(wǎng)能量?jī)?yōu)化方法，其特征在于：所述優(yōu)化目標(biāo)具體為：

$<mrow> <mi>F</mi> <mo>=</mo> <mi>min</mi> <mi>α</mi> <munderover> <mo>Σ</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mo>[</mo> <msub> <mi>F</mi> <mrow> <mi>s</mi> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>F</mi> <mrow> <mi>e</mi> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>]</mo> <mo>+</mo> <mi>β</mi> <munderover> <mo>Σ</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msup> <mrow> <mo>[</mo> <mi>T</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>T</mi> <mrow> <mi>b</mi> <mi>e</mi> <mi>s</mi> <mi>t</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>]</mo> </mrow> <mn>2</mn> </msup> </mrow>$

其中，F(xiàn)表示系統(tǒng)全天用電成本；N為一天劃分時(shí)間段數(shù)；Fss(t)為t時(shí)間段的購(gòu)售電費(fèi)用；α、β分別為用電成本與用戶(hù)舒適度的權(quán)重系數(shù)；

所述購(gòu)售電費(fèi)用為微電網(wǎng)與上級(jí)電網(wǎng)進(jìn)行功率交互時(shí)產(chǎn)生的費(fèi)用或收益：

F_SS(t)＝c(t)P_cc(t)Δt

$<mrow> <mi>c</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mi>e</mi> <mi>l</mi> <mi>l</mi> <mo>_</mo> <mi>p</mi> <mi>r</mi> <mi>i</mi> <mi>c</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>P</mi> <mrow> <mi>C</mi> <mi>C</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo><</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>b</mi> <mi>u</mi> <mi>y</mi> <mo>_</mo> <mi>p</mi> <mi>r</mi> <mi>i</mi> <mi>c</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>P</mi> <mrow> <mi>C</mi> <mi>C</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>$

其中，P_CC(t)為t時(shí)間段聯(lián)絡(luò)線功率，正值表示從電網(wǎng)購(gòu)電，負(fù)值表示向電網(wǎng)售電；Δt為一個(gè)調(diào)度周期的時(shí)長(zhǎng)；c(t)、sell_price(t)、buy_price(t)分別為t時(shí)間段購(gòu)售電價(jià)、售電價(jià)格、購(gòu)電價(jià)格。

6.根據(jù)權(quán)利要求1所述的戶(hù)用微電網(wǎng)能量?jī)?yōu)化方法，其特征在于：所述用戶(hù)選擇需要的能量管理模式包括用電成本優(yōu)化模式、用戶(hù)舒適度優(yōu)化模式和綜合優(yōu)化模式；由用戶(hù)根據(jù)自身需求選擇對(duì)應(yīng)的能量管理模式，確定優(yōu)化目標(biāo)中用電成本與用戶(hù)舒適度的比重，得出適應(yīng)不同用戶(hù)需求的戶(hù)用微電網(wǎng)日前計(jì)劃。

7.根據(jù)權(quán)利要求1所述的戶(hù)用微電網(wǎng)能量?jī)?yōu)化方法，其特征在于：所述Q學(xué)習(xí)算法具體為：

假設(shè)狀態(tài)集和動(dòng)作集分別劃分為M和N個(gè)離散區(qū)間，則將每個(gè)狀態(tài)—?jiǎng)幼鲗?duì)的評(píng)價(jià)值Q(s,a)建立為一個(gè)M*N階的Q矩陣，其公式如下：

$<mrow> <msup> <mi>Q</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>Q</mi> <mi>k</mi> </msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>α</mi> <mo>[</mo> <mi>R</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>γ</mi> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <msup> <mi>a</mi> <mo>′</mo> </msup> <mo>&Element;</mo> <mi>A</mi> </mrow> </munder> <msup> <mi>Q</mi> <mi>k</mi> </msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msup> <mi>a</mi> <mo>′</mo> </msup> <mo>)</mo> </mrow> <mo>-</mo> <msup> <mi>Q</mi> <mi>k</mi> </msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>]</mo> </mrow>$

式中，α為學(xué)習(xí)率，a'為在狀態(tài)s下可執(zhí)行的所有動(dòng)作；Q(s,a)的值是從狀態(tài)s執(zhí)行動(dòng)作a后獲得的累計(jì)回報(bào)值；

在每個(gè)時(shí)刻t，根據(jù)環(huán)境狀態(tài)s選擇對(duì)應(yīng)Q值最大的動(dòng)作a，并觀察瞬時(shí)獎(jiǎng)賞r和新?tīng)顟B(tài)s’，并更新Q值，其基本形式：

$<mrow> <msup> <mi>Q</mi> <mo>*</mo> </msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>R</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <msup> <mi>s</mi> <mo>′</mo> </msup> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>γ</mi> <munder> <mo>Σ</mo> <mrow> <msup> <mi>s</mi> <mo>′</mo> </msup> <mo>&Element;</mo> <mi>S</mi> </mrow> </munder> <mi>P</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>,</mo> <msup> <mi>s</mi> <mo>′</mo> </msup> <mo>)</mo> </mrow> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>a</mi> <mo>&Element;</mo> <mi>A</mi> </mrow> </munder> <msup> <mi>Q</mi> <mo>*</mo> </msup> <mrow> <mo>(</mo> <msup> <mi>s</mi> <mo>′</mo> </msup> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> </mrow>$

式中，s為當(dāng)前狀態(tài)，s'為下一時(shí)刻環(huán)境狀態(tài)，Q^*(s,a)表示在狀態(tài)s下執(zhí)行動(dòng)作a獲得的回報(bào)總和，P(s,a,s')為執(zhí)行動(dòng)作a后狀態(tài)從s轉(zhuǎn)換到s’的概率，R(s,s',a)為從s狀態(tài)選擇動(dòng)作a后轉(zhuǎn)換到s’后獲得的獎(jiǎng)勵(lì)，γ為折扣因子，S為環(huán)境狀態(tài)集，A為控制器動(dòng)作集；

采用室內(nèi)溫度與目標(biāo)溫度T_goal的偏差ΔT作為Q學(xué)習(xí)輸入的環(huán)境狀態(tài)變量，其中T_goal根據(jù)日前能量管理優(yōu)化得出；將室內(nèi)溫度偏差ΔT劃分為一系列離散區(qū)間{ΔT₁,ΔT₂,…ΔT_m}，對(duì)應(yīng)環(huán)境狀態(tài)集；將室內(nèi)溫度的控制目標(biāo)設(shè)置為T(mén)_goal±0.5℃，將狀態(tài)集ΔT設(shè)定為：{(-∞,-3],(-3,-2],(-2,-1],(-1,0.5],(-0.5,0],(0,0.5],(0.5,1]，(1,2],(2,3],(3,+∞)}；

獎(jiǎng)勵(lì)函數(shù)定義為：

當(dāng)室內(nèi)溫度偏差|ΔT|＞0.5℃時(shí)，根據(jù)不同偏差大小，學(xué)習(xí)將獲得不同程度的懲罰，偏差越大，受到的懲罰越大，則經(jīng)過(guò)迭代后獲得的Q值越小，此后選擇此動(dòng)作的概率越小。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2 3

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于Q學(xué)習(xí)的戶(hù)用微電網(wǎng)能量?jī)?yōu)化方法與流程