基于群智能強(qiáng)化學(xué)習(xí)的電網(wǎng)最優(yōu)碳能復(fù)合流獲取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及電網(wǎng)無功優(yōu)化技術(shù)領(lǐng)域,特別涉及一種基于群智能強(qiáng)化學(xué)習(xí)的電網(wǎng)最 優(yōu)碳能復(fù)合流獲取方法。
【背景技術(shù)】
[0002] 隨著溫室效應(yīng)給環(huán)境帶來的影響日益嚴(yán)重,低碳經(jīng)濟(jì)逐漸成為各能耗工業(yè)的重點(diǎn) 發(fā)展方向。其中,電力工業(yè)作為最大的C02排放企業(yè),將在低碳經(jīng)濟(jì)發(fā)展中擔(dān)任重要的角 色。現(xiàn)有很多關(guān)于低碳電力的相關(guān)研究,包括最優(yōu)潮流、經(jīng)濟(jì)調(diào)度、機(jī)組組合、碳儲(chǔ)存和碳捕 捉等問題。然而,這些研究主要是對(duì)發(fā)電側(cè)的碳排放進(jìn)行優(yōu)化,而缺少對(duì)如何降低電力網(wǎng)絡(luò) 的碳排放量進(jìn)行相關(guān)研究。
[0003] 為此,通過建立電網(wǎng)碳排放流的計(jì)算模型,有學(xué)者提出了一種多步回溯Q(X)學(xué) 習(xí)算法,解決了電網(wǎng)側(cè)的最優(yōu)碳流問題。期刊《電力系統(tǒng)自動(dòng)化》第38卷第17期中公開了 《基于多步回溯Q(A)學(xué)習(xí)的電網(wǎng)多目標(biāo)最優(yōu)碳流算法》的文章,該文章中所用的最優(yōu)碳流 模型并不能清晰地解釋電力網(wǎng)絡(luò)中能量流和碳排放流的分布情況。雖然與其它經(jīng)典優(yōu)化算 法和人工智能優(yōu)化算法相比較,Q(A)算法收斂魯棒性更強(qiáng),但是該算法只依靠單個(gè)主體進(jìn) 行尋優(yōu),收斂時(shí)間較長,難以滿足復(fù)雜電網(wǎng)碳流在線滾動(dòng)優(yōu)化的實(shí)時(shí)要求。
[0004] 群智能(SwarmIntelligence,SI)是人工智能的一個(gè)分支學(xué)科,受社會(huì)昆蟲、動(dòng)物 集體行為的啟發(fā),已經(jīng)衍生出蟻群、粒子群、蜂群等智能算法,在電力系統(tǒng)領(lǐng)域得到了很好 的應(yīng)用。在群智能算法中,每個(gè)群體都會(huì)有多個(gè)主體,各個(gè)主體之間會(huì)進(jìn)行信息交流或任務(wù) 分工,從而實(shí)現(xiàn)協(xié)同優(yōu)化,有效縮短了尋優(yōu)時(shí)間。很自然地,有學(xué)者會(huì)聯(lián)想到把強(qiáng)化學(xué)習(xí)與 粒子群、蟻群算法進(jìn)行結(jié)合,也陸續(xù)出現(xiàn)了一般改進(jìn)性的群智能算法,但這些方法都僅僅停 留把群體優(yōu)化與強(qiáng)化學(xué)習(xí)在算法流程上進(jìn)行簡單串行結(jié)合,兩類不同性質(zhì)的算法優(yōu)勢并未 實(shí)現(xiàn)真正融合發(fā)揮。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種快速、有效的基于群智 能強(qiáng)化學(xué)習(xí)的電網(wǎng)最優(yōu)碳能復(fù)合流獲取方法。該方法能夠在滿足系統(tǒng)運(yùn)行和安全約束的前 提下,通過對(duì)電網(wǎng)的無功進(jìn)行優(yōu)化,使得電網(wǎng)中的能量流和碳排放流損耗量達(dá)到最小,并且 能在保證較好全局尋優(yōu)能力的同時(shí),明顯提高算法的收斂速度。
[0006] 本發(fā)明的目的通過下述技術(shù)方案實(shí)現(xiàn):一種基于群智能強(qiáng)化學(xué)習(xí)的電網(wǎng)最優(yōu)碳能 復(fù)合流獲取方法,步驟如下:
[0007]S1、根據(jù)電網(wǎng)負(fù)荷節(jié)點(diǎn)系統(tǒng)構(gòu)建群智能強(qiáng)化學(xué)習(xí)系統(tǒng),然后建立群智能強(qiáng)化學(xué)習(xí) 系統(tǒng)的多目標(biāo)最優(yōu)碳能復(fù)合流模型目標(biāo)函數(shù);
[0008]S2、在群智能強(qiáng)化學(xué)習(xí)系統(tǒng)群體的主體更新迭代過程中,根據(jù)步驟S1中建立的多 目標(biāo)最優(yōu)碳能復(fù)合流模型目標(biāo)函數(shù),設(shè)置獎(jiǎng)勵(lì)函數(shù);
[0009]S3、按照負(fù)荷消耗的能量的差別,把負(fù)荷離散化劃分成不同的斷面,根據(jù)斷面負(fù)荷 消耗的能量值確定每個(gè)主體i的狀態(tài)Sl,然后根據(jù)多步回溯Q(A)學(xué)習(xí)的資格跡來更新每 個(gè)主體i的4值矩陣;
[0010] S4、計(jì)算每個(gè)主體i的貪婪動(dòng)作a,;
[0011] S5、根據(jù)步驟S4每個(gè)主體i更新后的%值矩陣,再更新每個(gè)主體i的動(dòng)作概率矩 陣P 1;
[0012] S6、根據(jù)步驟S4每個(gè)主體i更新后的動(dòng)作概率矩陣Pi,隨機(jī)選擇每個(gè)主體i當(dāng)前 狀態(tài)Slk下的預(yù)判動(dòng)作a嚴(yán),其中k為群體的當(dāng)前迭代次數(shù);
[0013] S7、根據(jù)負(fù)荷值確定的狀態(tài)s,并協(xié)同輸入多個(gè)主體,將貪婪動(dòng)作aig視為各主體i 最優(yōu)動(dòng)作,然后求解群體最優(yōu)動(dòng)作a,;
[0014] S8、根據(jù)步驟S6得到的每個(gè)主體i當(dāng)前狀態(tài)下Slk的預(yù)判動(dòng)作a,以及步驟S7求 解得到的群體最優(yōu)動(dòng)作aib,更新得到修正后的動(dòng)作值a,:
[0017] 其中乂為每個(gè)主體i的動(dòng)作修正偏差,Cl、c2為學(xué)習(xí)因子,rJPr2是權(quán)重系數(shù);
[0018] S9、確定群智能強(qiáng)化學(xué)習(xí)系統(tǒng)的控制變量矩陣,然后結(jié)合步驟S8更新得到群體中 各主體i修正后的動(dòng)作值aik進(jìn)行潮流計(jì)算;進(jìn)入步驟S10 ;
[0019] S10、潮流計(jì)算后,判斷每個(gè)主體i的%值矩陣是否收斂,即Qi值矩陣是否在本次 潮流計(jì)算過程中保持不變;
[0020] 若是,則將群體最后一次潮流計(jì)算得到的結(jié)果作為電網(wǎng)最優(yōu)碳能復(fù)合流;
[0021] 若否,則回到步驟S2,并且將群體的當(dāng)前迭代次數(shù)加1。
[0022] 優(yōu)選的,所述步驟S1中群智能強(qiáng)化學(xué)習(xí)系統(tǒng)多目標(biāo)最優(yōu)碳能復(fù)合流模型目標(biāo)函 數(shù)為:
[0023] minyA(x) +y2f2 (x) + (1-y「y2)Vd;
[0024] 其中x為控制變量,(x)為非線性函數(shù)描述的碳排放損耗分量,f2(x)為非線性 函數(shù)描述的有功網(wǎng)損分量;VdS電網(wǎng)負(fù)荷節(jié)點(diǎn)系統(tǒng)中電壓穩(wěn)定分量^y2為權(quán)重系數(shù),
[0,i],[0,i],y1+卩2<1;
[0025] 其中電網(wǎng)負(fù)荷節(jié)點(diǎn)系統(tǒng)中電壓穩(wěn)定分量VdS:
[0026]
[0027] 其中n為電網(wǎng)負(fù)荷節(jié)點(diǎn)系統(tǒng)中負(fù)荷節(jié)點(diǎn)的數(shù)量,V,為負(fù)荷節(jié)點(diǎn)j的負(fù)荷節(jié)點(diǎn)電壓, t_和Vj_分別是負(fù)荷節(jié)點(diǎn)j的最大、最小電壓限制。
[0028] 優(yōu)選的,所述步驟S2中設(shè)置的獎(jiǎng)勵(lì)函數(shù)民〇〇為:
[0029] 民(k) =C- [yAs(k) +y2Ploss (k) + (1-y「y2)Vd (k)+N(k)],igN;
[0030] 其中C為用于保證獎(jiǎng)勵(lì)函數(shù)值為正數(shù)的常數(shù),Cds(k)為碳排放損耗,Plc]SS(k)為網(wǎng) 損,Vd(k)為電壓穩(wěn)定分量,~、心為目標(biāo)系數(shù),N(k)是不滿足不等式約束的個(gè)數(shù),N為群 體集合。
[0031] 優(yōu)選的,所述步驟S3中根據(jù)多步回溯Q(A)學(xué)習(xí)的資格跡更新得到每個(gè)主體i在 當(dāng)前迭代次數(shù)k時(shí)的Qi值矩陣:
[0037] 其中Sl是每個(gè)主體i的任意狀態(tài),< 是每個(gè)主體i第k次迭代的狀態(tài),即每個(gè)主體 i的當(dāng)前狀態(tài);是每個(gè)主體i的任意動(dòng)作,<是每個(gè)主體i第k次迭代的動(dòng)作,即每個(gè)主 體i的當(dāng)前動(dòng)作,⑷就是指每個(gè)主體i第k次迭代后的如直矩陣;ifgg)每個(gè)主 體i在第k次迭代時(shí),在#狀態(tài)下執(zhí)行動(dòng)作的函數(shù)值,是%值矩陣中的一個(gè)元素(k-1) 為每個(gè)主體i在第k-1次迭代時(shí)獲得的立即獎(jiǎng)勵(lì)值,a為學(xué)習(xí)速率,決定了算法的收斂速 度,0 <a< 1,N為群體集合;
[0038] 其中:
[0039]
[0040] 其中是主體i在當(dāng)前迭代次數(shù)k-1時(shí)的狀態(tài)動(dòng)作對(duì),y是折扣因子, 〇 <y< 1,決定將來獎(jiǎng)勵(lì)信號(hào)對(duì)現(xiàn)在的作用;A是資格跡衰退系數(shù),〇 <A< 1,N為群體 集合。
[0041] 更進(jìn)一步的,所述步驟S4中每個(gè)主體i的貪婪動(dòng)作aig求解如下:
[0042]
[0043] 其中A為動(dòng)作集合,N為群體集合,g(求爲(wèi))是每個(gè)主體i在第k次迭代時(shí),在狀 態(tài)<下的4值矩陣。
[0044] 優(yōu)選的,所述步驟S5中每個(gè)主體i的動(dòng)作概率矩陣Pi的更新公式如下:
[0045]
[0046] 其中為每個(gè)主體i當(dāng)前狀態(tài)考下貪婪動(dòng)作aig對(duì)應(yīng)的概率,€(彳4)表示 每個(gè)主體i當(dāng)前狀態(tài).sf下其他每個(gè)可選非最優(yōu)動(dòng)作ai對(duì)應(yīng)的概率,Pi(Sl,ai)表示每個(gè)主體 i除當(dāng)前狀態(tài)外其他可能狀態(tài)Sl下動(dòng)作對(duì)應(yīng)的概率,0為動(dòng)作搜索速度,A為動(dòng)作集合,S為狀態(tài)集合,N為群體集合。
[0047] 更進(jìn)一步的,所述步驟S7群體最優(yōu)動(dòng)作aib為:
[0048]
[0049] 其中N為群體集合。
[0050] 優(yōu)選的,所述步驟S9中確定的群智能強(qiáng)化學(xué)習(xí)系統(tǒng)的控制變量矩陣x為:
[0051] x= [V,0 , kt, Qc]t;
[0052] 其中V為電網(wǎng)負(fù)荷節(jié)點(diǎn)系統(tǒng)中各負(fù)荷節(jié)點(diǎn)電壓值,0為電網(wǎng)負(fù)荷節(jié)點(diǎn)系統(tǒng)中各負(fù) 荷節(jié)點(diǎn)相角,kt為電網(wǎng)負(fù)荷節(jié)點(diǎn)系統(tǒng)中有載調(diào)壓變壓器變比,Q。為電網(wǎng)負(fù)荷節(jié)點(diǎn)系統(tǒng)中無 功補(bǔ)償容量。
[0053]優(yōu)選的,所述步驟S9中學(xué)習(xí)因子Cl、c2分別為0. 18和1. 2。
[0054] 本發(fā)明相對(duì)于現(xiàn)有技術(shù)具有如下的優(yōu)點(diǎn)及效果:
[0055] (1)本發(fā)明有機(jī)結(jié)合了電網(wǎng)能流和碳排放流傳輸特性,首次提出了電網(wǎng)最優(yōu)碳能 復(fù)合流的概念,