一種基于數(shù)據(jù)驅(qū)動(dòng)單網(wǎng)絡(luò)結(jié)構(gòu)的最優(yōu)控制方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及智能控制領(lǐng)域,尤其涉及一種基于數(shù)據(jù)驅(qū)動(dòng)單網(wǎng)絡(luò)結(jié)構(gòu)的最優(yōu)控制方 法。
【背景技術(shù)】
[0002] 本世紀(jì)50~60年代,在空間技術(shù)發(fā)展和數(shù)字計(jì)算機(jī)實(shí)用化的推動(dòng)下,最優(yōu)控制技 術(shù)在航空航天、工業(yè)生產(chǎn)、通信系統(tǒng)、機(jī)器人系統(tǒng)等復(fù)雜系統(tǒng)領(lǐng)域發(fā)揮出中流砥柱的作用。 最優(yōu)控制是使控制系統(tǒng)的性能指標(biāo)達(dá)到最小的基本條件和綜合方法。其研究的主要問(wèn)題 是:根據(jù)已建立的被控對(duì)象的時(shí)域數(shù)學(xué)模型或頻域數(shù)學(xué)模型,選擇一個(gè)容許控制律,使得被 控對(duì)象按照預(yù)定要求運(yùn)行,并使給定的某一性能指標(biāo)達(dá)到最優(yōu)值。
[0003] 自適應(yīng)動(dòng)態(tài)規(guī)劃自20世紀(jì)80年代提出以來(lái),得到了快速發(fā)展,它有效地解決了最 優(yōu)控制"維數(shù)災(zāi)"的問(wèn)題,在求解最優(yōu)控制HJB方程中發(fā)揮出巨大的優(yōu)勢(shì)。自適應(yīng)動(dòng)態(tài)規(guī)劃控 制結(jié)構(gòu)通常為actor-critic結(jié)構(gòu),即策略性能指標(biāo)評(píng)價(jià)過(guò)程和策略更新過(guò)程,并且每個(gè)過(guò) 程通過(guò)神經(jīng)網(wǎng)絡(luò)逼近器實(shí)現(xiàn),通過(guò)策略迭代的方式更新,逐漸逼近最優(yōu)解用來(lái)逼近最優(yōu)性 能指標(biāo)函數(shù)和最優(yōu)控制策略。
[0004] 然而,隨著科學(xué)技術(shù)的快速發(fā)展,控制系統(tǒng)日益復(fù)雜,通常具有高度的非線性、未 知的動(dòng)態(tài)特性、模型不確定等特性,其精確的數(shù)學(xué)模型往往無(wú)法建立。如此,自適應(yīng)動(dòng)態(tài)規(guī) 劃技術(shù)便不能發(fā)揮優(yōu)勢(shì)。再者,經(jīng)典的actor-critic結(jié)構(gòu)要求控制器必須具有兩個(gè)逼近網(wǎng) 絡(luò),分別去逼近最優(yōu)代價(jià)函數(shù)和最優(yōu)控制策略,這必然造成控制器的復(fù)雜和冗余,影響其在 實(shí)際系統(tǒng)中的應(yīng)用。另外,神經(jīng)網(wǎng)絡(luò)逼近器由于其本身的局限,例如:局部極值、過(guò)學(xué)習(xí)、適 應(yīng)性差等,使得最優(yōu)控制器效果欠佳。
[0005] 相比之下,支持向量機(jī)(SVM)具備全局最優(yōu)、適應(yīng)性強(qiáng)、理論完善等優(yōu)點(diǎn),尤其是最 小二乘支持向量機(jī)(LS-SVM)將求解二次規(guī)劃問(wèn)題轉(zhuǎn)化為求解線性方程的問(wèn)題,簡(jiǎn)化了求解 過(guò)程,提高了逼近器的學(xué)習(xí)速度。因此,如何利用上述優(yōu)點(diǎn),設(shè)計(jì)一種不完全依賴于系統(tǒng)模 型,且結(jié)構(gòu)簡(jiǎn)單的最優(yōu)控制器尤為重要。
【發(fā)明內(nèi)容】
[0006] 發(fā)明目的:為了克服現(xiàn)有技術(shù)中存在的不足,本發(fā)明提供一種基于數(shù)據(jù)驅(qū)動(dòng)單網(wǎng) 絡(luò)結(jié)構(gòu)的最優(yōu)控制方法,以便滿足復(fù)雜系統(tǒng)模型難以建立、控制器結(jié)構(gòu)復(fù)雜等技術(shù)問(wèn)題。
[0007] 為實(shí)現(xiàn)以上技術(shù)目的,本發(fā)明將采取以下的技術(shù)方案:
[0008] -種基于數(shù)據(jù)驅(qū)動(dòng)單網(wǎng)絡(luò)結(jié)構(gòu)的最優(yōu)控制方法,包括以下步驟:
[0009] -種基于數(shù)據(jù)驅(qū)動(dòng)單網(wǎng)絡(luò)結(jié)構(gòu)的最優(yōu)控制方法,用于對(duì)滿足利普希茨穩(wěn)定的非線 性系統(tǒng)進(jìn)行控制,其特征在于:包括順序執(zhí)行的以下步驟:
[0010] 步驟1、初始化:隨機(jī)選擇系統(tǒng)初始狀態(tài)xo;選擇半正定函數(shù)Q(x) 2 0;選擇對(duì)稱正 定矩陣R;選擇LS-SVM逼近器的參數(shù);設(shè)定訓(xùn)練樣本集長(zhǎng)度為L(zhǎng)并隨機(jī)選擇訓(xùn)練樣本加入訓(xùn) 練樣本集構(gòu)成初始的訓(xùn)練樣本集;設(shè)定新增樣本集長(zhǎng)度為1;設(shè)定閾值〇〈3〈1、容許逼近誤差 〇〈ε〈1;設(shè)定樣本采樣周期T;
[0011]步驟2、選擇一個(gè)初始穩(wěn)定控制器作用于系統(tǒng);
[0012]步驟3、實(shí)時(shí)檢測(cè)系統(tǒng)當(dāng)前t時(shí)刻系統(tǒng)狀態(tài)變量xt與控制變量ut;
[0013]步驟4、在每個(gè)采樣周期內(nèi),將采集到的((Xt,Ut),A t-心))作為該采樣周期的樣本, 其中狀態(tài)-動(dòng)作對(duì)(xt,ut)作為L(zhǎng)S-SVM逼近器的輸入樣本,正則函數(shù)λ(χ)在前一采樣周期t-1 時(shí)刻的值(X)作為L(zhǎng)S-SVM逼近器的輸出樣本;
[0014] 步驟5、根據(jù)
判斷本次采樣周期的樣本中的輸出樣本與前 一個(gè)采樣周期的樣本中的輸出樣本是否相近,若上式成立則舍棄本次采樣周期的樣本,否 則將本次采樣周期的樣本加入至新增樣本集;
[0015] 步驟6、判斷新增樣本集是否溢出,是則將新增樣本集所有樣本全部加入訓(xùn)練樣本 集,并從訓(xùn)練樣本集中相應(yīng)地移除相同規(guī)模的已存在的訓(xùn)練樣本,移除時(shí)按照這些已存在 的訓(xùn)練樣本加入訓(xùn)練樣本集的先后順序遵循先進(jìn)先出原則進(jìn)行,否則繼續(xù)步驟5;
[0016] 步驟7、將步驟6中獲得的訓(xùn)練樣本集中的所有樣本加入LS-SVM逼近器,得到LS-SVM逼近器的輸出,即為正則函數(shù)\&);
[0017] 步驟8、利用正則函數(shù)At(x),通過(guò)表達(dá)另
直接求解得到本次 迭代周期的控制律ut+1(t),并作用于控制系統(tǒng);上式中,g(x)為輸入耦合矩陣,此處g(x)中 的X為系統(tǒng)狀態(tài)變量xt的縮寫,T表示轉(zhuǎn)置;
[0018] 步驟9、根據(jù)
判斷本次迭代周期的控制律ut+1(t)與前一次迭 代周期的控制率ut(t)是否有明顯變化,若上式成立則表示還未得到最優(yōu)控制率,返回步驟 3,否則將ut+1 (t)作為最優(yōu)控制律輸出,學(xué)習(xí)結(jié)束。
[0019] 有益效果:
[0020]與傳統(tǒng)的actor-critic控制結(jié)構(gòu)以及神經(jīng)網(wǎng)絡(luò)逼近器相比,本發(fā)明提出的基于數(shù) 據(jù)驅(qū)動(dòng)單網(wǎng)絡(luò)結(jié)構(gòu)的最優(yōu)控制方法省去了控制器網(wǎng)絡(luò),從而減少了控制器網(wǎng)絡(luò)造成的誤差 影響;本發(fā)明中的評(píng)價(jià)網(wǎng)絡(luò)利用LS-SVM模型逼近系統(tǒng)的最優(yōu)正則函數(shù),而非最優(yōu)代價(jià)函數(shù)。 具體優(yōu)點(diǎn)包括:
[0021] 1、本發(fā)明提出的基于數(shù)據(jù)驅(qū)動(dòng)單網(wǎng)絡(luò)結(jié)構(gòu)的最優(yōu)控制方法不依賴于精確的數(shù)學(xué) 模型,從而對(duì)環(huán)境具有更好的適應(yīng)能力;
[0022] 2、單網(wǎng)絡(luò)結(jié)構(gòu)省去了控制器網(wǎng)絡(luò),使得整體控制器結(jié)構(gòu)變得更為簡(jiǎn)潔,且相應(yīng)地 省去了控制器網(wǎng)絡(luò)造成的誤差影響;
[0023] 3、LS_SVM逼近器較神經(jīng)網(wǎng)絡(luò)逼近器具有全局最優(yōu)、適應(yīng)性強(qiáng)、計(jì)算簡(jiǎn)單、理論完善 等優(yōu)點(diǎn);
[0024] 4、基于數(shù)據(jù)驅(qū)動(dòng)方式避免了權(quán)值自適應(yīng)更新方式不易實(shí)現(xiàn)的缺點(diǎn)。
【附圖說(shuō)明】
[0025] 圖1是本發(fā)明基于數(shù)據(jù)驅(qū)動(dòng)單網(wǎng)絡(luò)最優(yōu)控制方法流程圖;
[0026]圖2是本發(fā)明基于數(shù)據(jù)驅(qū)動(dòng)單網(wǎng)絡(luò)最優(yōu)控制方法的LS-SVM實(shí)現(xiàn)框圖。
【具體實(shí)施方式】
[0027] 下面結(jié)合附圖對(duì)本發(fā)明作更進(jìn)一步的說(shuō)明。
[0028] 本發(fā)明所研究的非線性系統(tǒng)可表述如下:
[0029]
[0030] 其中,x(t)是系統(tǒng)狀態(tài)變量同下文中出現(xiàn)的xt,f(x(t))為系統(tǒng)內(nèi)部動(dòng)態(tài)特性,g(x (t))是輸入耦合矩陣,u(t)為控制輸入向量同下文中出現(xiàn)的ut。系統(tǒng)初始狀態(tài)為x(0)=XO, 且f( X(t))+g(x(t))u(t)滿足利普希茨穩(wěn)定。為了表達(dá)簡(jiǎn)潔,下文中會(huì)出現(xiàn)將x(t)縮寫為X、 u(t)縮寫為u的情況。
[0031] 定義最優(yōu)控制性能指標(biāo)函數(shù)為:
[0032]
[0033]其中,r(x,u)=Q(x)+uTRu,上標(biāo)T表示矩陣或向量的轉(zhuǎn)置(下文相同),Q(x) 2 0為 半正定函數(shù),輸入權(quán)值矩陣R>〇為對(duì)稱正定矩陣。
[0034]根據(jù)最優(yōu)控制理論,最優(yōu)控制的目的是找到一個(gè)控制序列能使非線性系統(tǒng) i; =/(X) +辦咖漸進(jìn)穩(wěn)定且性能指標(biāo)函數(shù)V(x)達(dá)到最小。
[0035] 定義 Hamiltonian 方程為:
[0036]
[0037] 其中,VVX表示性能指標(biāo)函數(shù)對(duì)系統(tǒng)狀態(tài)變量X的偏導(dǎo)數(shù),即=^V)/&。
[0038] 則最優(yōu)性能指標(biāo)函數(shù)可表示為:
[0039]
[0040] 其中,Vi/:表示最優(yōu)性能指標(biāo)函數(shù)對(duì)系統(tǒng)狀態(tài)變量X的偏導(dǎo)數(shù),即VF: =?Τ(χ)/& 〇 [0041 ]根據(jù)Bellman最優(yōu)性原理可得,最優(yōu)控制律lAt)為:
[0042]
[0043]其中,上標(biāo)-1表示矩陣求逆(下同),則ΙΓ1表示輸入權(quán)值矩陣R的逆矩陣。
[0044]相應(yīng)的HJB方程為:
[0045]
[0046] 由于系統(tǒng)精確模型往往難以獲得,即f(x)無(wú)法得到,且具有非線性且通常沒(méi)有 解析解,如此最優(yōu)控制f(t)便無(wú)法求解。因此,本發(fā)明提出一種基于數(shù)據(jù)驅(qū)動(dòng)單網(wǎng)絡(luò)結(jié)構(gòu) 的最優(yōu)控制方法。
[0047] 圖1表示了本發(fā)明基于數(shù)據(jù)驅(qū)動(dòng)單網(wǎng)絡(luò)結(jié)構(gòu)的最優(yōu)控制方法流程圖。該迭代最優(yōu) 控制方法通過(guò)數(shù)據(jù)驅(qū)動(dòng)LS-SVM模型在線逼近V< :,而非逼近最優(yōu)性能指標(biāo)函數(shù)f(x),然后 通過(guò)最優(yōu)控制律表達(dá)式直接計(jì)算得到,既省去了控制器網(wǎng)絡(luò),使結(jié)構(gòu)更加簡(jiǎn)單,又避免了傳 統(tǒng)actor-critic結(jié)構(gòu)中每次迭代都需要計(jì)算▽廣= 5f(.r)/aY的計(jì)算負(fù)荷,有效地提高了執(zhí)行 速度。具體步驟表述如下:
[0048]步驟1、初始化。
[0049]隨機(jī)選擇系統(tǒng)初始狀態(tài)X0;
[0050] 選擇半正定函數(shù)Q(x) 2 0;
[0051 ] 選擇對(duì)稱正定矩陣R;
[0052]設(shè)定訓(xùn)練樣本集長(zhǎng)度為L(zhǎng)并隨機(jī)選擇訓(xùn)練樣本加入訓(xùn)練樣本集構(gòu)成初始的訓(xùn)練樣 本集;
[0053]設(shè)定新增樣本集長(zhǎng)度為1;
[0054]設(shè)定樣本采樣周期T;
[0055] 選擇LS-SVM逼近器的參數(shù):
[0056]這里選擇高斯核函數(shù)
作為L(zhǎng)S-SVM模型中的 核函數(shù),X表示訓(xùn)練樣本的集合,xi、xj表示訓(xùn)練樣本集合中第i,j列,設(shè)定核函數(shù)中核寬度σ 值;
[0057] 設(shè)定LS-SVM模型中懲罰參數(shù)C值;
[0058]需要說(shuō)明的是核寬度σ和懲罰參數(shù)C是非常重要的參數(shù)。σ取值過(guò)大會(huì)使模型過(guò)早 收斂,達(dá)不到預(yù)測(cè)的目的。C取值較大,可以使訓(xùn)練樣本數(shù)據(jù)和測(cè)試數(shù)據(jù)擬合的更好,但相應(yīng) 地會(huì)降低模型的適應(yīng)能力;C取值較小可以提高訓(xùn)練模型的適應(yīng)能力,但擬合精度會(huì)有所下 降。在現(xiàn)有技術(shù)中,它們的選擇可以根據(jù)經(jīng)驗(yàn)、自舉法、交叉驗(yàn)證等方法確定,其中,最常用 的方法就是交叉驗(yàn)證法。
[0059] 步驟2、選擇一個(gè)初始穩(wěn)定控制器,將其所具有的初始穩(wěn)定控制律u(to)作用于系 統(tǒng),其中to表示初始時(shí)刻。初始穩(wěn)定控制律不需要最優(yōu),可以是任意一種穩(wěn)定的控制策略。 在實(shí)際應(yīng)用中,一個(gè)初始穩(wěn)定的控制策略是很容易得到的,如常見(jiàn)的LQR、