一種基于數(shù)據(jù)驅(qū)動(dòng)單網(wǎng)絡(luò)結(jié)構(gòu)的最優(yōu)控制方法

文檔序號(hào)：9726666閱讀：1435來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>控制;調(diào)節(jié)裝置的制造及其應(yīng)用技術(shù)

一種基于數(shù)據(jù)驅(qū)動(dòng)單網(wǎng)絡(luò)結(jié)構(gòu)的最優(yōu)控制方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及智能控制領(lǐng)域，尤其涉及一種基于數(shù)據(jù)驅(qū)動(dòng)單網(wǎng)絡(luò)結(jié)構(gòu)的最優(yōu)控制方法。
【背景技術(shù)】
[0002] 本世紀(jì)50~60年代，在空間技術(shù)發(fā)展和數(shù)字計(jì)算機(jī)實(shí)用化的推動(dòng)下，最優(yōu)控制技術(shù)在航空航天、工業(yè)生產(chǎn)、通信系統(tǒng)、機(jī)器人系統(tǒng)等復(fù)雜系統(tǒng)領(lǐng)域發(fā)揮出中流砥柱的作用。最優(yōu)控制是使控制系統(tǒng)的性能指標(biāo)達(dá)到最小的基本條件和綜合方法。其研究的主要問(wèn)題是:根據(jù)已建立的被控對(duì)象的時(shí)域數(shù)學(xué)模型或頻域數(shù)學(xué)模型，選擇一個(gè)容許控制律，使得被控對(duì)象按照預(yù)定要求運(yùn)行，并使給定的某一性能指標(biāo)達(dá)到最優(yōu)值。
[0003] 自適應(yīng)動(dòng)態(tài)規(guī)劃自20世紀(jì)80年代提出以來(lái)，得到了快速發(fā)展，它有效地解決了最優(yōu)控制"維數(shù)災(zāi)"的問(wèn)題，在求解最優(yōu)控制HJB方程中發(fā)揮出巨大的優(yōu)勢(shì)。自適應(yīng)動(dòng)態(tài)規(guī)劃控制結(jié)構(gòu)通常為actor-critic結(jié)構(gòu)，即策略性能指標(biāo)評(píng)價(jià)過(guò)程和策略更新過(guò)程，并且每個(gè)過(guò) 程通過(guò)神經(jīng)網(wǎng)絡(luò)逼近器實(shí)現(xiàn)，通過(guò)策略迭代的方式更新，逐漸逼近最優(yōu)解用來(lái)逼近最優(yōu)性能指標(biāo)函數(shù)和最優(yōu)控制策略。
[0004] 然而，隨著科學(xué)技術(shù)的快速發(fā)展，控制系統(tǒng)日益復(fù)雜，通常具有高度的非線性、未知的動(dòng)態(tài)特性、模型不確定等特性，其精確的數(shù)學(xué)模型往往無(wú)法建立。如此，自適應(yīng)動(dòng)態(tài)規(guī) 劃技術(shù)便不能發(fā)揮優(yōu)勢(shì)。再者，經(jīng)典的actor-critic結(jié)構(gòu)要求控制器必須具有兩個(gè)逼近網(wǎng) 絡(luò)，分別去逼近最優(yōu)代價(jià)函數(shù)和最優(yōu)控制策略，這必然造成控制器的復(fù)雜和冗余，影響其在實(shí)際系統(tǒng)中的應(yīng)用。另外，神經(jīng)網(wǎng)絡(luò)逼近器由于其本身的局限，例如：局部極值、過(guò)學(xué)習(xí)、適應(yīng)性差等，使得最優(yōu)控制器效果欠佳。
[0005] 相比之下，支持向量機(jī)(SVM)具備全局最優(yōu)、適應(yīng)性強(qiáng)、理論完善等優(yōu)點(diǎn)，尤其是最小二乘支持向量機(jī)(LS-SVM)將求解二次規(guī)劃問(wèn)題轉(zhuǎn)化為求解線性方程的問(wèn)題，簡(jiǎn)化了求解過(guò)程，提高了逼近器的學(xué)習(xí)速度。因此，如何利用上述優(yōu)點(diǎn)，設(shè)計(jì)一種不完全依賴于系統(tǒng)模型，且結(jié)構(gòu)簡(jiǎn)單的最優(yōu)控制器尤為重要。

【發(fā)明內(nèi)容】

[0006] 發(fā)明目的：為了克服現(xiàn)有技術(shù)中存在的不足，本發(fā)明提供一種基于數(shù)據(jù)驅(qū)動(dòng)單網(wǎng) 絡(luò)結(jié)構(gòu)的最優(yōu)控制方法，以便滿足復(fù)雜系統(tǒng)模型難以建立、控制器結(jié)構(gòu)復(fù)雜等技術(shù)問(wèn)題。
[0007] 為實(shí)現(xiàn)以上技術(shù)目的，本發(fā)明將采取以下的技術(shù)方案：
[0008] -種基于數(shù)據(jù)驅(qū)動(dòng)單網(wǎng)絡(luò)結(jié)構(gòu)的最優(yōu)控制方法，包括以下步驟：
[0009] -種基于數(shù)據(jù)驅(qū)動(dòng)單網(wǎng)絡(luò)結(jié)構(gòu)的最優(yōu)控制方法，用于對(duì)滿足利普希茨穩(wěn)定的非線性系統(tǒng)進(jìn)行控制，其特征在于:包括順序執(zhí)行的以下步驟：
[0010] 步驟1、初始化：隨機(jī)選擇系統(tǒng)初始狀態(tài)xo;選擇半正定函數(shù)Q(x) 2 0;選擇對(duì)稱正定矩陣R;選擇LS-SVM逼近器的參數(shù);設(shè)定訓(xùn)練樣本集長(zhǎng)度為L(zhǎng)并隨機(jī)選擇訓(xùn)練樣本加入訓(xùn) 練樣本集構(gòu)成初始的訓(xùn)練樣本集;設(shè)定新增樣本集長(zhǎng)度為1;設(shè)定閾值〇〈3〈1、容許逼近誤差〇〈ε〈1;設(shè)定樣本采樣周期T;
[0011]步驟2、選擇一個(gè)初始穩(wěn)定控制器作用于系統(tǒng)；
[0012]步驟3、實(shí)時(shí)檢測(cè)系統(tǒng)當(dāng)前t時(shí)刻系統(tǒng)狀態(tài)變量xt與控制變量ut;
[0013]步驟4、在每個(gè)采樣周期內(nèi)，將采集到的（（Xt，Ut)，A t-心））作為該采樣周期的樣本，其中狀態(tài)-動(dòng)作對(duì)(xt，ut)作為L(zhǎng)S-SVM逼近器的輸入樣本，正則函數(shù)λ(χ)在前一采樣周期t-1 時(shí)刻的值(X)作為L(zhǎng)S-SVM逼近器的輸出樣本；
[0014] 步驟5、根據(jù)
判斷本次采樣周期的樣本中的輸出樣本與前一個(gè)采樣周期的樣本中的輸出樣本是否相近，若上式成立則舍棄本次采樣周期的樣本，否則將本次采樣周期的樣本加入至新增樣本集；
[0015] 步驟6、判斷新增樣本集是否溢出，是則將新增樣本集所有樣本全部加入訓(xùn)練樣本集，并從訓(xùn)練樣本集中相應(yīng)地移除相同規(guī)模的已存在的訓(xùn)練樣本，移除時(shí)按照這些已存在的訓(xùn)練樣本加入訓(xùn)練樣本集的先后順序遵循先進(jìn)先出原則進(jìn)行，否則繼續(xù)步驟5;
[0016] 步驟7、將步驟6中獲得的訓(xùn)練樣本集中的所有樣本加入LS-SVM逼近器，得到LS-SVM逼近器的輸出，即為正則函數(shù)\&);
[0017] 步驟8、利用正則函數(shù)At(x)，通過(guò)表達(dá)另
直接求解得到本次迭代周期的控制律ut+1(t)，并作用于控制系統(tǒng);上式中，g(x)為輸入耦合矩陣，此處g(x)中的X為系統(tǒng)狀態(tài)變量xt的縮寫，T表示轉(zhuǎn)置；
[0018] 步驟9、根據(jù)
判斷本次迭代周期的控制律ut+1(t)與前一次迭代周期的控制率ut(t)是否有明顯變化，若上式成立則表示還未得到最優(yōu)控制率，返回步驟 3，否則將ut+1 (t)作為最優(yōu)控制律輸出，學(xué)習(xí)結(jié)束。
[0019] 有益效果：
[0020]與傳統(tǒng)的actor-critic控制結(jié)構(gòu)以及神經(jīng)網(wǎng)絡(luò)逼近器相比，本發(fā)明提出的基于數(shù) 據(jù)驅(qū)動(dòng)單網(wǎng)絡(luò)結(jié)構(gòu)的最優(yōu)控制方法省去了控制器網(wǎng)絡(luò)，從而減少了控制器網(wǎng)絡(luò)造成的誤差影響;本發(fā)明中的評(píng)價(jià)網(wǎng)絡(luò)利用LS-SVM模型逼近系統(tǒng)的最優(yōu)正則函數(shù)，而非最優(yōu)代價(jià)函數(shù)。具體優(yōu)點(diǎn)包括：
[0021] 1、本發(fā)明提出的基于數(shù)據(jù)驅(qū)動(dòng)單網(wǎng)絡(luò)結(jié)構(gòu)的最優(yōu)控制方法不依賴于精確的數(shù)學(xué) 模型，從而對(duì)環(huán)境具有更好的適應(yīng)能力；
[0022] 2、單網(wǎng)絡(luò)結(jié)構(gòu)省去了控制器網(wǎng)絡(luò)，使得整體控制器結(jié)構(gòu)變得更為簡(jiǎn)潔，且相應(yīng)地省去了控制器網(wǎng)絡(luò)造成的誤差影響；
[0023] 3、LS_SVM逼近器較神經(jīng)網(wǎng)絡(luò)逼近器具有全局最優(yōu)、適應(yīng)性強(qiáng)、計(jì)算簡(jiǎn)單、理論完善等優(yōu)點(diǎn)；
[0024] 4、基于數(shù)據(jù)驅(qū)動(dòng)方式避免了權(quán)值自適應(yīng)更新方式不易實(shí)現(xiàn)的缺點(diǎn)。
【附圖說(shuō)明】
[0025] 圖1是本發(fā)明基于數(shù)據(jù)驅(qū)動(dòng)單網(wǎng)絡(luò)最優(yōu)控制方法流程圖；
[0026]圖2是本發(fā)明基于數(shù)據(jù)驅(qū)動(dòng)單網(wǎng)絡(luò)最優(yōu)控制方法的LS-SVM實(shí)現(xiàn)框圖。
【具體實(shí)施方式】
[0027] 下面結(jié)合附圖對(duì)本發(fā)明作更進(jìn)一步的說(shuō)明。
[0028] 本發(fā)明所研究的非線性系統(tǒng)可表述如下：
[0029]
[0030] 其中，x(t)是系統(tǒng)狀態(tài)變量同下文中出現(xiàn)的xt，f(x(t))為系統(tǒng)內(nèi)部動(dòng)態(tài)特性，g(x (t))是輸入耦合矩陣，u(t)為控制輸入向量同下文中出現(xiàn)的ut。系統(tǒng)初始狀態(tài)為x(0)=XO，且f( X(t))+g(x(t))u(t)滿足利普希茨穩(wěn)定。為了表達(dá)簡(jiǎn)潔，下文中會(huì)出現(xiàn)將x(t)縮寫為X、 u(t)縮寫為u的情況。
[0031] 定義最優(yōu)控制性能指標(biāo)函數(shù)為：
[0032]
[0033]其中，r(x，u)=Q(x)+uTRu，上標(biāo)T表示矩陣或向量的轉(zhuǎn)置（下文相同），Q(x) 2 0為半正定函數(shù)，輸入權(quán)值矩陣R>〇為對(duì)稱正定矩陣。
[0034]根據(jù)最優(yōu)控制理論，最優(yōu)控制的目的是找到一個(gè)控制序列能使非線性系統(tǒng) i； =/(X) +辦咖漸進(jìn)穩(wěn)定且性能指標(biāo)函數(shù)V(x)達(dá)到最小。
[0035] 定義 Hamiltonian 方程為：
[0036]
[0037] 其中，VVX表示性能指標(biāo)函數(shù)對(duì)系統(tǒng)狀態(tài)變量X的偏導(dǎo)數(shù)，即=^V)/&。
[0038] 則最優(yōu)性能指標(biāo)函數(shù)可表示為：
[0039]
[0040] 其中，Vi/：表示最優(yōu)性能指標(biāo)函數(shù)對(duì)系統(tǒng)狀態(tài)變量X的偏導(dǎo)數(shù)，即VF： =?Τ(χ)/& 〇 [0041 ]根據(jù)Bellman最優(yōu)性原理可得，最優(yōu)控制律lAt)為：
[0042]
[0043]其中，上標(biāo)-1表示矩陣求逆(下同），則ΙΓ1表示輸入權(quán)值矩陣R的逆矩陣。
[0044]相應(yīng)的HJB方程為：
[0045]
[0046] 由于系統(tǒng)精確模型往往難以獲得，即f(x)無(wú)法得到，且具有非線性且通常沒(méi)有解析解，如此最優(yōu)控制f(t)便無(wú)法求解。因此，本發(fā)明提出一種基于數(shù)據(jù)驅(qū)動(dòng)單網(wǎng)絡(luò)結(jié)構(gòu) 的最優(yōu)控制方法。
[0047] 圖1表示了本發(fā)明基于數(shù)據(jù)驅(qū)動(dòng)單網(wǎng)絡(luò)結(jié)構(gòu)的最優(yōu)控制方法流程圖。該迭代最優(yōu) 控制方法通過(guò)數(shù)據(jù)驅(qū)動(dòng)LS-SVM模型在線逼近V< :，而非逼近最優(yōu)性能指標(biāo)函數(shù)f(x)，然后通過(guò)最優(yōu)控制律表達(dá)式直接計(jì)算得到，既省去了控制器網(wǎng)絡(luò)，使結(jié)構(gòu)更加簡(jiǎn)單，又避免了傳統(tǒng)actor-critic結(jié)構(gòu)中每次迭代都需要計(jì)算▽廣= 5f(.r)/aY的計(jì)算負(fù)荷，有效地提高了執(zhí)行速度。具體步驟表述如下：
[0048]步驟1、初始化。
[0049]隨機(jī)選擇系統(tǒng)初始狀態(tài)X0;
[0050] 選擇半正定函數(shù)Q(x) 2 0;
[0051 ] 選擇對(duì)稱正定矩陣R;
[0052]設(shè)定訓(xùn)練樣本集長(zhǎng)度為L(zhǎng)并隨機(jī)選擇訓(xùn)練樣本加入訓(xùn)練樣本集構(gòu)成初始的訓(xùn)練樣本集；
[0053]設(shè)定新增樣本集長(zhǎng)度為1;
[0054]設(shè)定樣本采樣周期T;
[0055] 選擇LS-SVM逼近器的參數(shù)：
[0056]這里選擇高斯核函數(shù)
作為L(zhǎng)S-SVM模型中的核函數(shù)，X表示訓(xùn)練樣本的集合，xi、xj表示訓(xùn)練樣本集合中第i，j列，設(shè)定核函數(shù)中核寬度σ 值；
[0057] 設(shè)定LS-SVM模型中懲罰參數(shù)C值；
[0058]需要說(shuō)明的是核寬度σ和懲罰參數(shù)C是非常重要的參數(shù)。σ取值過(guò)大會(huì)使模型過(guò)早收斂，達(dá)不到預(yù)測(cè)的目的。C取值較大，可以使訓(xùn)練樣本數(shù)據(jù)和測(cè)試數(shù)據(jù)擬合的更好，但相應(yīng) 地會(huì)降低模型的適應(yīng)能力;C取值較小可以提高訓(xùn)練模型的適應(yīng)能力，但擬合精度會(huì)有所下降。在現(xiàn)有技術(shù)中，它們的選擇可以根據(jù)經(jīng)驗(yàn)、自舉法、交叉驗(yàn)證等方法確定，其中，最常用的方法就是交叉驗(yàn)證法。
[0059] 步驟2、選擇一個(gè)初始穩(wěn)定控制器，將其所具有的初始穩(wěn)定控制律u(to)作用于系統(tǒng)，其中to表示初始時(shí)刻。初始穩(wěn)定控制律不需要最優(yōu)，可以是任意一種穩(wěn)定的控制策略。在實(shí)際應(yīng)用中，一個(gè)初始穩(wěn)定的控制策略是很容易得到的，如常見(jiàn)的LQR、

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孫景亮;劉春生;魏阿龍;于洋;陳宇;郭帥;牛彥灃;
技術(shù)所有人：南京航空航天大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、唐老師：1.高效節(jié)能裝備 2.流動(dòng)穩(wěn)定性 3.汽車流場(chǎng)分析和淀粉糖工藝技術(shù)。
2、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
3、王老師：電子信息處理、先進(jìn)檢測(cè)方法和智能化儀表
4、周老師：1.智能電網(wǎng) 2.新能源利用 3.泛在電力物聯(lián)網(wǎng)
5、趙老師：檢測(cè)與控制技術(shù)、機(jī)器人技術(shù)、機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

最優(yōu)控制方法相關(guān)技術(shù)

最優(yōu)化方法與最優(yōu)控制相關(guān)技術(shù)

最優(yōu)控制相關(guān)技術(shù)

線性二次型最優(yōu)控制相關(guān)技術(shù)

最優(yōu)控制理論相關(guān)技術(shù)

最優(yōu)控制理論與應(yīng)用相關(guān)技術(shù)

魯棒與最優(yōu)控制相關(guān)技術(shù)

最優(yōu)控制理論與系統(tǒng)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于數(shù)據(jù)驅(qū)動(dòng)單網(wǎng)絡(luò)結(jié)構(gòu)的最優(yōu)控制方法