技術(shù)領(lǐng)域
本發(fā)明涉及一種工業(yè)運(yùn)行控制方法,特別是涉及一種基于數(shù)據(jù)驅(qū)動方式的運(yùn)行優(yōu)化控制方法。
背景技術(shù):
工業(yè)過程控制中,設(shè)計的控制器不僅要鎮(zhèn)定被控過程,使被控變量很好地跟蹤參考輸入,還要優(yōu)化運(yùn)行指標(biāo),即表征產(chǎn)品在加工中的質(zhì)量指標(biāo)、效率指標(biāo)、能耗與物耗等相關(guān)的指標(biāo),這就需要研究運(yùn)行優(yōu)化控制。如果設(shè)定值(Setpoints)選取不適當(dāng),即使被控變量跟蹤設(shè)定值,也不可能優(yōu)化運(yùn)行指標(biāo)。因此,設(shè)定值設(shè)計是實現(xiàn)運(yùn)行優(yōu)化的一個關(guān)鍵問題。
現(xiàn)代工業(yè)規(guī)模龐大、生產(chǎn)加工工序復(fù)雜,例如:我國的流程工業(yè)原料變化頻繁,工況波動劇烈,并且生產(chǎn)過程涉及物理化學(xué)反應(yīng),機(jī)理復(fù)雜,上述特征突出表現(xiàn)為生產(chǎn)過程建模困難。運(yùn)行指標(biāo)不僅與工業(yè)過程有關(guān),而且受運(yùn)行條件、原材料價格和產(chǎn)品價格等多種因素影響,因而,其生成軌跡呈現(xiàn)非線性、多變量耦合和時變特征,很難構(gòu)建精確的數(shù)學(xué)模型。這給傳統(tǒng)的基于模型的運(yùn)行優(yōu)化控制方法帶來嚴(yán)峻挑戰(zhàn)?,F(xiàn)有基于模型的運(yùn)行優(yōu)化控制方法即使已經(jīng)在實際的工業(yè)運(yùn)行優(yōu)化與控制中應(yīng)用,但是要求過程控制系統(tǒng)模型和運(yùn)行指標(biāo)生成軌跡精確已知,優(yōu)化控制往往涉及參數(shù)校正,使得在現(xiàn)代大規(guī)模復(fù)雜工業(yè)生產(chǎn)應(yīng)用中有很大的局限性,例如:計算量過大、設(shè)定值選取不優(yōu)、運(yùn)行指標(biāo)不能保證等。
近年來,得益于數(shù)字傳感技術(shù)的發(fā)展和應(yīng)用延伸,系統(tǒng)信息數(shù)據(jù)很容易抽取并且費用較低,數(shù)據(jù)驅(qū)動的控制方法得到了極大的關(guān)注和發(fā)展。
數(shù)據(jù)驅(qū)動的優(yōu)化控制方法對于復(fù)雜工業(yè)過程運(yùn)行優(yōu)化控制是一種非常有潛質(zhì)的研究方向。
面向復(fù)雜工業(yè)過程的數(shù)據(jù)驅(qū)動運(yùn)行優(yōu)化控制存在很多挑戰(zhàn)性理論問題有待解決,包括:
A. 不依賴運(yùn)行指標(biāo)生成軌跡和被控過程動態(tài):以往的運(yùn)行優(yōu)化控制往往采用基于模型的實時優(yōu)化(Real Time Optimization, RTO)控制、模型預(yù)測控制(ModelPredictive Control, MPC)、非線性模型預(yù)測控制(Nonlinear Model Predictive Control,NMPC)等方法。鑒于復(fù)雜工業(yè)過程很難精確構(gòu)建運(yùn)行指標(biāo)生成軌跡和被控過程動態(tài)的數(shù)學(xué)模型,如何設(shè)計不依賴運(yùn)行指標(biāo)生成軌跡和被控過程動態(tài)的算法,僅利用收集到的數(shù)據(jù)(包括控制輸入、被控過程輸出和實際運(yùn)行指標(biāo)值)估計最優(yōu)設(shè)定值,并且保證算法的收斂性和目標(biāo)優(yōu)化的可實現(xiàn)性,是一亟待解決的問題;
B. 多時間尺度采樣和外界干擾:多時間尺度是復(fù)雜工業(yè)過程的一個比較常見現(xiàn)象,這種情況一般是由于物理化學(xué)現(xiàn)象中的強(qiáng)關(guān)聯(lián)造成的。例如:磨礦過程中,礦石給料速度一般比產(chǎn)生規(guī)定的磨礦粒度快幾百個數(shù)量級。并且,復(fù)雜工業(yè)過程中被控過程和運(yùn)行指標(biāo)受運(yùn)行條件、外界環(huán)境干擾。多時間尺度和外界干擾使多目標(biāo)多約束(優(yōu)化多個運(yùn)行指標(biāo),被控變量、控制輸入和運(yùn)行指標(biāo)受限)運(yùn)行優(yōu)化控制問題變得更加復(fù)雜。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種基于數(shù)據(jù)驅(qū)動方式的運(yùn)行優(yōu)化控制方法,本發(fā)明采用將采用近似動態(tài)規(guī)劃方法,以復(fù)雜工業(yè)應(yīng)用為背景,采用雙層層級架構(gòu),驅(qū)動最優(yōu)運(yùn)行控制。
本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的:
一種基于數(shù)據(jù)驅(qū)動方式的運(yùn)行優(yōu)化控制方法,所述方法包括有雙層多率運(yùn)行控制;多目標(biāo)多約束最優(yōu)化運(yùn)行控制;數(shù)據(jù)驅(qū)動的近似最優(yōu)設(shè)定值設(shè)計;算法的收斂性和系統(tǒng)穩(wěn)定性分析;多目標(biāo)多約束最優(yōu)運(yùn)行控制包括:快時間尺度過程控制系統(tǒng)跟蹤控制;用于解決最小化實際運(yùn)行指標(biāo)與理想運(yùn)行指標(biāo)偏差的慢時間尺度最優(yōu)運(yùn)行控制;控制輸入、控制輸出和運(yùn)行指標(biāo)約束;基于ADP的近似最優(yōu)設(shè)定值設(shè)計包括兩個階段:將上層運(yùn)行指標(biāo)轉(zhuǎn)化為H∞控制問題的具有有界干擾項的慢時間尺度離散系統(tǒng)H∞控制;以及有機(jī)融合DP、RL和H∞控制等方法,用于得到近似最優(yōu)設(shè)定值而提出的一種不依賴模型參數(shù)的RL算法;面向復(fù)雜工業(yè)過程控制系統(tǒng)的仿真與實驗驗證的具體步驟為:采用仿真軟件、半實物仿真平臺和物理實驗平臺,聯(lián)合驗證理論方法和結(jié)果的有效性,并根據(jù)仿真和物理實驗結(jié)果,對理論方法和控制技術(shù)做出相應(yīng)的調(diào)整。
所述的一種基于數(shù)據(jù)驅(qū)動方式的運(yùn)行優(yōu)化控制方法,所述快時間尺度過程控制系統(tǒng)跟蹤控制中①考慮被控過程為非線性系統(tǒng),運(yùn)行指標(biāo)生成軌跡為呈現(xiàn)非線性動態(tài);②考慮上層運(yùn)行過程和底層過程控制時間尺度不同;?考慮控制輸入受限、控制輸出和運(yùn)行指標(biāo)受限。
所述的一種基于數(shù)據(jù)驅(qū)動方式的運(yùn)行優(yōu)化控制方法,所述采用泰勒公式展開方法將非線性被控過程和運(yùn)行指標(biāo)生成軌跡在穩(wěn)態(tài)附近線性化,冗余誤差作為有界干擾。
所述的一種基于數(shù)據(jù)驅(qū)動方式的運(yùn)行優(yōu)化控制方法,所述設(shè)定障礙函數(shù),引入衰減因子,給出L2增益性能指標(biāo),將多目標(biāo)多約束優(yōu)化問題轉(zhuǎn)化為H∞控制。
所述的一種基于數(shù)據(jù)驅(qū)動方式的運(yùn)行優(yōu)化控制方法,所述方法將H∞控制問題轉(zhuǎn)化為具有折扣因子的線性二次跟蹤問題,折扣因子適用于理想運(yùn)行指標(biāo)非零情況下的最優(yōu)跟蹤問題;利用DP方法,并采用同構(gòu)映射,給出新的Bellman方程;采用值函數(shù)近似,執(zhí)行性能評估,實現(xiàn)目標(biāo)最優(yōu)性的必要條件,得到設(shè)定值更新策略,利用策略迭代得到學(xué)習(xí)最優(yōu)設(shè)定值的RL算法。
所述的一種基于數(shù)據(jù)驅(qū)動方式的運(yùn)行優(yōu)化控制方法,所述方法采用off-policy策略,在學(xué)習(xí)最優(yōu)設(shè)定值過程中,采用任意允許控制作用系統(tǒng)生成數(shù)據(jù),更新的設(shè)定值不作用于運(yùn)行控制過程,避免不適當(dāng)?shù)脑O(shè)定值直接作用系統(tǒng),影響或破壞系統(tǒng)正常運(yùn)行。
所述的一種基于數(shù)據(jù)驅(qū)動方式的運(yùn)行優(yōu)化控制方法,所述方法底層控制過程跟蹤控制器設(shè)計采用傳統(tǒng)的PI控制器,實現(xiàn)控制輸出跟蹤設(shè)定值。
所述的一種基于數(shù)據(jù)驅(qū)動方式的運(yùn)行優(yōu)化控制方法,所述方法采用李雅普諾夫(Lyapuov)穩(wěn)定性理論,最優(yōu)控制理論,分析算法的收斂性及運(yùn)行指標(biāo)生成軌跡穩(wěn)定性的條件。
所述的數(shù)據(jù)驅(qū)動的運(yùn)行優(yōu)化控制方案,其為保證RL算法的收斂性,對設(shè)定值加入探針噪聲,豐富數(shù)據(jù),保證參數(shù)估計準(zhǔn)確,確保RL算法的收斂性。
所述的一種基于數(shù)據(jù)驅(qū)動方式的運(yùn)行優(yōu)化控制方法,所述方法仿真和物理實驗驗證的具體步驟為:①采用Java、Matlab相關(guān)軟件,編寫程序,仿真驗證運(yùn)行優(yōu)化控制算法;②采用磨礦過程半實物仿真平臺,執(zhí)行近似最優(yōu)設(shè)定值設(shè)計算法和底層控制環(huán)近似最優(yōu)控制器設(shè)計算法,驗證磨礦粒度是否控制在理想范圍內(nèi);③采用污水處理物理實驗平臺,執(zhí)行近似最優(yōu)設(shè)定值設(shè)計算法和底層控制環(huán)近似最優(yōu)控制器設(shè)計算法,驗證出水水質(zhì)和能量使用是否控制在理想范圍內(nèi)。
附圖說明
圖1為本發(fā)明方法中雙層層級架構(gòu)運(yùn)行優(yōu)化控制圖;
圖2為本發(fā)明方法中研究內(nèi)容之間的關(guān)系圖;
圖3為本發(fā)明方法中近似最優(yōu)設(shè)定值設(shè)計總體方案圖;
圖4為本發(fā)明方法中設(shè)計總體技術(shù)路線。
具體實施方式
下面結(jié)合實施例對本發(fā)明進(jìn)行詳細(xì)說明。
本發(fā)明采用將采用近似動態(tài)規(guī)劃 (Approximate Dynamic Programming, ADP) 方法,以復(fù)雜工業(yè)應(yīng)用為背景,采用雙層層級架構(gòu)(詳見圖1),開展數(shù)據(jù)驅(qū)動的最優(yōu)運(yùn)行控制研究(詳見圖2)。
本發(fā)明具體內(nèi)容如下:
(1) 雙層多率運(yùn)行控制問題闡述;
(2) 多目標(biāo)多約束最優(yōu)化運(yùn)行控制問題描述;
(3) 數(shù)據(jù)驅(qū)動的近似最優(yōu)設(shè)定值設(shè)計;
(4) 算法的收斂性和系統(tǒng)穩(wěn)定性分析;
(5) 仿真實驗驗證。
通過上述問題研究,給出一套針對復(fù)雜工業(yè)過程的數(shù)據(jù)驅(qū)動運(yùn)行優(yōu)化控制理論和方法,將數(shù)據(jù)驅(qū)動運(yùn)行優(yōu)化控制理論向更深層面推進(jìn)。
雙層多率運(yùn)行控制問題闡述
采用如圖1 所示的雙網(wǎng)層級架構(gòu),構(gòu)建雙層多率運(yùn)行控制問題。這一部分的研究工作分為以下兩個階段:
快時間尺度過程控制系統(tǒng)最優(yōu)跟蹤控制問題描述
在第一階段,將考慮被控過程為非線性系統(tǒng),以實現(xiàn)被控輸出以近似最優(yōu)方式跟蹤設(shè)定值為目標(biāo),構(gòu)建優(yōu)化控制問題。在這一階段,需要解決的科學(xué)難題為不同時間尺度下跟蹤問題描述。本發(fā)明針對非線性被控過程,不僅要求被控變量跟蹤設(shè)定值,而且要求以近似最優(yōu)方式跟蹤設(shè)定值。因此,考慮到設(shè)定值變化是一個慢過程,過程控制是一個快過程,在上層運(yùn)行指標(biāo)變化周期內(nèi),設(shè)定值不變,以最小化跟蹤誤差無窮累積和為優(yōu)化目標(biāo),以被控過程動態(tài),控制輸入受限、被控輸出受限為約束條件,闡述底層控制環(huán)優(yōu)化控制問題。
慢時間尺度最優(yōu)運(yùn)行控制問題描述
在第二階段,需要解決的科學(xué)難題為:a) 如何最小化實際運(yùn)行指標(biāo)與理想運(yùn)行指標(biāo)偏差;b) 多時間尺度問題。為解決問題a),鑒于研究內(nèi)容(2)中要設(shè)計近似最優(yōu)設(shè)定值,并且保證實際運(yùn)行指標(biāo)以近似最優(yōu)方式跟蹤理想運(yùn)行指標(biāo),在運(yùn)行指標(biāo)優(yōu)化問題描述中,目標(biāo)函數(shù)為實際運(yùn)行指標(biāo)與理想運(yùn)行指標(biāo)的期望均方誤差和設(shè)定值的二次型函數(shù),同時考慮實際復(fù)雜工業(yè)過程運(yùn)行指標(biāo)生成軌跡的非線性特征;為解決問題b),采用提升技術(shù),將第一階段中得到的底層過程控制系統(tǒng)提升為慢采樣系統(tǒng)。
(2) 多目標(biāo)多約束最優(yōu)化運(yùn)行控制問題描述;
結(jié)合實施方案一,提出以最小化實際運(yùn)行指標(biāo)與理想運(yùn)行指標(biāo)期望均方誤差和最小化跟蹤誤差為目標(biāo),以運(yùn)行指標(biāo)生成軌跡、運(yùn)行指標(biāo)受限、底層控制環(huán)被控過程動態(tài)、控制輸入受限和被控輸出受限為約束的多目標(biāo)多約束優(yōu)化控制問題。
控制目標(biāo):
(1)
約束條件:
(2)
其中分別為被控對象狀態(tài),控制輸入和控制輸出。為PI控制器的比例系數(shù),為PI控制器的積分系數(shù)。表示設(shè)定值與控制輸出的誤差,。為運(yùn)行指標(biāo),T為運(yùn)行指標(biāo)更新周期,k(k=1,2,…)為正整數(shù)。
(3) 數(shù)據(jù)驅(qū)動的近似最優(yōu)設(shè)定值設(shè)計
為求解所闡述的多目標(biāo)多約束優(yōu)化控制問題,需要在上層設(shè)計近似最優(yōu)設(shè)定值,在底層設(shè)計近似最優(yōu)跟蹤控制器。鑒于運(yùn)行指標(biāo)生成軌跡和被控過程動態(tài)很難精確建模,在該部分研究中,在ADP 框架下,給出不依賴運(yùn)行指標(biāo)生成軌跡和被控過程動態(tài)的近似最優(yōu)設(shè)定值設(shè)計方案,如圖3所示。
具有有界干擾項的慢時間尺度離散系統(tǒng)H∞控制問題
在第一階段,將上層運(yùn)行指標(biāo)最優(yōu)化問題轉(zhuǎn)化H∞控制問題,需要解決的科學(xué)難題包括:a) 運(yùn)行指標(biāo)生成軌跡為非線性且存在有界未知干擾;b) 如何將最小化實際運(yùn)行指標(biāo)與理想運(yùn)行指標(biāo)均方誤差優(yōu)化問題轉(zhuǎn)化為H∞控制問題。為解決問題a),假設(shè)刻畫運(yùn)行指標(biāo)的非線性函數(shù)二階連續(xù)可微,然后利用Taylor 展開式,得到具有有界干擾項的線性時不變系統(tǒng)方程;為解決問題b),設(shè)定障礙函數(shù),將運(yùn)行指標(biāo)約束條件、被控輸出約束條件和控制輸入約束條件轉(zhuǎn)化成二次型函數(shù),并且引入衰減因子,給出L2 增益性能指標(biāo),得到H∞控制問題。
不依賴模型參數(shù)的H∞控制算法設(shè)計
針對上層慢時間尺度,底層快時間尺度的一般的非線性離散運(yùn)行控制系統(tǒng),研究對象不同;并且,考慮運(yùn)行控制中存在有界未知干擾項。在這一階段,擬在ADP 框架下,有機(jī)融合DP、RL 和H∞控制等方法,提出一種不依賴模型參數(shù)的不依賴策略(Off-policy)的RL算法,得到近似最優(yōu)設(shè)定值。
(4) 算法的收斂性和系統(tǒng)穩(wěn)定性分析;
需要解決的科學(xué)難題包括:a) 不依賴運(yùn)行指標(biāo)生成軌跡和被控過程動態(tài)模型;b)運(yùn)行指標(biāo)生成軌跡受外界干擾;c) 理想運(yùn)行指標(biāo)非零情況下,近似最優(yōu)設(shè)定值設(shè)計算法;d)分析算法的收斂性及運(yùn)行指標(biāo)生成軌跡的穩(wěn)定性。為解決上述難題,首先將H∞控制問題轉(zhuǎn)化為具有折扣因子的線性二次跟蹤(LinearQuadratic Tracking, LQT)問題,折扣因子適用于理想運(yùn)行指標(biāo)非零情況下的最優(yōu)跟蹤問題;其次,利用DP 方法,并采用同構(gòu)映射,給出新的Bellman 方程;然后,采用值函數(shù)近似,執(zhí)行性能評估,基于實現(xiàn)目標(biāo)最優(yōu)性的必要條件,得到設(shè)定值更新策略,利用策略迭代得到學(xué)習(xí)最優(yōu)設(shè)定值的RL 算法。如果運(yùn)行指標(biāo)不可測量,可以采用神經(jīng)網(wǎng)絡(luò)估計;最后,基于李雅普諾夫(Lyapuov)穩(wěn)定性理論,最優(yōu)控制理論,分析算法的收斂性及運(yùn)行指標(biāo)生成軌跡穩(wěn)定性的條件。這里涉及到設(shè)定值初始值的選取和有界未知干擾項的處理。
底層過程控制環(huán)采用PI控制器,通過極點配置方法或者Z-N參數(shù)整定等方法設(shè)計控制器參數(shù),保證底層控制輸出跟蹤最優(yōu)設(shè)定值。
(5) 仿真和物理實驗驗證
擬采用仿真軟件、半實物仿真平臺和物理實驗平臺,聯(lián)合驗證理論方法和結(jié)果的有效性。根據(jù)仿真和物理實驗結(jié)果,對理論方法和控制技術(shù)做相應(yīng)調(diào)整。模擬仿真采用Java,Matlab軟件,編譯程序,仿真驗證運(yùn)行優(yōu)化控制算法。采用磨礦過程半實物仿真平臺執(zhí)行近似最優(yōu)設(shè)定值設(shè)計算法和底層控制環(huán)近似最優(yōu)控制器設(shè)計算法,驗證磨礦粒度是否控制在理想范圍內(nèi)。采用污水處理物理實驗平臺,執(zhí)行近似最優(yōu)設(shè)定值設(shè)計算法和底層控制環(huán)近似最優(yōu)控制器設(shè)計算法,驗證出水水質(zhì)和能量使用是否控制在理想范圍內(nèi)。
本發(fā)明在充分考慮復(fù)雜工業(yè)過程非線性、多時間尺度問題的情況下,采用ADP方法,研究數(shù)據(jù)驅(qū)動的運(yùn)行優(yōu)化控制問題方法,為智能制造的實現(xiàn)奠定堅實的理論基礎(chǔ)。主要優(yōu)點如下:
(1) 面向復(fù)雜工業(yè)運(yùn)行控制問題,提出了完全利用以往運(yùn)行指標(biāo)數(shù)據(jù)、以往設(shè)定值數(shù)據(jù)和以往控制輸入數(shù)據(jù)的近似最優(yōu)設(shè)定值設(shè)計算法和近似最優(yōu)跟蹤控制器設(shè)計算法,并且分析了算法的收斂性、運(yùn)行指標(biāo)生成軌跡和被控過程動態(tài)的穩(wěn)定性。
(2) 對于一般的非線性離散系統(tǒng),考慮系統(tǒng)存在未知干擾,在ADP 框架下,有機(jī)融合DP、RL 和H∞控制等方法,采用同構(gòu)映射,給出新的Bellman 方程,運(yùn)用值函數(shù)近似、策略迭代方法,提出一種不依賴模型參數(shù)的、完全利用數(shù)據(jù)的學(xué)習(xí)最優(yōu)設(shè)定值和最優(yōu)跟蹤控制策略的RL 算法。