一種液體火箭發(fā)動機起動過程控制方法及系統(tǒng)

文檔序號：40444197發(fā)布日期：2024-12-24 15:18閱讀：34來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>發(fā)動機及配件附件的制造及其應(yīng)用技術(shù)

本發(fā)明涉及液體火箭發(fā)動機領(lǐng)域和強化學(xué)習(xí)算法，更具體地說，特別涉及一種液體火箭發(fā)動機起動過程控制方法及系統(tǒng)。

背景技術(shù)：

1、2024年3月14日，spacex的重型可重復(fù)使用運載火箭星艦，在經(jīng)歷了前兩次發(fā)射失敗之后，在第三次發(fā)射中成功入軌，將航天技術(shù)推向新的發(fā)展高度。液體火箭發(fā)動機的起動過程是一個極其復(fù)雜且關(guān)鍵的階段，涉及到多個系統(tǒng)和子系統(tǒng)的精確協(xié)調(diào)與控制。傳統(tǒng)的控制方法依賴于經(jīng)驗設(shè)計的控制策略和固定參數(shù)，這雖然在一定程度上保證了發(fā)動機的啟動性能，但常常因缺乏適應(yīng)性而難以應(yīng)對多變的外部環(huán)境和內(nèi)部狀態(tài)變化。

2、隨著人工智能技術(shù)的發(fā)展，強化學(xué)習(xí)作為一種能夠通過與環(huán)境的交互學(xué)習(xí)最優(yōu)策略的算法，為動態(tài)復(fù)雜系統(tǒng)的控制提供了新的解決方案。強化學(xué)習(xí)通過不斷試錯來優(yōu)化控制策略，使得系統(tǒng)能夠在未知和變化的環(huán)境中找到性能最優(yōu)化的操作方式?；趶娀瘜W(xué)習(xí)的控制方法已近在航空航天領(lǐng)域的控制中進行了一些初步的研究與應(yīng)用，并取得較好的結(jié)果。因此，強化學(xué)習(xí)成為一種為液體火箭發(fā)動機控制提供一種新的思路和技術(shù)途徑。

技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于提供一種液體火箭發(fā)動機起動過程控制方法及系統(tǒng)，以克服現(xiàn)有技術(shù)所存在的缺陷。

2、為了達(dá)到上述目的，本發(fā)明采用的技術(shù)方案如下：

3、一種液體火箭發(fā)動機起動過程控制方法，包括以下步驟：

4、s1、建立火箭發(fā)動機模型；

5、s2、定義火箭發(fā)動機模型啟動過程中的狀態(tài)空間、動作空間和獎勵函數(shù)；

6、s3、對td3算法進行包括10次迭代的更新和使用退火學(xué)習(xí)率的改進，形成改進后的im-td3算法；

7、s4、使用步驟s3中的im-td3算法設(shè)計、訓(xùn)練和評估rl控制器，將步驟s2中的狀態(tài)空間作為rl控制器的輸入，用于對液體火箭發(fā)動機起動過程進行控制。

8、進一步地，所述步驟s1采用仿真軟件或編程語言建立火箭發(fā)動機模型，該火箭發(fā)動機模型可使需要分析的變量能夠輸出。

9、進一步地，所述步驟s2的狀態(tài)空間包括渦輪轉(zhuǎn)速、燃燒室壓力、混合比和閥門開度，所述動作空間包括啟動過程中控制的閥門，所述獎勵函數(shù)包括啟動成功后達(dá)到穩(wěn)態(tài)的目標(biāo)值、導(dǎo)致發(fā)動機損壞或啟動失敗的因素、影響發(fā)動機性能的因素。

10、進一步地，所述觀察空間s的公式定義為：

11、s＝[pg,pc,f,nt,nfpp,mrgg,posvgo,posvgf,posvcf]

12、式中，pg,pc,f,nt,nfpp,mrgg分別為燃?xì)獍l(fā)生器壓力、主燃燒室壓力、推力大小、主渦輪轉(zhuǎn)速、燃料預(yù)壓泵轉(zhuǎn)速、燃?xì)獍l(fā)生器混合比，posvgo,posvgf,posvcf為所控制的閥門的開度；

13、所述動作空間a的公式定義為：

14、a＝[posvgo,posvgf,posvcf]

15、所述獎勵函數(shù)的公式定義為：

16、reward＝r1+r2+r3+r4+r5

17、式中，εi∈[pg,pc,f,nt,nfpp]對目標(biāo)值靠近的獎勵；

18、r2＝1-clip(f-fref/fref|,1)；

19、

20、acti∈[posvgo,posvgf,posvcf]分別表示三個閥門的開度，s表示閥門前后兩個時間步長之間閥門位置的變化；

21、at表示閥門的開啟時間。

22、進一步地，所述步驟s3中改進后的im-td3算法具體包括以下步驟：

23、s30、初始化評價網(wǎng)絡(luò)qθ1、qθ2和行動者網(wǎng)絡(luò)πφ，參數(shù)θ1、θ2、φ隨機賦值；

24、s31、初始化目標(biāo)網(wǎng)絡(luò)θ1′←θ1、θ2′←θ2、φ′←φ；

25、s32、初始化回放緩沖區(qū)b和學(xué)習(xí)率調(diào)度器；

26、s33、對于t＝1至t，執(zhí)行10次迭代訓(xùn)練更新。

27、進一步地，所述步驟s33中執(zhí)行10次迭代訓(xùn)練更新具體包括：

28、s330、從回放緩沖區(qū)中抽樣得到轉(zhuǎn)移(s,a,r,s′,d)；

29、s331、禁用目標(biāo)更新的梯度計算：

30、計算目標(biāo)動作a′＝πφ′(s′)+clip(n(0,σ),-c,c)

31、計算目標(biāo)動作a′＝πφ′(s′)+clip(n(0,σ),-c,c)

32、計算目標(biāo)qtarget＝r+(1-d)·γ·q′

33、s332、使用mse損失更新評價網(wǎng)絡(luò)：mse(qθ(s,a),qtarget)；

34、s333、若i?modpolicy_freq＝0，通過最大化評價網(wǎng)絡(luò)的q值來更新行動者網(wǎng)絡(luò)、軟更新目標(biāo)網(wǎng)絡(luò)θi′和φ′；

35、s334、使用調(diào)度器調(diào)整學(xué)習(xí)率；

36、其中，qθ1,qθ2：由參數(shù)θ1和θ2參數(shù)化的評價網(wǎng)絡(luò)；

37、πφ：由參數(shù)φ參數(shù)化的行動者網(wǎng)絡(luò)；

38、θ1′,θ2′,φ′表示評價和行動者網(wǎng)絡(luò)的目標(biāo)網(wǎng)絡(luò)；

39、b表示用于存儲轉(zhuǎn)移元組的回放緩沖區(qū)；

40、s,a,r,s′,d表示從回放緩沖區(qū)抽樣得到的狀態(tài)、動作、獎勵、下一狀態(tài)和完成標(biāo)志；

41、a′表示使用目標(biāo)行動者網(wǎng)絡(luò)和噪聲剪切計算的目標(biāo)動作；

42、q′表示使用目標(biāo)評價網(wǎng)絡(luò)計算的目標(biāo)q值；

43、qtarget表示q值更新的目標(biāo)；

44、γ表示未來獎勵的折扣因子；

45、σ,c表示動作空間中噪聲生成和剪切的參數(shù)；

46、mse表示用于更新評價網(wǎng)絡(luò)的均方誤差損失；

47、policy_freq表示策略更新相對于評價更新的頻率。

48、進一步地，所述步驟s4中基于matlab-simulink仿真平臺，使用python代碼實現(xiàn)基于im-td3算法的rl控制器。

49、本發(fā)明還提供一種用于實現(xiàn)上述的液體火箭發(fā)動機起動過程控制方法的系統(tǒng)，包括：

50、建模模塊，用于建立火箭發(fā)動機模型；

51、參數(shù)定義模塊，用于定義火箭發(fā)動機模型啟動過程中的狀態(tài)空間、動作空間和獎勵函數(shù)；

52、算法改進模塊，用于對td3算法進行包括10次迭代的更新和使用退火學(xué)習(xí)率的改進，形成改進后的im-td3算法；

53、rl控制器設(shè)計模塊，用于使用步驟s3中的im-td3算法設(shè)計、訓(xùn)練和評估rl控制器，將步驟s2中的狀態(tài)空間作為rl控制器的輸入，用于對液體火箭發(fā)動機起動過程進行控制；

54、所述建模模塊、參數(shù)定義模塊、算法改進模塊和rl控制器設(shè)計模塊依次連接。

55、與現(xiàn)有技術(shù)相比，本發(fā)明的優(yōu)點在于：本發(fā)明通過在建立的發(fā)動機模型上，確定狀態(tài)空間、動作空間和獎勵函數(shù)，使用im-td3算法，設(shè)計、訓(xùn)練和評估rl控制器，用于對火箭發(fā)動機起動過程進行控制。本發(fā)明實現(xiàn)火箭發(fā)動機的智能化控制，與傳統(tǒng)的開環(huán)、閉環(huán)控制方法相比，本發(fā)明不需要大量的地面試車經(jīng)驗，不需要設(shè)計復(fù)雜的控制邏輯，通過設(shè)計合適的獎勵函數(shù)能實現(xiàn)復(fù)雜的目標(biāo)，并且與td3算法相比，該方法的在火箭發(fā)動機的控制問題上，模型訓(xùn)練的穩(wěn)定性和收斂性更好。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉育瑋,吳建軍,程玉強,潘為,楊述明,李陽,鄧凌志,王彪
技術(shù)所有人：中國人民解放軍國防科技大學(xué)
我是此專利的發(fā)明人

上一篇：口腔正畸用隔濕咬合墊
上一篇：一種水性涂料過篩設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、朱老師：1.新能源汽車電驅(qū)動技術(shù) 2.輪轂電機驅(qū)動與控制 3.開關(guān)磁阻電機驅(qū)動系統(tǒng)控制 4.智能電動汽車
2、徐老師：1.內(nèi)燃機節(jié)能及排放控制技術(shù) ? 2.汽車節(jié)能與新能源汽車技術(shù) ??3. 車輛現(xiàn)代設(shè)計理論與方法
3、趙老師：1.智能控制理論及應(yīng)用 2.機器人控制技術(shù) 3.新能源控制技術(shù)與應(yīng)用
4、卞老師：1.汽車動態(tài)仿真與控制 2.機構(gòu)動力學(xué) 3.現(xiàn)代汽車設(shè)計技術(shù) 3.車輛系統(tǒng)動力學(xué)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種液體火箭發(fā)動機起動過程控制方法及系統(tǒng)