本發(fā)明屬于超聲速飛行器控制領(lǐng)域,特別涉及一種基于深度強化學習的飛行器俯沖段軌跡規(guī)劃方法。
背景技術(shù):
1、吸氣式超聲速飛行器是一種利用吸氣式發(fā)動機技術(shù)實現(xiàn)超聲速飛行的飛行器,飛行器通過前進氣口將大氣中的氧氣噴入發(fā)動機燃燒室,燃料與燃燒結(jié)合產(chǎn)生推力,推動飛行器在空中飛行。與傳統(tǒng)渦噴發(fā)動機不同,吸氣式發(fā)動機在超聲速飛行過程中能保持穩(wěn)定的燃燒和推力,可執(zhí)行高速軍事偵察、遠程打擊、空中運輸?shù)热蝿?wù)。
2、吸氣式超聲速飛行器因其高速飛行和機動性,具有很強的戰(zhàn)術(shù)優(yōu)勢和突防能力。俯沖段彈道作為飛行器打擊目標的關(guān)鍵階段,起著至關(guān)重要的作用,俯沖段的軌跡優(yōu)化設(shè)計可以提高攻擊精度,優(yōu)化攻擊效果,增加攻擊的成功率和突襲性能。
3、目前,針對超聲速飛行器俯沖段的軌跡規(guī)劃方法主要為直接法和間接法。其中,間接法基于pontryagin極大值原理將最優(yōu)控制問題式轉(zhuǎn)化為hamilton邊值問題的過程復雜,并且求解時的收斂域很小,因而要求初始值的精度較高,使得間接法在應(yīng)用時耗時長,難以滿足軌跡規(guī)劃的時間要求,但其求解精度優(yōu)于直接法;直接法主要包括打靶法、偽譜法、微分包含法等,雖然相較于間接法的規(guī)劃時間較快,但當飛行器受到強干擾而偏離預先規(guī)劃的軌跡時,直接法也不能實現(xiàn)軌跡快速變更規(guī)劃的實時性。在實際飛行任務(wù)中,環(huán)境的變化、模型的不確定性以及力學特性的不確定性等因素會使飛行器的實際情況與設(shè)計的軌跡產(chǎn)生偏差甚至使其失效。這說明,實時性是飛行器軌跡優(yōu)化設(shè)計中非常重要的因素。然而,目前的傳統(tǒng)軌跡規(guī)劃方法對外界實時干擾的應(yīng)對能力差,且難以保證規(guī)劃實時性。
4、因此,如何在滿足飛行器動力學特性的條件下規(guī)劃出快時變、高精度的軌跡,以滿足實際飛行任務(wù)需求,是目前亟需解決的重要技術(shù)難題。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于深度強化學習的超聲速飛行器俯沖段軌跡規(guī)劃方法,基于深度強化學習算法,建立深度強化學習任務(wù)模型并進行求解,用以實現(xiàn)由外界因素等影響需快速在線變更規(guī)劃飛行器軌跡以到達指定目標地點的任務(wù)。
2、實現(xiàn)本發(fā)明目的的技術(shù)解決方案為:
3、一種基于深度強化學習的超聲速飛行器俯沖段軌跡規(guī)劃方法,所述方法包括:構(gòu)建飛行器軌跡規(guī)劃仿真環(huán)境,包括動力學模型建立和邊界約束條件的建立;
4、建立深度強化學習任務(wù)模型,即建立飛行器俯沖段的馬爾科夫決策模型,包括構(gòu)建狀態(tài)空間、動作空間和設(shè)計獎勵函數(shù),其中,獎勵函數(shù)設(shè)計基于目標落點區(qū)域進行設(shè)計;
5、采用基于演員-評論家框架的深度強化學習算法求解,以全狀態(tài)量為輸入,采用基于深度確定策略梯度算法進行計算,訓練得到代理模型;
6、調(diào)用訓練所得代理模型進行飛行器的在線軌跡規(guī)劃,得到所需飛行器俯沖段軌跡。
7、本發(fā)明與現(xiàn)有技術(shù)相比,其顯著優(yōu)點為:
8、1、本發(fā)明提出了一種基于深度強化學習的超聲速飛行器俯沖段軌跡規(guī)劃方法,通過將深度強化學習加以改進,使其能適用于飛行器的軌跡規(guī)劃問題,能快速有效地對飛行器進行在線軌跡規(guī)劃。
9、2、本發(fā)明通過構(gòu)建超聲速飛行器的動力學模型和交互環(huán)境,能有效實現(xiàn)超聲速飛行器的實際飛行任務(wù),且不局限于特定飛行器,利于對飛行器領(lǐng)域的不同類型進行研究,更具普適性;
10、3、本發(fā)明創(chuàng)新地進行相關(guān)的獎勵函數(shù)設(shè)計,能夠有效規(guī)劃出符合預定目標的飛行器軌跡,即能有效地將深度強化學習方法應(yīng)用于飛行器軌跡規(guī)劃領(lǐng)域,完成指定飛行任務(wù),為飛行器現(xiàn)代化制導控制技術(shù)奠定基礎(chǔ)。
1.一種基于深度強化學習的超聲速飛行器俯沖段軌跡規(guī)劃方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的飛行器俯沖段軌跡規(guī)劃方法,其特征在于,構(gòu)建飛行器軌跡規(guī)劃仿真環(huán)境中,飛行器的動力學模型為:
3.根據(jù)權(quán)利要求2所述的飛行器俯沖段軌跡規(guī)劃方法,其特征在于,構(gòu)建飛行器軌跡規(guī)劃仿真環(huán)境中,邊界約束為:俯沖段軌跡規(guī)劃問題的邊界約束為:
4.根據(jù)權(quán)利要求2所述的飛行器俯沖段軌跡規(guī)劃方法,其特征在于,建立深度強化學習任務(wù)模型中,構(gòu)建的狀態(tài)空間模型為:
5.根據(jù)權(quán)利要求1所述的飛行器俯沖段軌跡規(guī)劃方法,其特征在于建立深度強化學習任務(wù)模型中,構(gòu)建的動作空間模型為:
6.根據(jù)權(quán)利要求1所述的飛行器俯沖段軌跡規(guī)劃方法,其特征在于,建立深度強化學習任務(wù)模型中,構(gòu)建的獎勵函數(shù)為:
7.根據(jù)權(quán)利要求6所述的飛行器俯沖段軌跡規(guī)劃方法,其特征在于,獎勵設(shè)計定義為:
8.根據(jù)權(quán)利要求2所述的飛行器俯沖段軌跡規(guī)劃方法,其特征在于,升力l和阻力d的計算公式分別為:
9.根據(jù)權(quán)利要求1所述的飛行器俯沖段軌跡規(guī)劃方法,其特征在于,采用基于演員-評論家框架的深度強化學習算法求解,以全狀態(tài)量為輸入,采用基于深度確定策略梯度算法進行計算,訓練得到代理模型;具體步驟為: