亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于深度強化學(xué)習(xí)與時間約束的低空航空器沖突解脫方法

文檔序號:40405342發(fā)布日期:2024-12-20 12:29閱讀:17來源:國知局
基于深度強化學(xué)習(xí)與時間約束的低空航空器沖突解脫方法

本發(fā)明屬于航空安全,尤其涉及一種基于深度強化學(xué)習(xí)與時間約束的低空航空器沖突解脫方法。


背景技術(shù):

1、隨著無人機技術(shù)的快速發(fā)展,無人機在物流配送、巡查監(jiān)控、環(huán)境監(jiān)測、救援等多個領(lǐng)域得到了廣泛的應(yīng)用。然而,隨著不斷增加的無人機數(shù)量和城市環(huán)境中復(fù)雜多變的運行條件,低空無人機面臨的空中沖突問題越來越嚴峻。

2、沖突解脫方法在航空安全運行中扮演著關(guān)鍵角色,尤其是在高密度的低空無人駕駛運行。低空無人駕駛運行指在狹小的城市空域內(nèi)有大量的無人駕駛航空器同時進行人或物的轉(zhuǎn)移。高密度降低了航空器之間的間隔和沖突解脫的反應(yīng)時間,增加了多無人駕駛航空器之間的相互影響。

3、戰(zhàn)術(shù)沖突解脫指在無人機飛行過程中,實時監(jiān)測無人機與其周圍環(huán)境的相對位置,并通過動態(tài)調(diào)整飛行路徑以規(guī)避可能的沖突。傳統(tǒng)的航空器戰(zhàn)術(shù)沖突解脫方法是以管制員和駕駛員溝通決策進行沖突解脫,但這種方式溝通決策效率太低,無法應(yīng)用于低空運輸場景。而現(xiàn)有的基于強化學(xué)習(xí)進行沖突解脫的方法側(cè)重于最大化避免碰撞的成功率,卻沒有考慮達到目標(biāo)位置的時間約束,到達準點率很低。若航空器不能按時到達目標(biāo)位置,則會為運行計劃調(diào)度帶來影響,并且會與空中其他運行的航空器產(chǎn)生二次影響,大大增加空域管理的復(fù)雜性。


技術(shù)實現(xiàn)思路

1、針對現(xiàn)有技術(shù)中的上述不足,本發(fā)明提供的一種基于深度強化學(xué)習(xí)與時間約束的低空航空器沖突解脫方法,通過在低空高密度的運行場景下,實現(xiàn)本體航空器與靜態(tài)障礙物和非合作目標(biāo)航空器間的戰(zhàn)術(shù)沖突解脫,解決了低空航空器的沖突解脫能力和準點率不足的問題。

2、為了達到上述發(fā)明目的,本發(fā)明采用的技術(shù)方案為:

3、本發(fā)明提供的一種基于深度強化學(xué)習(xí)與時間約束的低空航空器沖突解脫方法,包括如下步驟:

4、s1、設(shè)置靜態(tài)障礙物和非合作目標(biāo)航空器,以構(gòu)建低空運行環(huán)境;

5、s2、構(gòu)建低空運行環(huán)境中航空器的狀態(tài)空間和動作空間;

6、s3、根據(jù)本機航空器與靜態(tài)障礙物或非合作目標(biāo)航空器間距離,以及本機航空器到達目標(biāo)位置的準點時間,構(gòu)建帶有時間約束的獎勵函數(shù);

7、s4、根據(jù)帶有時間約束的獎勵函數(shù)、低空運行環(huán)境中航空器的狀態(tài)空間和動作空間,基于深度強化學(xué)習(xí)模型在低空運行環(huán)境中進行低空航空器沖突解脫訓(xùn)練,得到訓(xùn)練好深度強化學(xué)習(xí)模型;

8、s5、獲取本體航空器在執(zhí)行實際沖突解脫任務(wù)中的當(dāng)前狀態(tài),并利用訓(xùn)練好的深度強化學(xué)習(xí)模型輸出獎勵值最高時對應(yīng)的動作,以避免沖突的同時及時達到目標(biāo)位置。

9、本發(fā)明的有益效果為:本發(fā)明提供的一種基于深度強化學(xué)習(xí)與時間約束的低空航空器沖突解脫方法,通過構(gòu)建低空運行環(huán)境,以及航空器的狀態(tài)空間和動作空間,為對航空器進行沖突解脫訓(xùn)練提供了智能體模擬行動基礎(chǔ);通過構(gòu)建帶有時間約束的獎勵函數(shù),為訓(xùn)練航空器及時準確到達目標(biāo)位置提供了基礎(chǔ);基于深度強化學(xué)習(xí)模型對航空器進行沖突解脫訓(xùn)練,提升了航空器沖突解脫訓(xùn)練的效率和準確性,也實現(xiàn)了航空器有效避障情況下,大幅提升到達目標(biāo)位置的準點率。

10、進一步地,所述s2包括如下步驟:

11、s21、根據(jù)航空器的探測距離,以本機航空器為中心將探測區(qū)域平均劃分為6個扇形探測子區(qū)域;

12、s22、分別選擇每個扇形探測子區(qū)域內(nèi)離本機航空器距離最近的靜態(tài)障礙物或非合作目標(biāo)航空器的信息作為狀態(tài)輸入,得到航空器的狀態(tài)空間;

13、所述狀態(tài)空間的計算表達式如下:

14、,

15、其中,s表示航空器的狀態(tài)空間,表示目標(biāo)位置,表示本機航空器的位置,表示本機航空器的速度,表示第i個扇形探測子區(qū)域內(nèi)距離本機航空器最近的靜態(tài)障礙物或非合作目標(biāo)航空器的相對位置,表示第i個扇形探測子區(qū)域內(nèi)距離本機航空器最近的靜態(tài)障礙物或非合作目標(biāo)航空器的相對速度,其中,i=1,2,3,4,5,6;

16、s23、根據(jù)航空器戰(zhàn)術(shù)沖突解脫任務(wù),構(gòu)建航空器的動作空間;

17、所述動作空間的計算表達式如下:

18、,

19、其中,a表示航空器的動作空間,表示航空器的航向角變化量,表示航空器的速度變化量。

20、采用上述進一步方案的有益效果為:本發(fā)明提供構(gòu)建低空運行環(huán)境中航空器的狀態(tài)空間和動作空間,為航空器在低空運行環(huán)境中執(zhí)行沖突解脫任務(wù)訓(xùn)練時的狀態(tài)變化和動作變化進行約束,保障了低空運行環(huán)境的穩(wěn)定性,為航空器避障準點到達目標(biāo)位置提供行動約束基礎(chǔ)。

21、進一步地,所述s3包括如下步驟:

22、s31、根據(jù)目標(biāo)航空器與靜態(tài)障礙物或非合作目標(biāo)航空器間的距離關(guān)系,構(gòu)建沖突解脫獎勵;

23、所述沖突解脫獎勵的計算表達式如下:

24、,

25、,

26、,

27、其中,表示沖突解脫獎勵,表示距離變化獎勵,表示距離最近獎勵,表示距離變化獎勵值,表示本機航空器與靜態(tài)障礙物或非合作目標(biāo)航空器間的距離變化值,表示當(dāng)前時刻本機航空器與靜態(tài)障礙物或非合作目標(biāo)航空器間的距離,表示上一時刻本機航空器與靜態(tài)障礙物或非合作目標(biāo)航空器間的距離,表示距離最近獎勵縮放因子,log表示對數(shù)運算,表示本機航空器與靜態(tài)障礙物或非合作目標(biāo)航空器間最近的距離,表示航空器的探測距離;

28、s32、根據(jù)本機航空器到達目標(biāo)位置的準點時間和實際時間,構(gòu)建準點時間約束獎勵;

29、所述時間約束獎勵的計算表達式如下:

30、,

31、其中,表示時間約束獎勵,表示時間約束獎勵縮放因子,e表示指數(shù)基底常數(shù),t表示本機航空器到達目標(biāo)位置時的實際時間,表示本機航空器到達目標(biāo)位置的準點時間,表示獎勵寬度分布控制因子;

32、s33、基于沖突解脫獎勵和時間約束獎勵,得到帶有時間約束的獎勵函數(shù);

33、所述帶有時間約束的獎勵函數(shù)的計算表達式如下:

34、,

35、其中,r表示帶有時間約束的獎勵函數(shù)。

36、采用上述進一步方案的有益效果為:本發(fā)明根據(jù)本機航空器與靜態(tài)障礙物或非合作目標(biāo)航空器間距離,以及本機航空器到達目標(biāo)位置的準點時間,構(gòu)建了帶有時間約束的獎勵函數(shù),基于有時間約束的獎勵函數(shù),能夠為有效提升沖突解脫訓(xùn)練后航空器到達目標(biāo)位置的準點率提供基礎(chǔ)。

37、進一步地,所述s4包括如下步驟:

38、s41、構(gòu)建用于存儲運行數(shù)據(jù)的經(jīng)驗回放池;

39、s42、設(shè)置模型訓(xùn)練參數(shù);

40、s43、構(gòu)建基于rainbow?dqn的深度強化學(xué)習(xí)模型,其中,深度強化學(xué)習(xí)模型包括用于預(yù)測下一時刻本體無人機動作的第一神經(jīng)網(wǎng)絡(luò)和用于更新目標(biāo)q值的第二神經(jīng)網(wǎng)絡(luò);

41、s44、將深度強化學(xué)習(xí)模型接入低空運行環(huán)境和經(jīng)驗回放池;

42、s45、根據(jù)低空運行環(huán)境中航空器的狀態(tài)空間和動作空間、帶有時間約束的獎勵函數(shù)和第二神經(jīng)網(wǎng)絡(luò),令本機航空器作為智能體重復(fù)在低空運行環(huán)境中進行沖突解脫訓(xùn)練,得到每次沖突解脫訓(xùn)練對應(yīng)的運行數(shù)據(jù)和目標(biāo)q值;

43、s46、將第一神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)同步到第二神經(jīng)網(wǎng)絡(luò);

44、s47、根據(jù)帶有時間約束的獎勵函數(shù),通過訓(xùn)練后的第一神經(jīng)網(wǎng)絡(luò)優(yōu)化本體無人機在沖突訓(xùn)練過程中的動作,從而使得第二神經(jīng)網(wǎng)絡(luò)更新的目標(biāo)q值不斷增大,直至穩(wěn)定趨近于期望的目標(biāo)q值,得到訓(xùn)練好的深度強化學(xué)習(xí)模型。

45、采用上述進一步方案的有益效果為:本發(fā)明采用深度強化學(xué)習(xí)結(jié)合帶有時間約束的方法,對低空航空器進行沖突解脫訓(xùn)練,能夠使得訓(xùn)練好的航空器高效地完成高密度環(huán)境下戰(zhàn)術(shù)沖突解脫,同時,還能夠有效地提高航空在進行了沖突解脫后的準點率。

46、進一步地,所述s45包括如下步驟:

47、s451、設(shè)置沖突解脫訓(xùn)練的訓(xùn)練次數(shù)閾值和單次沖突解脫訓(xùn)練的訓(xùn)練時長;

48、s452、將本體航空器作為智能體設(shè)置于低空運行環(huán)境中的任意位置,并將該位置作為當(dāng)次沖突解脫訓(xùn)練時的初始位置,并初始化本體無人機的狀態(tài);

49、s453、根據(jù)低空運行環(huán)境中航空器的狀態(tài)空間和動作空間,基于當(dāng)前時刻本體無人機的狀態(tài)和動作,得到下一時刻本體無人機的狀態(tài),并根據(jù)帶有時間約束的獎勵函數(shù)和第二神經(jīng)網(wǎng)絡(luò),對應(yīng)得到當(dāng)前時刻本體無人機的獎勵值以及下一時刻本體無人機的狀態(tài)對應(yīng)的目標(biāo)q值,直至本體無人機到達目標(biāo)位置或達到單次沖突解脫訓(xùn)練的訓(xùn)練時長,完成單次沖突解脫訓(xùn)練;

50、s454、每輪次沖突解脫訓(xùn)練后,將單次沖突解脫訓(xùn)練中每一時刻的運行數(shù)據(jù)存儲到經(jīng)驗回放池中,并從經(jīng)驗回放池中隨機抽取若干運行數(shù)據(jù),結(jié)合各運行數(shù)據(jù)對應(yīng)時刻的目標(biāo)q值,以最小化第一神經(jīng)網(wǎng)絡(luò)的預(yù)測輸出與實際輸出間誤差為目標(biāo)訓(xùn)練第一神經(jīng)網(wǎng)絡(luò);

51、s455、判斷本體無人機進行沖突解脫訓(xùn)練的次數(shù)是否達到訓(xùn)練次數(shù)閾值,若是則進入s46,否則返回s452。

52、采用上述進一步方案的有益效果為:本發(fā)明提供基于深度強化學(xué)習(xí)結(jié)合帶有時間約束的獎勵函數(shù),對本體無人機進行沖突解脫訓(xùn)練方法,通過rainbow?dqn強化學(xué)習(xí)模型進行決策,大大提升了穩(wěn)定地有效避障并準點到達目標(biāo)位置的能力。

53、進一步地,所述運行數(shù)據(jù)包括當(dāng)前時刻下本體無人機的動作、狀態(tài)、對應(yīng)的獎勵值和下一時刻本體無人機的狀態(tài),其中,智能體根據(jù)當(dāng)前時刻的狀態(tài)和動作,在執(zhí)行完成當(dāng)前時刻的動作后,得到當(dāng)前時刻對應(yīng)的獎勵值和下一時刻智能體的狀態(tài)。

54、采用上述進一步方案的有益效果為:本發(fā)明提供運行數(shù)據(jù)的具體組成,運行數(shù)據(jù)體現(xiàn)了航空器作為智能體在低空運行環(huán)境下的避障行為,能夠為訓(xùn)練深度強化學(xué)習(xí)模型以提升航空器的避障能力和準點率提供基礎(chǔ)。

55、針對于本發(fā)明還具有的其他優(yōu)勢將在后續(xù)的實施例中進行更細致的分析。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1