亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種十字路口多車雙層調(diào)度方法

文檔序號:40380869發(fā)布日期:2024-12-20 12:03閱讀:5來源:國知局
一種十字路口多車雙層調(diào)度方法

本發(fā)明涉及智能交通,更具體地,涉及深度強化學習和風險場的十字路口多車雙層調(diào)度方法。


背景技術(shù):

1、智能交通系統(tǒng)引入了網(wǎng)聯(lián)自動駕駛車輛(connected?autonomous?vehicles,cavs)和車聯(lián)網(wǎng)(vehicle-to-everything,v2x)技術(shù),能夠?qū)崿F(xiàn)車輛與車輛(vehicle-to-vehicle,v2v)、車輛與基礎設施(vehicle-to-infrastructure,v2i)、車輛與行人(vehicle-to-pedstrain,v2p)以及車輛與網(wǎng)絡(vehicle-to-network,v2n)之間的實時信息交互。這為無信號燈十字路口調(diào)度提供了新的解決方案,通過動態(tài)感知交通流量和環(huán)境信息,優(yōu)化車輛的通行路徑和通行時間,提高交通效率和通行安全性。

2、目前,無信號燈十字路口多車調(diào)度的研究大多集中在集中式調(diào)度方法上,即利用整個交叉口的全局信息,對所有駛近車輛的運動進行集中組織。在這類調(diào)度方法中,計算量通常隨著車輛數(shù)量的增加而迅速增加,需要仔細確定,以保證實時實現(xiàn)的可行性。此外,目前大多數(shù)研究都只考慮網(wǎng)聯(lián)自動駕駛汽車,但目前來說,實現(xiàn)完全網(wǎng)聯(lián)自動駕駛?cè)杂芯嚯x,因而在實現(xiàn)多車調(diào)度的時候考慮人類駕駛車輛或者其他障礙物是有必要的。

3、申請公布號為cn117373249a的發(fā)明公開了一種雙向兩車道無信號交叉路口的車輛調(diào)度方法及系統(tǒng),包括:步驟s1:根據(jù)給定的真實雙向兩車道十字交叉路口車輛行駛情況對車輛進行預處理,判斷車輛之間是否會發(fā)生碰撞,分析車輛間的沖突關系;步驟s2:構(gòu)建基于沖突關系深度搜索的車輛調(diào)度模型;步驟s3:利用非線性規(guī)劃實現(xiàn)車輛的行動決策,求出最優(yōu)通過時間及車輛行駛加速度;根據(jù)車輛調(diào)度模型,進行下層規(guī)劃,設計無信號交叉口車輛調(diào)度實現(xiàn)策略;步驟s4:根據(jù)給定的真實十字交叉路口場景搭建十字交叉路口仿真場景,初始化各車輛的車輛信息;步驟s5:將車輛信息輸入至車輛調(diào)度模型,進行行為決策,得到下一時刻各車輛的動作輸出。該發(fā)明能夠提高網(wǎng)聯(lián)自動駕駛車輛通行效率,降低事故發(fā)生概率,但是不能在減少調(diào)度算法復雜度和計算量,保證實時調(diào)度的同時考慮人類駕駛車輛或障礙物的影響以調(diào)整局部軌跡規(guī)劃。


技術(shù)實現(xiàn)思路

1、本發(fā)明為克服上述現(xiàn)有技術(shù)存在的在減少調(diào)度算法復雜度和計算量,保證實時調(diào)度的同時考慮人類駕駛車輛或障礙物的影響以調(diào)整局部軌跡規(guī)劃的缺陷,提供一種十字路口多車雙層調(diào)度方法。

2、為了實現(xiàn)上述發(fā)明目的,本發(fā)明的技術(shù)方案包括:

3、構(gòu)建十字路口模型和車輛運動模型;

4、基于所述十字路口模型和車輛運動模型,建立attd3算法模型并進行訓練,利用所述attd3算法模型來設計上層多網(wǎng)聯(lián)自動駕駛車輛調(diào)度策略;

5、在每輛網(wǎng)聯(lián)自動駕駛車輛根據(jù)所述上層多網(wǎng)聯(lián)自動駕駛車輛調(diào)度策略得到一條可行軌跡后,對所述可行軌跡進行frenet坐標系下的軌跡規(guī)劃,并利用風險場建立人類駕駛車輛模型,基于所述frenet坐標系下的軌跡規(guī)劃和所述利用風險場建立人類駕駛車輛模型來設計下層網(wǎng)聯(lián)自動駕駛車輛局部軌跡重規(guī)劃策略;

6、基于所述上層多網(wǎng)聯(lián)自動駕駛車輛調(diào)度策略和下層網(wǎng)聯(lián)自動駕駛車輛局部軌跡重規(guī)劃策略進行十字路口多車輛調(diào)度。

7、進一步地,所述十字路口為無信號燈雙向兩車道十字路口,所述十字路口模型的地圖基于lanelet2框架繪制而成,對于靠右車道,車輛可以選擇右轉(zhuǎn)或者直行,對于靠左車道,車輛可以選擇左轉(zhuǎn)或者直行。

8、進一步地,規(guī)定每輛網(wǎng)聯(lián)自動駕駛車輛在進入十字路口后都遵循車道的一條既定路徑駕駛,車輛的運動可以分解為x軸上和y軸上的運動,所述車輛運動模型表示為如下公式:

9、vi(t+1)=vi(t)+ai(t)τ

10、xi(t+1)=xi(t)+vi(t+1)cosθτ

11、yi(t+1)=y(tǒng)i(t)+vi(t+1)sinθτ

12、其中,θ是車輛的航向角,通過車輛當前位置以及目標點的位置計算而來,τ是控制時間步長,vi和ai分別是車輛的加速度和速度,xi和yi是車輛x軸和y軸兩個方向上的位置。

13、進一步地,所述建立attd3算法模型并進行訓練包括如下步驟:

14、基于所述十字路口模型和車輛運動模型,建立馬爾科夫決策過程mdp模型;

15、根據(jù)所述mdp模型,構(gòu)建td3算法模型;

16、在所述td3模型中引入注意力機制self-attention,構(gòu)建attd3算法模型并進行訓練。

17、更進一步地,所述馬爾科夫決策過程mdp模型由元組(s,a,p,e,γ)組成,其中s是狀態(tài)空間,a是動作空間,p是狀態(tài)轉(zhuǎn)移概率、r是獎勵函數(shù)、γ∈(0,1)是折扣因子;

18、采用無模型強化學習,不設定狀態(tài)轉(zhuǎn)移概率p,狀態(tài)空間s包括每輛車的位置和速度信息,網(wǎng)聯(lián)自動駕駛車輛在既定路徑行駛,動作空間a為每輛車的加速度;

19、從車輛的行駛效率、車輛行駛的舒適度以及避免車輛間碰撞發(fā)生這三個方面考慮,設置如下獎勵函數(shù):

20、

21、其中,vcurrent是車輛當前速度,vmax是車輛最大速度;

22、

23、其中,aokd為上次的加速度,anew為當前的加速度;

24、

25、其中,dist是車輛發(fā)生碰撞時,碰撞車輛之間的距離之和;

26、

27、rtotal=ωeff*reff+ωcom*rcom+ωcol*rcol+ωrearrea

28、其中,rtotal為總獎勵,reff是針對車輛行駛效率的獎勵函數(shù),rcom是針對車輛行駛舒適度的獎勵函數(shù),rcol是避免車輛間碰撞的獎勵函數(shù),rrea為任務完成的獎勵函數(shù),ωeff、ωcom、ωcol、ωrea分別為對應的獎勵系數(shù)。

29、進一步地,所述根據(jù)mdp模型,構(gòu)建td3算法模型包括如下步驟:

30、td3算法由六個網(wǎng)絡組成,分別是actor網(wǎng)絡π(·|φπ)、critic1網(wǎng)絡critic2網(wǎng)絡target?actor網(wǎng)絡π′(·|φπ′)、target?critic1網(wǎng)絡和target?critic2網(wǎng)絡

31、在每個時間步中,獲取當前智能體狀態(tài)s,根據(jù)當前狀態(tài)s從actor網(wǎng)絡選擇動作a;

32、執(zhí)行相應動作獲得相應獎勵r和目標狀態(tài)s′,并將元組(s,a,r,s′)存儲到經(jīng)驗回放緩沖區(qū);

33、在經(jīng)驗回放緩沖區(qū)隨機采樣一個小批量經(jīng)驗(s,a,r,s′),批次大小為n,依次從target?actor網(wǎng)絡生成目標動作a′;

34、根據(jù)貝爾曼公式從target?critic1和target?critirc2網(wǎng)絡計算目標q值y;

35、計算td-error作為critic1和critic2網(wǎng)絡的損失函數(shù);

36、通過最小化critic1和critic2網(wǎng)絡的損失函數(shù)更新critic網(wǎng)絡參數(shù);

37、針對actor網(wǎng)絡和目標網(wǎng)絡的更新,actor網(wǎng)絡采用延遲更新,目標網(wǎng)絡更新同時采用延遲更新和軟更新,在每隔n步后,首先計算actor網(wǎng)絡的損失函數(shù);

38、通過最小化actor網(wǎng)絡的損失函數(shù)更新actor網(wǎng)絡參數(shù);

39、更進一步地,所述構(gòu)建attd3算法模型并進行訓練包括:

40、在每個時間步中,獲取當前智能體狀態(tài)s,根據(jù)當前狀態(tài)s從actor網(wǎng)絡選擇動作ab;

41、提取actor網(wǎng)絡、critic1和critic2網(wǎng)絡的特征,得到actor特征、critic1特征以及critic2特征;

42、通過求解critic1特征、critic2特征的平均和得到相應的critic特征;

43、將actor特征作為注意力機制中的query和value,critic特征作為key,通過自注意力機制網(wǎng)絡輸出attention?actor特征;

44、將attention?actor特征輸入到actor網(wǎng)絡的輸出層,得到新的動作at;

45、根據(jù)由正常actor網(wǎng)絡輸出的動作ab以及注意力機制影響后的動作at,分別計算兩個動作的q值;

46、最后選擇q值較大對應的動作作為對應輸出動作a;

47、之后訓練過程與所述td3算法模型一致,對在引入注意力機制時引入的新的注意力網(wǎng)絡層設置損失函數(shù),損失函數(shù)設計如下:

48、

49、其中,注意力機制網(wǎng)絡層更新與actor網(wǎng)絡和目標網(wǎng)絡的更新同步。

50、進一步地,所述對可行軌跡進行frenet坐標系下的軌跡規(guī)劃包括:

51、將在笛卡爾坐標系下的軌跡規(guī)劃轉(zhuǎn)換到frenet坐標系下,在frenet坐標系下,沿著參考軌跡的方向為縱向s,垂直于參考軌跡方向為橫向d,車輛的運動狀態(tài)為

52、將frenet坐標系下的軌跡規(guī)劃分為橫向規(guī)劃和縱向規(guī)劃,規(guī)定網(wǎng)聯(lián)自動駕駛車輛沿著既定路徑行駛;

53、針對橫向規(guī)劃,設置初始時間配置條件、目標時刻配置條件、采樣間隔以及橫向偏移,生成不同的橫向軌跡,并得到橫向軌跡的代價函數(shù);

54、針對縱向規(guī)劃,設置初始時間配置條件、目標時刻配置條件、采樣間隔以及速度間隔,生成不同的縱向軌跡,并得到縱向軌跡的代價函數(shù);

55、軌跡的總代價如下:

56、costtotal=ωloncosts+ωlatcostd

57、其中,costs、costd分別是縱向規(guī)劃和橫向規(guī)劃的代價,ωlon、ωlat為對應的系數(shù);

58、在每個時間步都得到許多橫向軌跡和縱向軌跡后,判斷每個時間步的軌跡是否滿足速度小于最大速度、加速度小于最大加速度、曲率小于最大曲率、不與人類駕駛車輛發(fā)生碰撞的所有條件,計算滿足所有條件的每條軌跡的代價大小,選擇代價最小的軌跡作為當前時間步的最優(yōu)軌跡。

59、進一步地,所述定義風險場并利用所述風險場建立人類駕駛車輛模型包括:

60、定義風險場函數(shù)如下:

61、

62、

63、其中,下標x和y代表x方向和y方向,非下標x代表計算點的x位置,非下標y代表計算點的y位置,lvehicle是車輛長度,wvehicle是車輛寬度,βx、βy為對應的系數(shù),αx、αy為x和y方向的加速度,vx(t)、vy(t)為x和y方向的速度。

64、設置風險閾值與風險場函數(shù)rvehicle(x,y,t)的值進行比較,判斷網(wǎng)聯(lián)自動駕駛車輛是否可能與人類駕駛車輛或障礙物發(fā)生碰撞。

65、進一步地,所述方法還包括仿真步驟,通過設定上層多網(wǎng)聯(lián)自動駕駛車輛調(diào)度策略和下層網(wǎng)聯(lián)自動駕駛車輛局部軌跡重規(guī)劃策略的各個參數(shù),在十字路口模型中進行仿真,驗證所述十字路口多車雙層調(diào)度方法的可靠性。

66、與現(xiàn)有技術(shù)相比,本發(fā)明技術(shù)方案的有益效果是:

67、本發(fā)明通過在設計上層多網(wǎng)聯(lián)自動駕駛車輛調(diào)度策略時使用深度強化學習算法td3并采用注意力機制,從而構(gòu)建了attd3算法并為新引入的注意力網(wǎng)絡設計了合理的損失函數(shù),提高了算法的收斂速度,同時下層網(wǎng)聯(lián)自動駕駛車輛局部軌跡重規(guī)劃策略考慮了人類駕駛車輛或障礙物的影響,利用風險場來模擬不同駕駛風格的人類駕駛車輛或障礙物,能準確、實時地對車輛的駕駛軌跡進行局部重規(guī)劃。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1