本發(fā)明屬于自動(dòng)駕駛,特別涉及一種基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法,適用于城市交通自動(dòng)駕駛決策。
背景技術(shù):
1、自動(dòng)駕駛因其能夠提升道路安全、減少交通事故、改善交通效率、節(jié)約能源,提供了更便捷的出行方式。端到端方法是自動(dòng)駕駛中常用的方法,尤其是在復(fù)雜的城市交通中,其通過(guò)直接從感知數(shù)據(jù)到控制策略的學(xué)習(xí),簡(jiǎn)化了系統(tǒng)架構(gòu)并提高了整體性能。目前,深度強(qiáng)化學(xué)習(xí)在端到端方法中,能夠通過(guò)學(xué)習(xí)復(fù)雜的決策和控制策略,直接從感知數(shù)據(jù)到行為輸出的映射,從而實(shí)現(xiàn)更高效、更靈活的自主決策和控制過(guò)程,特別是在復(fù)雜環(huán)境和任務(wù)中。強(qiáng)化學(xué)習(xí)通過(guò)與環(huán)境的不斷交互,積累經(jīng)驗(yàn)以優(yōu)化策略。
2、現(xiàn)有的端到端自動(dòng)駕駛方法大多采用單一智能體在單一虛擬環(huán)境中進(jìn)行訓(xùn)練,此種方式雖然能夠在一定程度上模擬駕駛場(chǎng)景,但環(huán)境的多樣性和復(fù)雜性往往無(wú)法完全反映真實(shí)世界的變化。由于訓(xùn)練數(shù)據(jù)缺乏足夠多的場(chǎng)景、多智能體交互以及突發(fā)情況,經(jīng)驗(yàn)收集的效率和質(zhì)量都受到限制,導(dǎo)致智能體在面對(duì)真實(shí)世界中的不確定性時(shí)表現(xiàn)欠佳。此外大規(guī)模的實(shí)際道路測(cè)試成本高昂,限制了經(jīng)驗(yàn)獲取的途徑。因此如何在虛擬環(huán)境中有效地?cái)U(kuò)展和多樣化訓(xùn)練場(chǎng)景,提升經(jīng)驗(yàn)收集效率,成為強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛領(lǐng)域應(yīng)用的重大挑戰(zhàn)。
3、針對(duì)強(qiáng)化學(xué)習(xí)算法本身探索-利用平衡是關(guān)鍵,但在自動(dòng)駕駛場(chǎng)景中,探索不足的問(wèn)題尤為突出?,F(xiàn)有算法在遇到未知的駕駛環(huán)境或復(fù)雜場(chǎng)景時(shí),通常傾向于沿用先前學(xué)習(xí)到的次優(yōu)策略,導(dǎo)致其難以跳出局部最優(yōu)解。特別是在面對(duì)稀疏獎(jiǎng)勵(lì)或者動(dòng)態(tài)環(huán)境時(shí),強(qiáng)化學(xué)習(xí)算法的探索能力不足,智能體容易陷入“過(guò)早收斂”的陷阱。此外,由于探索新策略可能伴隨著高風(fēng)險(xiǎn),特別是在自動(dòng)駕駛這種安全性要求極高的應(yīng)用中,智能體更傾向于保守策略,進(jìn)一步加劇了探索不足的情況。因此,如何增強(qiáng)智能體的探索能力、平衡探索與安全性,避免陷入局部最優(yōu),是強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛決策中的另一個(gè)重要難題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提出一種基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法,旨在提升自動(dòng)駕駛中深度強(qiáng)化學(xué)習(xí)的訓(xùn)練效率和探索策略,通過(guò)分布式計(jì)算加速學(xué)習(xí)過(guò)程,并改進(jìn)探索機(jī)制以更全面地覆蓋狀態(tài)空間,提高策略的優(yōu)化效果,使得車(chē)輛能夠使用基于分布式探索增強(qiáng)的近端策略優(yōu)化方法有效應(yīng)對(duì)城市交通環(huán)境中的變化并保持較好的避障性能。
2、本發(fā)明為了實(shí)現(xiàn)上述目的,采用如下技術(shù)方案:
3、一種基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法,包括如下步驟:
4、步驟1.?自動(dòng)駕駛車(chē)輛在carla仿真平臺(tái)中獲取環(huán)境觀測(cè)信息,包含車(chē)載攝像頭采集的rgb圖像、自動(dòng)駕駛車(chē)輛信息和路徑點(diǎn)序列三個(gè)部分;
5、車(chē)載攝像頭采集的rgb圖像,包含道路、障礙物、其他車(chē)輛、行人和交通標(biāo)志元素;
6、自動(dòng)駕駛車(chē)輛信息包括自動(dòng)駕駛車(chē)輛的位置、朝向和速度;路徑點(diǎn)序列是由carla仿真平臺(tái)內(nèi)置路徑規(guī)劃器提供的路徑點(diǎn)序列,車(chē)輛將沿該路徑點(diǎn)序列行駛;
7、利用圖像感知模塊提取環(huán)境觀測(cè)信息的潛在特征,供強(qiáng)化學(xué)習(xí)決策模塊使用;
8、步驟2.?設(shè)計(jì)自動(dòng)駕駛車(chē)輛的強(qiáng)化學(xué)習(xí)決策模塊的分布式架構(gòu),該分布式架構(gòu)通過(guò)多個(gè)智能體并行地在環(huán)境中進(jìn)行探索和學(xué)習(xí),利用多個(gè)工作器共同處理任務(wù);其中智能體在自動(dòng)駕駛?cè)蝿?wù)中表示自動(dòng)駕駛車(chē)輛;
9、步驟3.?在步驟2分布式架構(gòu)的基礎(chǔ)上,設(shè)計(jì)強(qiáng)化學(xué)習(xí)決策模塊的核心部分,包括基于圖像感知模塊提取的潛在特征定義狀態(tài)空間,定義自動(dòng)駕駛車(chē)輛的動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù);
10、步驟4.?基于隨機(jī)網(wǎng)絡(luò)蒸餾算法設(shè)計(jì)探索增強(qiáng)機(jī)制,將該探索增強(qiáng)機(jī)制引入自動(dòng)駕駛車(chē)輛中的強(qiáng)化學(xué)習(xí)決策模塊中,并完善強(qiáng)化學(xué)習(xí)決策模塊所使用的近端策略優(yōu)化算法;
11、步驟5.?將完善好的近端策略優(yōu)化算法應(yīng)用于實(shí)際城市交通環(huán)境中,以保證車(chē)輛根據(jù)預(yù)設(shè)的路徑點(diǎn)完成行駛?cè)蝿?wù),并且在車(chē)輛行駛過(guò)程中實(shí)時(shí)監(jiān)測(cè)周?chē)煌ㄇ闆r,提高避障能力。
12、本發(fā)明具有如下優(yōu)點(diǎn):
13、如上所述,本發(fā)明述及了一種基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法。其中,本發(fā)明引入的圖像感知模塊,通過(guò)雙重注意力機(jī)制(位置注意力和通道注意力)提取圖像中的空間和通道特征,能夠有效捕捉視覺(jué)信息和控制信息之間的關(guān)聯(lián),從而重點(diǎn)關(guān)注對(duì)決策至關(guān)重要的環(huán)境信息。這種特征提取方式提高了強(qiáng)化學(xué)習(xí)決策模塊對(duì)復(fù)雜觀測(cè)的理解能力,有助于自動(dòng)駕駛車(chē)輛在動(dòng)態(tài)環(huán)境中做出更準(zhǔn)確的決策。其次,本發(fā)明采用了分布式架構(gòu),利用多個(gè)工作器節(jié)點(diǎn)并行處理,提升了決策效率和響應(yīng)速度;通過(guò)學(xué)習(xí)器匯總并優(yōu)化全局策略,確保訓(xùn)練過(guò)程快速收斂至最優(yōu)解;此外,分布式架構(gòu)采用同步梯度傳遞協(xié)議,保證全局策略更新的一致性,有效減少因通信延遲導(dǎo)致的局部策略偏差。這種分布式架構(gòu)提高了強(qiáng)化學(xué)習(xí)在復(fù)雜環(huán)境中的訓(xùn)練速度和性能。此外,本發(fā)明引入了探索增強(qiáng)機(jī)制,通過(guò)隨機(jī)網(wǎng)絡(luò)蒸餾(rnd)方法來(lái)量化環(huán)境的新穎性,從而提升智能體的探索能力。rnd方法通過(guò)比較目標(biāo)網(wǎng)絡(luò)和預(yù)測(cè)網(wǎng)絡(luò)的輸出差異來(lái)評(píng)估狀態(tài)的熟悉程度,差異越大表示狀態(tài)越新穎,以此生成內(nèi)在獎(jiǎng)勵(lì)。該內(nèi)在獎(jiǎng)勵(lì)引導(dǎo)智能體在探索過(guò)程中關(guān)注不熟悉的狀態(tài),避免陷入局部最優(yōu),同時(shí)結(jié)合外在獎(jiǎng)勵(lì),增強(qiáng)了強(qiáng)化學(xué)習(xí)決策模塊在復(fù)雜環(huán)境中的探索深度和廣度,促進(jìn)策略優(yōu)化。本發(fā)明通過(guò)在實(shí)際城市交通環(huán)境中,應(yīng)用基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法,顯著加速了訓(xùn)練過(guò)程,提高了探索效率,并全面提升了自動(dòng)駕駛系統(tǒng)的決策質(zhì)量和可靠性。城市交通環(huán)境復(fù)雜多樣,包含直行道路、右轉(zhuǎn)和左轉(zhuǎn)路口、交叉口、環(huán)形交叉路口、擁堵區(qū)域、行人過(guò)街區(qū)、非機(jī)動(dòng)車(chē)道和公交車(chē)站等場(chǎng)景,伴隨著高密度的交通流量、隨機(jī)出現(xiàn)的行人和非機(jī)動(dòng)車(chē)、信號(hào)燈系統(tǒng)以及緊急狀況(如突然停車(chē)或障礙物),本發(fā)明方法則確保了自動(dòng)駕駛車(chē)輛能夠在遵循交通規(guī)則的同時(shí),根據(jù)預(yù)設(shè)路徑點(diǎn)行駛,并在多變的城市交通中展現(xiàn)出良好的路徑完成效果和避障能力,從而實(shí)現(xiàn)穩(wěn)定、安全的駕駛表現(xiàn)。
1.一種基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法,其特征在于,
2.根據(jù)權(quán)利要求1所述的基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法,其特征在于,所述步驟1包括以下步驟:
3.根據(jù)權(quán)利要求1所述的基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法,其特征在于,所述步驟2包括以下步驟:
4.根據(jù)權(quán)利要求1所述的基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法,其特征在于,所述步驟3中,包括以下步驟:
5.根據(jù)權(quán)利要求1所述的基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法,其特征在于,所述步驟4包括以下步驟:
6.根據(jù)權(quán)利要求5所述的基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法,其特征在于,所述步驟4中,強(qiáng)化學(xué)習(xí)決策模塊所使用的近端策略優(yōu)化算法的過(guò)程如下:
7.根據(jù)權(quán)利要求6所述的基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法,其特征在于,所述步驟i.3中,梯度計(jì)算的過(guò)程是通過(guò)定義損失函數(shù)并利用反向傳播算法,計(jì)算出網(wǎng)絡(luò)參數(shù)的梯度,從而更新模型以提升策略和決策能力,損失函數(shù)如下:
8.根據(jù)權(quán)利要求1所述的基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法,其特征在于,所述步驟4中,在完善強(qiáng)化學(xué)習(xí)決策模塊所使用的近端策略優(yōu)化算法后,通過(guò)路徑完成率和避障率來(lái)評(píng)估分布式探索增強(qiáng)的近端策略優(yōu)化方法的有效性。
9.根據(jù)權(quán)利要求8所述的基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法,其特征在于,所述步驟4包括以下步驟: