基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法

文檔序號(hào)：40379053發(fā)布日期：2024-12-20 12:01閱讀：4來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>車(chē)輛裝置的制造及其改造技術(shù)

本發(fā)明屬于自動(dòng)駕駛，特別涉及一種基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法，適用于城市交通自動(dòng)駕駛決策。

背景技術(shù)：

1、自動(dòng)駕駛因其能夠提升道路安全、減少交通事故、改善交通效率、節(jié)約能源，提供了更便捷的出行方式。端到端方法是自動(dòng)駕駛中常用的方法，尤其是在復(fù)雜的城市交通中，其通過(guò)直接從感知數(shù)據(jù)到控制策略的學(xué)習(xí)，簡(jiǎn)化了系統(tǒng)架構(gòu)并提高了整體性能。目前，深度強(qiáng)化學(xué)習(xí)在端到端方法中，能夠通過(guò)學(xué)習(xí)復(fù)雜的決策和控制策略，直接從感知數(shù)據(jù)到行為輸出的映射，從而實(shí)現(xiàn)更高效、更靈活的自主決策和控制過(guò)程，特別是在復(fù)雜環(huán)境和任務(wù)中。強(qiáng)化學(xué)習(xí)通過(guò)與環(huán)境的不斷交互，積累經(jīng)驗(yàn)以優(yōu)化策略。

2、現(xiàn)有的端到端自動(dòng)駕駛方法大多采用單一智能體在單一虛擬環(huán)境中進(jìn)行訓(xùn)練，此種方式雖然能夠在一定程度上模擬駕駛場(chǎng)景，但環(huán)境的多樣性和復(fù)雜性往往無(wú)法完全反映真實(shí)世界的變化。由于訓(xùn)練數(shù)據(jù)缺乏足夠多的場(chǎng)景、多智能體交互以及突發(fā)情況，經(jīng)驗(yàn)收集的效率和質(zhì)量都受到限制，導(dǎo)致智能體在面對(duì)真實(shí)世界中的不確定性時(shí)表現(xiàn)欠佳。此外大規(guī)模的實(shí)際道路測(cè)試成本高昂，限制了經(jīng)驗(yàn)獲取的途徑。因此如何在虛擬環(huán)境中有效地?cái)U(kuò)展和多樣化訓(xùn)練場(chǎng)景，提升經(jīng)驗(yàn)收集效率，成為強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛領(lǐng)域應(yīng)用的重大挑戰(zhàn)。

3、針對(duì)強(qiáng)化學(xué)習(xí)算法本身探索-利用平衡是關(guān)鍵，但在自動(dòng)駕駛場(chǎng)景中，探索不足的問(wèn)題尤為突出?，F(xiàn)有算法在遇到未知的駕駛環(huán)境或復(fù)雜場(chǎng)景時(shí)，通常傾向于沿用先前學(xué)習(xí)到的次優(yōu)策略，導(dǎo)致其難以跳出局部最優(yōu)解。特別是在面對(duì)稀疏獎(jiǎng)勵(lì)或者動(dòng)態(tài)環(huán)境時(shí)，強(qiáng)化學(xué)習(xí)算法的探索能力不足，智能體容易陷入“過(guò)早收斂”的陷阱。此外，由于探索新策略可能伴隨著高風(fēng)險(xiǎn)，特別是在自動(dòng)駕駛這種安全性要求極高的應(yīng)用中，智能體更傾向于保守策略，進(jìn)一步加劇了探索不足的情況。因此，如何增強(qiáng)智能體的探索能力、平衡探索與安全性，避免陷入局部最優(yōu)，是強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛決策中的另一個(gè)重要難題。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提出一種基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法，旨在提升自動(dòng)駕駛中深度強(qiáng)化學(xué)習(xí)的訓(xùn)練效率和探索策略，通過(guò)分布式計(jì)算加速學(xué)習(xí)過(guò)程，并改進(jìn)探索機(jī)制以更全面地覆蓋狀態(tài)空間，提高策略的優(yōu)化效果，使得車(chē)輛能夠使用基于分布式探索增強(qiáng)的近端策略優(yōu)化方法有效應(yīng)對(duì)城市交通環(huán)境中的變化并保持較好的避障性能。

2、本發(fā)明為了實(shí)現(xiàn)上述目的，采用如下技術(shù)方案：

3、一種基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法，包括如下步驟：

4、步驟1.?自動(dòng)駕駛車(chē)輛在carla仿真平臺(tái)中獲取環(huán)境觀測(cè)信息，包含車(chē)載攝像頭采集的rgb圖像、自動(dòng)駕駛車(chē)輛信息和路徑點(diǎn)序列三個(gè)部分；

5、車(chē)載攝像頭采集的rgb圖像，包含道路、障礙物、其他車(chē)輛、行人和交通標(biāo)志元素；

6、自動(dòng)駕駛車(chē)輛信息包括自動(dòng)駕駛車(chē)輛的位置、朝向和速度；路徑點(diǎn)序列是由carla仿真平臺(tái)內(nèi)置路徑規(guī)劃器提供的路徑點(diǎn)序列，車(chē)輛將沿該路徑點(diǎn)序列行駛；

7、利用圖像感知模塊提取環(huán)境觀測(cè)信息的潛在特征，供強(qiáng)化學(xué)習(xí)決策模塊使用；

8、步驟2.?設(shè)計(jì)自動(dòng)駕駛車(chē)輛的強(qiáng)化學(xué)習(xí)決策模塊的分布式架構(gòu)，該分布式架構(gòu)通過(guò)多個(gè)智能體并行地在環(huán)境中進(jìn)行探索和學(xué)習(xí)，利用多個(gè)工作器共同處理任務(wù)；其中智能體在自動(dòng)駕駛?cè)蝿?wù)中表示自動(dòng)駕駛車(chē)輛；

9、步驟3.?在步驟2分布式架構(gòu)的基礎(chǔ)上，設(shè)計(jì)強(qiáng)化學(xué)習(xí)決策模塊的核心部分，包括基于圖像感知模塊提取的潛在特征定義狀態(tài)空間，定義自動(dòng)駕駛車(chē)輛的動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)；

10、步驟4.?基于隨機(jī)網(wǎng)絡(luò)蒸餾算法設(shè)計(jì)探索增強(qiáng)機(jī)制，將該探索增強(qiáng)機(jī)制引入自動(dòng)駕駛車(chē)輛中的強(qiáng)化學(xué)習(xí)決策模塊中，并完善強(qiáng)化學(xué)習(xí)決策模塊所使用的近端策略優(yōu)化算法；

11、步驟5.?將完善好的近端策略優(yōu)化算法應(yīng)用于實(shí)際城市交通環(huán)境中，以保證車(chē)輛根據(jù)預(yù)設(shè)的路徑點(diǎn)完成行駛?cè)蝿?wù)，并且在車(chē)輛行駛過(guò)程中實(shí)時(shí)監(jiān)測(cè)周?chē)煌ㄇ闆r，提高避障能力。

12、本發(fā)明具有如下優(yōu)點(diǎn)：

13、如上所述，本發(fā)明述及了一種基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法。其中，本發(fā)明引入的圖像感知模塊，通過(guò)雙重注意力機(jī)制（位置注意力和通道注意力）提取圖像中的空間和通道特征，能夠有效捕捉視覺(jué)信息和控制信息之間的關(guān)聯(lián)，從而重點(diǎn)關(guān)注對(duì)決策至關(guān)重要的環(huán)境信息。這種特征提取方式提高了強(qiáng)化學(xué)習(xí)決策模塊對(duì)復(fù)雜觀測(cè)的理解能力，有助于自動(dòng)駕駛車(chē)輛在動(dòng)態(tài)環(huán)境中做出更準(zhǔn)確的決策。其次，本發(fā)明采用了分布式架構(gòu)，利用多個(gè)工作器節(jié)點(diǎn)并行處理，提升了決策效率和響應(yīng)速度；通過(guò)學(xué)習(xí)器匯總并優(yōu)化全局策略，確保訓(xùn)練過(guò)程快速收斂至最優(yōu)解；此外，分布式架構(gòu)采用同步梯度傳遞協(xié)議，保證全局策略更新的一致性，有效減少因通信延遲導(dǎo)致的局部策略偏差。這種分布式架構(gòu)提高了強(qiáng)化學(xué)習(xí)在復(fù)雜環(huán)境中的訓(xùn)練速度和性能。此外，本發(fā)明引入了探索增強(qiáng)機(jī)制，通過(guò)隨機(jī)網(wǎng)絡(luò)蒸餾（rnd）方法來(lái)量化環(huán)境的新穎性，從而提升智能體的探索能力。rnd方法通過(guò)比較目標(biāo)網(wǎng)絡(luò)和預(yù)測(cè)網(wǎng)絡(luò)的輸出差異來(lái)評(píng)估狀態(tài)的熟悉程度，差異越大表示狀態(tài)越新穎，以此生成內(nèi)在獎(jiǎng)勵(lì)。該內(nèi)在獎(jiǎng)勵(lì)引導(dǎo)智能體在探索過(guò)程中關(guān)注不熟悉的狀態(tài)，避免陷入局部最優(yōu)，同時(shí)結(jié)合外在獎(jiǎng)勵(lì)，增強(qiáng)了強(qiáng)化學(xué)習(xí)決策模塊在復(fù)雜環(huán)境中的探索深度和廣度，促進(jìn)策略優(yōu)化。本發(fā)明通過(guò)在實(shí)際城市交通環(huán)境中，應(yīng)用基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法，顯著加速了訓(xùn)練過(guò)程，提高了探索效率，并全面提升了自動(dòng)駕駛系統(tǒng)的決策質(zhì)量和可靠性。城市交通環(huán)境復(fù)雜多樣，包含直行道路、右轉(zhuǎn)和左轉(zhuǎn)路口、交叉口、環(huán)形交叉路口、擁堵區(qū)域、行人過(guò)街區(qū)、非機(jī)動(dòng)車(chē)道和公交車(chē)站等場(chǎng)景，伴隨著高密度的交通流量、隨機(jī)出現(xiàn)的行人和非機(jī)動(dòng)車(chē)、信號(hào)燈系統(tǒng)以及緊急狀況（如突然停車(chē)或障礙物），本發(fā)明方法則確保了自動(dòng)駕駛車(chē)輛能夠在遵循交通規(guī)則的同時(shí)，根據(jù)預(yù)設(shè)路徑點(diǎn)行駛，并在多變的城市交通中展現(xiàn)出良好的路徑完成效果和避障能力，從而實(shí)現(xiàn)穩(wěn)定、安全的駕駛表現(xiàn)。

技術(shù)特征：

1.一種基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法，其特征在于，

2.根據(jù)權(quán)利要求1所述的基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法，其特征在于，所述步驟1包括以下步驟：

3.根據(jù)權(quán)利要求1所述的基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法，其特征在于，所述步驟2包括以下步驟：

4.根據(jù)權(quán)利要求1所述的基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法，其特征在于，所述步驟3中，包括以下步驟：

5.根據(jù)權(quán)利要求1所述的基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法，其特征在于，所述步驟4包括以下步驟：

6.根據(jù)權(quán)利要求5所述的基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法，其特征在于，所述步驟4中，強(qiáng)化學(xué)習(xí)決策模塊所使用的近端策略優(yōu)化算法的過(guò)程如下：

7.根據(jù)權(quán)利要求6所述的基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法，其特征在于，所述步驟i.3中，梯度計(jì)算的過(guò)程是通過(guò)定義損失函數(shù)并利用反向傳播算法，計(jì)算出網(wǎng)絡(luò)參數(shù)的梯度，從而更新模型以提升策略和決策能力，損失函數(shù)如下：

8.根據(jù)權(quán)利要求1所述的基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法，其特征在于，所述步驟4中，在完善強(qiáng)化學(xué)習(xí)決策模塊所使用的近端策略優(yōu)化算法后，通過(guò)路徑完成率和避障率來(lái)評(píng)估分布式探索增強(qiáng)的近端策略優(yōu)化方法的有效性。

9.根據(jù)權(quán)利要求8所述的基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法，其特征在于，所述步驟4包括以下步驟：

技術(shù)總結(jié)
本發(fā)明屬于自動(dòng)駕駛技術(shù)領(lǐng)域，公開(kāi)了一種基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法。本發(fā)明設(shè)計(jì)了自動(dòng)駕駛車(chē)輛的強(qiáng)化學(xué)習(xí)決策模塊的分布式架構(gòu)，通過(guò)并行化和分布式處理，多個(gè)智能體能夠在不同環(huán)境中同時(shí)執(zhí)行策略訓(xùn)練，實(shí)時(shí)共享策略更新和經(jīng)驗(yàn)數(shù)據(jù)。此外，分布式架構(gòu)允許方法在更大規(guī)模的數(shù)據(jù)集和復(fù)雜環(huán)境下運(yùn)行，提升了自主駕駛決策的適應(yīng)性和泛化能力。本發(fā)明還結(jié)合了隨機(jī)網(wǎng)絡(luò)探索RND模塊，進(jìn)一步增強(qiáng)探索的多樣性和有效性，并完善強(qiáng)化學(xué)習(xí)決策模塊所使用的近端策略優(yōu)化算法。本發(fā)明通過(guò)結(jié)合分布式架構(gòu)與RND模塊，顯著加速了訓(xùn)練過(guò)程，提升了探索效率，并全面提高了自動(dòng)駕駛系統(tǒng)的決策質(zhì)量，提高了自動(dòng)駕駛決策的可靠性和效率。

技術(shù)研發(fā)人員：謝健,夏博偉,周天昊,魏慧琳,黃志球
受保護(hù)的技術(shù)使用者：南京航空航天大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：謝健,夏博偉,周天昊,魏慧琳,黃志球
技術(shù)所有人：南京航空航天大學(xué)
我是此專(zhuān)利的發(fā)明人

上一篇：一種儲(chǔ)罐用不銹鋼箱式內(nèi)浮盤(pán)的制作方法
上一篇：一種土石方高效鉆孔機(jī)的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、林老師：1.智能駕駛技術(shù)研究 2.智能汽車(chē)人機(jī)交互研究 3.自動(dòng)駕駛預(yù)期功能安全及可靠性 4.駕駛功能與車(chē)輛動(dòng)力學(xué)數(shù)據(jù)融合 5.駕駛場(chǎng)景大數(shù)據(jù)分析技術(shù) 6.車(chē)輛性能研究
2、朱老師：1.新能源汽車(chē)電驅(qū)動(dòng)技術(shù) 2.輪轂電機(jī)驅(qū)動(dòng)與控制 3.開(kāi)關(guān)磁阻電機(jī)驅(qū)動(dòng)系統(tǒng)控制 4.智能電動(dòng)汽車(chē)
3、徐老師：1.內(nèi)燃機(jī)節(jié)能及排放控制技術(shù) ? 2.汽車(chē)節(jié)能與新能源汽車(chē)技術(shù) ??3. 車(chē)輛現(xiàn)代設(shè)計(jì)理論與方法
4、王老師：1.機(jī)械設(shè)計(jì)原理與方法 2.生理系統(tǒng)耦合及生物力學(xué) 3.康復(fù)工程學(xué)
5、唐老師：1.高效節(jié)能裝備 2.流動(dòng)穩(wěn)定性 3.汽車(chē)流場(chǎng)分析和淀粉糖工藝技術(shù)。
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于分布式探索增強(qiáng)的自主駕駛決策近端策略優(yōu)化方法