本發(fā)明涉及智駕技術(shù),尤其涉及基于模仿學(xué)習(xí)的駕駛培訓(xùn)教學(xué)方法及系統(tǒng)。
背景技術(shù):
1、傳統(tǒng)的駕駛培訓(xùn)主要采用人工教學(xué)的方式,由有經(jīng)驗的教練員在實際道路環(huán)境中對學(xué)員進(jìn)行指導(dǎo)。這種培訓(xùn)方式存在以下不足:
2、(1)培訓(xùn)效率低,教學(xué)質(zhì)量難以保證。由于道路和交通環(huán)境的復(fù)雜多變性,教練員難以對學(xué)員進(jìn)行系統(tǒng)、全面的指導(dǎo),學(xué)員的學(xué)習(xí)效果很大程度上依賴于教練員的經(jīng)驗和水平。
3、(2)學(xué)習(xí)過程單調(diào),實戰(zhàn)經(jīng)驗難以獲取。學(xué)員在道路練習(xí)中只能接觸到有限的場景,難以全面提高駕駛技能。針對一些危險工況和極端天氣,學(xué)員更是難以獲得實際操作經(jīng)驗。
4、(3)安全隱患大,練習(xí)成本高。在實際道路上訓(xùn)練存在較大的安全隱患,一旦發(fā)生事故將造成人員傷亡和經(jīng)濟(jì)損失。此外,道路訓(xùn)練還需要大量的車輛和燃油成本。
5、為了克服上述問題,人們開始探索利用計算機(jī)視覺和機(jī)器學(xué)習(xí)技術(shù),構(gòu)建智能化的駕駛培訓(xùn)系統(tǒng)。其中,基于虛擬現(xiàn)實(vr)的模擬器可以為學(xué)員提供逼真的駕駛環(huán)境,支持多種場景下的反復(fù)練習(xí)。但傳統(tǒng)?vr?模擬器主要依賴預(yù)設(shè)的交通場景和規(guī)則,難以應(yīng)對復(fù)雜多變的真實駕駛環(huán)境。
技術(shù)實現(xiàn)思路
1、本發(fā)明實施例提供基于模仿學(xué)習(xí)的駕駛培訓(xùn)教學(xué)方法及系統(tǒng),能夠解決現(xiàn)有技術(shù)中的問題。
2、本發(fā)明實施例的第一方面,
3、提供基于模仿學(xué)習(xí)的駕駛培訓(xùn)教學(xué)方法,包括:
4、獲取多個人類駕駛員在多種駕駛場景下的駕駛行為示范數(shù)據(jù),并提取所述駕駛行為示范數(shù)據(jù)中的駕駛行為特征;基于所述駕駛行為示范數(shù)據(jù)計算人類駕駛員的實際駕駛行為軌跡的第一特征期望;
5、根據(jù)初始化的隱含獎勵函數(shù)的參數(shù),采用強(qiáng)化學(xué)習(xí)算法優(yōu)化智能體的駕駛策略,通過所述智能體在模擬環(huán)境中執(zhí)行所述駕駛策略得到智能體的模擬駕駛行為軌跡,并基于所述模擬駕駛行為軌跡計算智能體的模擬駕駛行為軌跡的第二特征期望;通過最小化所述第一特征期望與所述第二特征期望之間的差異并且結(jié)合生成對抗網(wǎng)絡(luò)交替優(yōu)化更新所述隱含獎勵函數(shù)的參數(shù),并重復(fù)執(zhí)行更新所述隱含獎勵函數(shù)的參數(shù)的過程,直至所述隱含獎勵函數(shù)的參數(shù)收斂或達(dá)到預(yù)設(shè)迭代次數(shù),得到終止迭代時的智能體駕駛策略;
6、將所述智能體駕駛策略用于所述智能體的輔助駕駛決策,以使智能體在面臨新的駕駛場景時,能夠根據(jù)學(xué)習(xí)到的隱含獎勵函數(shù)做出與人類駕駛員相似的駕駛決策。
7、在一種可選的實施方式中,
8、通過最小化所述第一特征期望與所述第二特征期望之間的差異并且結(jié)合生成對抗網(wǎng)絡(luò)交替優(yōu)化更新所述隱含獎勵函數(shù)的參數(shù)包括:
9、引入概率分布距離作為優(yōu)化目標(biāo),通過所述概率分布距離度量所述實際駕駛行為軌跡的特征分布和模擬駕駛行為軌跡的特征分布之間的差異,用最小化所述概率分布距離替換所述第一特征期望與所述第二特征期望之間的差異;
10、構(gòu)建判別器網(wǎng)絡(luò),通過訓(xùn)練所述判別器網(wǎng)絡(luò)以最大化判別器目標(biāo)函數(shù),使所述判別器網(wǎng)絡(luò)能夠區(qū)分所述實際駕駛行為軌跡的特征分布和模擬駕駛行為軌跡的特征分布,并分別輸出表示所述實際駕駛行為軌跡的特征分布和模擬駕駛行為軌跡的特征分布的概率分布距離的估計值;
11、交替優(yōu)化所述隱含獎勵函數(shù)的參數(shù)和所述判別器網(wǎng)絡(luò)的參數(shù),固定所述隱含獎勵函數(shù)的參數(shù),優(yōu)化所述判別器網(wǎng)絡(luò)的參數(shù),使所述判別器網(wǎng)絡(luò)能夠準(zhǔn)確估計所述概率分布距離;固定所述判別器網(wǎng)絡(luò)的參數(shù),優(yōu)化所述隱含獎勵函數(shù)的參數(shù),通過最小化所述概率分布距離的估計值與智能體策略熵的加權(quán)和,更新所述隱含獎勵函數(shù)的參數(shù),使模擬駕駛行為軌跡的特征分布逼近所述實際駕駛行為軌跡的特征分布;
12、重復(fù)執(zhí)行所述交替優(yōu)化步驟,直至所述隱含獎勵函數(shù)的參數(shù)收斂或達(dá)到預(yù)設(shè)迭代次數(shù)。
13、在一種可選的實施方式中,
14、用最小化所述概率分布距離替換所述第一特征期望與所述第二特征期望之間的差異包括:
15、;
16、其中,表示在給定參數(shù)下的損失函數(shù)值,表示所述實際駕駛行為軌跡的特征分布和模擬駕駛行為軌跡的特征分布之間的概率分布距離,表示平衡因子,表示智能體策略熵;
17、最小化所述概率分布距離的估計值與智能體策略熵的加權(quán)和包括:
18、;
19、其中,表示在給定參數(shù)下的損失函數(shù)值,表示智能體策略熵,表示隱含獎勵函數(shù)的參數(shù)的轉(zhuǎn)置,表示特征函數(shù),用于將狀態(tài)s映射到特征空間,、分別表示在策略和專家策略下特征的期望。
20、在一種可選的實施方式中,
21、將所述智能體駕駛策略用于所述智能體的輔助駕駛決策,以使智能體在面臨新的駕駛場景時,能夠根據(jù)學(xué)習(xí)到的隱含獎勵函數(shù)做出與人類駕駛員相似的駕駛決策包括:
22、通過車載傳感器獲取當(dāng)前車輛的狀態(tài)信息和環(huán)境感知信息,所述狀態(tài)信息包括車速、加速度和轉(zhuǎn)向角,所述環(huán)境感知信息包括與周圍車輛的相對位置和速度、與道路邊界的相對位置和夾角以及交通標(biāo)志標(biāo)線信息;
23、將所述狀態(tài)信息和所述環(huán)境感知信息輸入到學(xué)習(xí)得到的智能體駕駛策略模型中,生成一組候選駕駛決策行為,所述候選駕駛決策行為包括加速、減速和轉(zhuǎn)向;
24、利用學(xué)習(xí)到的隱含獎勵函數(shù),計算每個候選駕駛決策行為在當(dāng)前狀態(tài)下的即時獎勵值和長期累積獎勵期望值,所述即時獎勵值衡量候選駕駛決策行為在當(dāng)前時刻的合理性和安全性,所述長期累積獎勵期望值衡量候選駕駛決策行為對未來一段時間內(nèi)車輛行駛的影響;
25、在計算長期累積獎勵期望值時,采用蒙特卡洛樹搜索算法,通過在決策樹上進(jìn)行多次隨機(jī)模擬,估計每個決策節(jié)點的期望回報;綜合所述即時獎勵值,選擇總體獎勵期望值最高的候選駕駛決策行為作為最優(yōu)駕駛決策行為;
26、將選定的最優(yōu)駕駛決策行為轉(zhuǎn)化為具體的車輛控制指令,包括油門、剎車和轉(zhuǎn)向,通過車載執(zhí)行器實現(xiàn)對車輛的實時控制。
27、在一種可選的實施方式中,
28、在計算長期累積獎勵期望值時,采用蒙特卡洛樹搜索算法,通過在決策樹上進(jìn)行多次隨機(jī)模擬,估計每個決策節(jié)點的期望回報包括:
29、將計算長期累積獎勵期望值過程建模為一棵決策樹,其中每個節(jié)點表示一個決策狀態(tài),每條邊表示一個決策行為;
30、通過迭代地執(zhí)行選擇、擴(kuò)展、模擬和回溯四個步驟來更新所述決策樹;
31、在選擇步驟中,從根節(jié)點出發(fā),通過上置信界算法遞歸選擇所述根節(jié)點對應(yīng)的子節(jié)點;
32、在擴(kuò)展步驟中,將選中的子節(jié)點隨機(jī)擴(kuò)展一個新節(jié)點,作為新擴(kuò)展節(jié)點;
33、在模擬步驟中,從所述新擴(kuò)展節(jié)點開始,執(zhí)行一個隨機(jī)的默認(rèn)策略,直到達(dá)到終止?fàn)顟B(tài)或預(yù)定的模擬深度,模擬得到的累積獎勵作為對所述新擴(kuò)展節(jié)點的價值的初始估計;
34、在回溯步驟中,將模擬得到的累積獎勵傳播回決策樹中的每個節(jié)點,更新節(jié)點的平均獎勵估計值和訪問次數(shù);
35、通過迭代執(zhí)行上述四個步驟,直至決策樹逐漸收斂到最優(yōu)決策路徑。
36、在一種可選的實施方式中,
37、從根節(jié)點出發(fā),通過上置信界算法遞歸選擇所述根節(jié)點對應(yīng)的子節(jié)點包括:
38、;
39、其中,表示節(jié)點j的上置信區(qū)間值,表示節(jié)點j的平均獎勵估計值, c表示探索程度的常數(shù),稱為探索系數(shù), n表示節(jié)點j的父節(jié)點被訪問的總次數(shù), m表示節(jié)點的數(shù)量,表示節(jié)點j被訪問的次數(shù)。
40、本發(fā)明實施例的第二方面,
41、提供基于模仿學(xué)習(xí)的駕駛培訓(xùn)教學(xué)系統(tǒng),包括:
42、第一單元,用于獲取多個人類駕駛員在多種駕駛場景下的駕駛行為示范數(shù)據(jù),并提取所述駕駛行為示范數(shù)據(jù)中的駕駛行為特征;基于所述駕駛行為示范數(shù)據(jù)計算人類駕駛員的實際駕駛行為軌跡的第一特征期望;
43、第二單元,用于根據(jù)初始化的隱含獎勵函數(shù)的參數(shù),采用強(qiáng)化學(xué)習(xí)算法優(yōu)化智能體的駕駛策略,通過所述智能體在模擬環(huán)境中執(zhí)行所述駕駛策略得到智能體的模擬駕駛行為軌跡,并基于所述模擬駕駛行為軌跡計算智能體的模擬駕駛行為軌跡的第二特征期望;通過最小化所述第一特征期望與所述第二特征期望之間的差異并且結(jié)合生成對抗網(wǎng)絡(luò)交替優(yōu)化更新所述隱含獎勵函數(shù)的參數(shù),并重復(fù)執(zhí)行更新所述隱含獎勵函數(shù)的參數(shù)的過程,直至所述隱含獎勵函數(shù)的參數(shù)收斂或達(dá)到預(yù)設(shè)迭代次數(shù),得到終止迭代時的智能體駕駛策略;
44、第三單元,用于將所述智能體駕駛策略用于所述智能體的輔助駕駛決策,以使智能體在面臨新的駕駛場景時,能夠根據(jù)學(xué)習(xí)到的隱含獎勵函數(shù)做出與人類駕駛員相似的駕駛決策。
45、本發(fā)明實施例的第三方面,
46、提供一種電子設(shè)備,包括:
47、處理器;
48、用于存儲處理器可執(zhí)行指令的存儲器;
49、其中,所述處理器被配置為調(diào)用所述存儲器存儲的指令,以執(zhí)行前述所述的方法。
50、本發(fā)明實施例的第四方面,
51、提供一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序指令,所述計算機(jī)程序指令被處理器執(zhí)行時實現(xiàn)前述所述的方法。
52、本技術(shù)構(gòu)建了一個經(jīng)過強(qiáng)化學(xué)習(xí)優(yōu)化的智能體駕駛策略,以及該策略下智能體在模擬環(huán)境中的駕駛行為軌跡特征期望。通過比較智能體的模擬軌跡特征期望與人類駕駛員的軌跡特征期望,可以評估智能體駕駛策略的模仿性能,即智能體在多大程度上學(xué)習(xí)和復(fù)現(xiàn)了人類駕駛員的駕駛行為模式。
53、通過引入概率分布距離作為優(yōu)化目標(biāo),并結(jié)合生成對抗網(wǎng)絡(luò)的思想,交替優(yōu)化判別器網(wǎng)絡(luò)和隱含獎勵函數(shù),我們可以更有效地縮小智能體的模擬駕駛行為與人類駕駛員的真實行為之間的差異,從而學(xué)習(xí)到更加逼真和合理的駕駛策略。這種基于分布匹配的逆強(qiáng)化學(xué)習(xí)方法,相比傳統(tǒng)的特征期望匹配方法,能夠更全面地刻畫行為軌跡的特征分布,提高了模仿學(xué)習(xí)的精度和魯棒性。
54、將基于逆強(qiáng)化學(xué)習(xí)得到的隱含獎勵函數(shù)和智能體駕駛策略應(yīng)用于實際的輔助駕駛系統(tǒng)中,可以使智能體在面臨新的駕駛場景時,根據(jù)環(huán)境狀態(tài)和車輛狀態(tài),自主生成合理的駕駛決策,控制車輛執(zhí)行平穩(wěn)、安全的駕駛行為。這種端到端的輔助駕駛方法避免了對駕駛環(huán)境和規(guī)則的顯式建模,直接從人類駕駛員的示范數(shù)據(jù)中學(xué)習(xí)隱含的駕駛偏好和策略,具有更強(qiáng)的適應(yīng)性和泛化能力。同時,引入蒙特卡洛樹搜索算法預(yù)估決策的長期影響,使智能體的駕駛決策更具前瞻性和全局最優(yōu)性。