本發(fā)明涉及自動(dòng)駕駛,具體是一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法。
背景技術(shù):
1、最近,大型視覺(jué)語(yǔ)言模型(large?vision-language?model,lvlm)的快速發(fā)展及其出色的常識(shí)推理和泛化能力引發(fā)了一系列在端到端自動(dòng)駕駛中的應(yīng)用。端到端自動(dòng)駕駛旨在通過(guò)使用車(chē)載傳感器數(shù)據(jù)作為輸入,直接預(yù)測(cè)車(chē)輛的控制信號(hào)和/或計(jì)劃路徑。然而,實(shí)現(xiàn)端到端自動(dòng)駕駛面臨的首要挑戰(zhàn)是場(chǎng)景理解,涉及在復(fù)雜多變、全局協(xié)同的3d場(chǎng)景中導(dǎo)航,并直接影響車(chē)輛的未來(lái)狀態(tài)預(yù)測(cè)、駕駛行為決策以及與環(huán)境的安全互動(dòng)。因此,lvlm需要將能力從二維理解擴(kuò)展到全面的三維動(dòng)/靜態(tài)情境感知,將局部場(chǎng)景與全局地圖的視覺(jué)表示進(jìn)行統(tǒng)一,以充分釋放其在現(xiàn)實(shí)應(yīng)用中的潛力。盡管先前的研究已經(jīng)展示了在端到端自動(dòng)駕駛中成功應(yīng)用llm的實(shí)例,但仍需要一種整體的方法,將lvlm的應(yīng)用擴(kuò)展到復(fù)雜的真實(shí)駕駛場(chǎng)景中。
2、端到端自動(dòng)駕駛另一個(gè)亟待解決的挑戰(zhàn)是決策過(guò)程的可解釋性。端到端自動(dòng)駕駛將全棧駕駛組件集成到一個(gè)綜合框架,消除了非連續(xù)中間步驟的累積誤差、協(xié)調(diào)不足與資源次優(yōu)利用,然而運(yùn)作方式類(lèi)似于“黑匣子”,這意味著決策過(guò)程缺乏直觀的可解釋性,可能導(dǎo)致廣泛的公眾不信任和法律關(guān)切。一些方法依賴(lài)可視化地圖作為一種手段來(lái)解釋系統(tǒng)的決策,或者通過(guò)提供有意義的中間表示來(lái)進(jìn)行決策,但對(duì)于駕乘人員而言,可視化地圖或中間表示往往難以理解。此外,一些方法還通過(guò)lvlm將復(fù)雜的決策過(guò)程轉(zhuǎn)化為易于理解的自然語(yǔ)言文本,從而為傳統(tǒng)系統(tǒng)提供了新的解釋層次,但是它們一般只考慮場(chǎng)景潛在因素,忽略了車(chē)輛未來(lái)控制指令序列的文本行為描述。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法,以解決上述背景技術(shù)中提出的問(wèn)題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法,所述方法包括:
3、獲取多視角攝像頭圖像、bev地圖圖像以及文本查詢(xún)模板;
4、基于視頻編碼器對(duì)多視角攝像頭圖像中的視頻特征進(jìn)行提取,基于圖像編碼器對(duì)bev地圖圖像中的圖像特征進(jìn)行提??;
5、基于模態(tài)編碼器對(duì)圖像特征與視頻特征進(jìn)行對(duì)齊;
6、將文本查詢(xún)模板進(jìn)行編碼,生成文本標(biāo)記,基于共享投影器將對(duì)齊后的圖像特征與視頻特征映射到文本嵌入空間,生成視覺(jué)標(biāo)記;
7、將視覺(jué)標(biāo)記與文本標(biāo)記輸入llm骨干模型,輸出自動(dòng)駕駛解釋文本。
8、作為本發(fā)明更進(jìn)一步的方案,所述文本查詢(xún)模板包括歷史控制信號(hào)模板以及任務(wù)指令模板。
9、作為本發(fā)明更進(jìn)一步的方案,所述共享投影器為兩層感知器。
10、作為本發(fā)明更進(jìn)一步的方案,還包括:基于多視角攝像頭圖像、bev地圖圖像構(gòu)建視頻圖像問(wèn)答基準(zhǔn),所述視頻圖像問(wèn)答基準(zhǔn)包括3d場(chǎng)景理解基準(zhǔn)以及可解釋的端到端駕駛基準(zhǔn)。
11、作為本發(fā)明更進(jìn)一步的方案,所述3d場(chǎng)景理解基準(zhǔn)的構(gòu)建步驟具體包括:
12、基于多視角攝像頭圖像、bev地圖圖像確定3d場(chǎng)景分層體系;
13、基于3d場(chǎng)景分層體系確定問(wèn)題選項(xiàng)和答案模板;
14、基于gpt-4v生成場(chǎng)景理解問(wèn)答對(duì);
15、作為本發(fā)明更進(jìn)一步的方案,所述可解釋的端到端駕駛基準(zhǔn)的構(gòu)建步驟包括:
16、基于多視角攝像頭圖像、bev地圖圖像獲取控制信號(hào)序列;
17、確定閾值向量,基于閾值向量確定自車(chē)元?jiǎng)幼鳎?/p>
18、基于自車(chē)元?jiǎng)幼?、控制信?hào)序列以及場(chǎng)景理解問(wèn)答對(duì)通過(guò)chatgpt生成解釋文本。
19、作為本發(fā)明更進(jìn)一步的方案,還包括:
20、將2d空間域中圖像特征、視頻特征與大型語(yǔ)言模型的嵌入空間之間進(jìn)行對(duì)齊;
21、對(duì)3d場(chǎng)景理解基準(zhǔn)進(jìn)行3d微調(diào);
22、對(duì)可解釋的端到端駕駛基準(zhǔn)進(jìn)行端到端微調(diào)。
23、作為本發(fā)明更進(jìn)一步的方案,所述將2d空間域中圖像特征、視頻特征與大型語(yǔ)言模型的嵌入空間之間進(jìn)行對(duì)齊的步驟中包括:
24、將視頻編碼器、圖像編碼器、和llm骨干的權(quán)重保持凍結(jié),僅更新共享投影器的權(quán)重。
25、作為本發(fā)明更進(jìn)一步的方案,所述對(duì)3d場(chǎng)景理解基準(zhǔn)進(jìn)行3d微調(diào)步驟以及對(duì)可解釋的端到端駕駛基準(zhǔn)進(jìn)行端到端微調(diào)的步驟包括:
26、視頻編碼器和圖像編碼器的權(quán)重保持凍結(jié),通過(guò)最小化交叉熵?fù)p失更新共享投影器和llm骨干的權(quán)重。
27、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:通過(guò)模態(tài)編碼器來(lái)聯(lián)合編碼動(dòng)態(tài)的3d多視角場(chǎng)景視頻和靜態(tài)的bev地圖圖像,實(shí)現(xiàn)了全面的三維動(dòng)/靜態(tài)情境感知以及局部場(chǎng)景與全局地圖的視覺(jué)表示統(tǒng)一。相比于其他端到端模型,本發(fā)明提出的3d?lvlm架構(gòu)具備出色的三維空間理解和動(dòng)態(tài)時(shí)間推理能力,有效提升端到端自動(dòng)駕駛的準(zhǔn)確性和安全性。
1.一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法,其特征在于,所述文本查詢(xún)模板包括歷史控制信號(hào)模板以及任務(wù)指令模板。
3.根據(jù)權(quán)利要求1所述的一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法,其特征在于,所述共享投影器為兩層感知器。
4.根據(jù)權(quán)利要求1所述的一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法,其特征在于,還包括:基于多視角攝像頭圖像、bev地圖圖像構(gòu)建視頻圖像問(wèn)答基準(zhǔn),所述視頻圖像問(wèn)答基準(zhǔn)包括3d場(chǎng)景理解基準(zhǔn)以及可解釋的端到端駕駛基準(zhǔn)。
5.根據(jù)權(quán)利要求4所述的一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法,其特征在于,所述3d場(chǎng)景理解基準(zhǔn)的構(gòu)建步驟具體包括:
6.根據(jù)權(quán)利要求5所述的一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法,其特征在于,所述可解釋的端到端駕駛基準(zhǔn)的構(gòu)建步驟包括:
7.根據(jù)權(quán)利要求6所述的一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法,其特征在于,還包括:
8.根據(jù)權(quán)利要求7所述的一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法,其特征在于,所述將2d空間域中圖像特征、視頻特征與大型語(yǔ)言模型的嵌入空間之間進(jìn)行對(duì)齊的步驟中包括:
9.根據(jù)權(quán)利要求7所述的一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法,其特征在于,所述對(duì)3d場(chǎng)景理解基準(zhǔn)進(jìn)行3d微調(diào)步驟以及對(duì)可解釋的端到端駕駛基準(zhǔn)進(jìn)行端到端微調(diào)的步驟包括: