一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法

文檔序號(hào)：40378573發(fā)布日期：2024-12-20 12:01閱讀：5來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>車(chē)輛裝置的制造及其改造技術(shù)

本發(fā)明涉及自動(dòng)駕駛，具體是一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法。

背景技術(shù)：

1、最近，大型視覺(jué)語(yǔ)言模型（large?vision-language?model，lvlm）的快速發(fā)展及其出色的常識(shí)推理和泛化能力引發(fā)了一系列在端到端自動(dòng)駕駛中的應(yīng)用。端到端自動(dòng)駕駛旨在通過(guò)使用車(chē)載傳感器數(shù)據(jù)作為輸入，直接預(yù)測(cè)車(chē)輛的控制信號(hào)和/或計(jì)劃路徑。然而，實(shí)現(xiàn)端到端自動(dòng)駕駛面臨的首要挑戰(zhàn)是場(chǎng)景理解，涉及在復(fù)雜多變、全局協(xié)同的3d場(chǎng)景中導(dǎo)航，并直接影響車(chē)輛的未來(lái)狀態(tài)預(yù)測(cè)、駕駛行為決策以及與環(huán)境的安全互動(dòng)。因此，lvlm需要將能力從二維理解擴(kuò)展到全面的三維動(dòng)/靜態(tài)情境感知，將局部場(chǎng)景與全局地圖的視覺(jué)表示進(jìn)行統(tǒng)一，以充分釋放其在現(xiàn)實(shí)應(yīng)用中的潛力。盡管先前的研究已經(jīng)展示了在端到端自動(dòng)駕駛中成功應(yīng)用llm的實(shí)例，但仍需要一種整體的方法，將lvlm的應(yīng)用擴(kuò)展到復(fù)雜的真實(shí)駕駛場(chǎng)景中。

2、端到端自動(dòng)駕駛另一個(gè)亟待解決的挑戰(zhàn)是決策過(guò)程的可解釋性。端到端自動(dòng)駕駛將全棧駕駛組件集成到一個(gè)綜合框架，消除了非連續(xù)中間步驟的累積誤差、協(xié)調(diào)不足與資源次優(yōu)利用，然而運(yùn)作方式類(lèi)似于“黑匣子”，這意味著決策過(guò)程缺乏直觀的可解釋性，可能導(dǎo)致廣泛的公眾不信任和法律關(guān)切。一些方法依賴(lài)可視化地圖作為一種手段來(lái)解釋系統(tǒng)的決策，或者通過(guò)提供有意義的中間表示來(lái)進(jìn)行決策，但對(duì)于駕乘人員而言，可視化地圖或中間表示往往難以理解。此外，一些方法還通過(guò)lvlm將復(fù)雜的決策過(guò)程轉(zhuǎn)化為易于理解的自然語(yǔ)言文本，從而為傳統(tǒng)系統(tǒng)提供了新的解釋層次，但是它們一般只考慮場(chǎng)景潛在因素，忽略了車(chē)輛未來(lái)控制指令序列的文本行為描述。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法，以解決上述背景技術(shù)中提出的問(wèn)題。

2、為實(shí)現(xiàn)上述目的，本發(fā)明提供如下技術(shù)方案：一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法，所述方法包括：

3、獲取多視角攝像頭圖像、bev地圖圖像以及文本查詢(xún)模板；

4、基于視頻編碼器對(duì)多視角攝像頭圖像中的視頻特征進(jìn)行提取，基于圖像編碼器對(duì)bev地圖圖像中的圖像特征進(jìn)行提??；

5、基于模態(tài)編碼器對(duì)圖像特征與視頻特征進(jìn)行對(duì)齊；

6、將文本查詢(xún)模板進(jìn)行編碼，生成文本標(biāo)記，基于共享投影器將對(duì)齊后的圖像特征與視頻特征映射到文本嵌入空間，生成視覺(jué)標(biāo)記；

7、將視覺(jué)標(biāo)記與文本標(biāo)記輸入llm骨干模型，輸出自動(dòng)駕駛解釋文本。

8、作為本發(fā)明更進(jìn)一步的方案，所述文本查詢(xún)模板包括歷史控制信號(hào)模板以及任務(wù)指令模板。

9、作為本發(fā)明更進(jìn)一步的方案，所述共享投影器為兩層感知器。

10、作為本發(fā)明更進(jìn)一步的方案，還包括：基于多視角攝像頭圖像、bev地圖圖像構(gòu)建視頻圖像問(wèn)答基準(zhǔn)，所述視頻圖像問(wèn)答基準(zhǔn)包括3d場(chǎng)景理解基準(zhǔn)以及可解釋的端到端駕駛基準(zhǔn)。

11、作為本發(fā)明更進(jìn)一步的方案，所述3d場(chǎng)景理解基準(zhǔn)的構(gòu)建步驟具體包括：

12、基于多視角攝像頭圖像、bev地圖圖像確定3d場(chǎng)景分層體系；

13、基于3d場(chǎng)景分層體系確定問(wèn)題選項(xiàng)和答案模板；

14、基于gpt-4v生成場(chǎng)景理解問(wèn)答對(duì)；

15、作為本發(fā)明更進(jìn)一步的方案，所述可解釋的端到端駕駛基準(zhǔn)的構(gòu)建步驟包括：

16、基于多視角攝像頭圖像、bev地圖圖像獲取控制信號(hào)序列；

17、確定閾值向量，基于閾值向量確定自車(chē)元?jiǎng)幼鳎?/p>

18、基于自車(chē)元?jiǎng)幼?、控制信?hào)序列以及場(chǎng)景理解問(wèn)答對(duì)通過(guò)chatgpt生成解釋文本。

19、作為本發(fā)明更進(jìn)一步的方案，還包括：

20、將2d空間域中圖像特征、視頻特征與大型語(yǔ)言模型的嵌入空間之間進(jìn)行對(duì)齊；

21、對(duì)3d場(chǎng)景理解基準(zhǔn)進(jìn)行3d微調(diào)；

22、對(duì)可解釋的端到端駕駛基準(zhǔn)進(jìn)行端到端微調(diào)。

23、作為本發(fā)明更進(jìn)一步的方案，所述將2d空間域中圖像特征、視頻特征與大型語(yǔ)言模型的嵌入空間之間進(jìn)行對(duì)齊的步驟中包括：

24、將視頻編碼器、圖像編碼器、和llm骨干的權(quán)重保持凍結(jié)，僅更新共享投影器的權(quán)重。

25、作為本發(fā)明更進(jìn)一步的方案，所述對(duì)3d場(chǎng)景理解基準(zhǔn)進(jìn)行3d微調(diào)步驟以及對(duì)可解釋的端到端駕駛基準(zhǔn)進(jìn)行端到端微調(diào)的步驟包括：

26、視頻編碼器和圖像編碼器的權(quán)重保持凍結(jié)，通過(guò)最小化交叉熵?fù)p失更新共享投影器和llm骨干的權(quán)重。

27、與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果是：通過(guò)模態(tài)編碼器來(lái)聯(lián)合編碼動(dòng)態(tài)的3d多視角場(chǎng)景視頻和靜態(tài)的bev地圖圖像，實(shí)現(xiàn)了全面的三維動(dòng)/靜態(tài)情境感知以及局部場(chǎng)景與全局地圖的視覺(jué)表示統(tǒng)一。相比于其他端到端模型，本發(fā)明提出的3d?lvlm架構(gòu)具備出色的三維空間理解和動(dòng)態(tài)時(shí)間推理能力，有效提升端到端自動(dòng)駕駛的準(zhǔn)確性和安全性。

技術(shù)特征：

1.一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法，其特征在于，所述文本查詢(xún)模板包括歷史控制信號(hào)模板以及任務(wù)指令模板。

3.根據(jù)權(quán)利要求1所述的一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法，其特征在于，所述共享投影器為兩層感知器。

4.根據(jù)權(quán)利要求1所述的一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法，其特征在于，還包括：基于多視角攝像頭圖像、bev地圖圖像構(gòu)建視頻圖像問(wèn)答基準(zhǔn)，所述視頻圖像問(wèn)答基準(zhǔn)包括3d場(chǎng)景理解基準(zhǔn)以及可解釋的端到端駕駛基準(zhǔn)。

5.根據(jù)權(quán)利要求4所述的一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法，其特征在于，所述3d場(chǎng)景理解基準(zhǔn)的構(gòu)建步驟具體包括：

6.根據(jù)權(quán)利要求5所述的一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法，其特征在于，所述可解釋的端到端駕駛基準(zhǔn)的構(gòu)建步驟包括：

7.根據(jù)權(quán)利要求6所述的一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法，其特征在于，還包括：

8.根據(jù)權(quán)利要求7所述的一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法，其特征在于，所述將2d空間域中圖像特征、視頻特征與大型語(yǔ)言模型的嵌入空間之間進(jìn)行對(duì)齊的步驟中包括：

9.根據(jù)權(quán)利要求7所述的一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法，其特征在于，所述對(duì)3d場(chǎng)景理解基準(zhǔn)進(jìn)行3d微調(diào)步驟以及對(duì)可解釋的端到端駕駛基準(zhǔn)進(jìn)行端到端微調(diào)的步驟包括：

技術(shù)總結(jié)
本發(fā)明涉及自動(dòng)駕駛技術(shù)領(lǐng)域，具體公開(kāi)了一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法，所述方法包括獲取多視角攝像頭圖像、BEV地圖圖像以及文本查詢(xún)模板；對(duì)多視角攝像頭圖像中的視頻特征進(jìn)行提取，對(duì)BEV地圖圖像中的圖像特征進(jìn)行提??；基于模態(tài)編碼器對(duì)圖像特征與視頻特征進(jìn)行對(duì)齊；將文本查詢(xún)模板進(jìn)行編碼，生成文本標(biāo)記，基于共享投影器將對(duì)齊后的圖像特征與視頻特征映射到文本嵌入空間，生成視覺(jué)標(biāo)記，將視覺(jué)標(biāo)記與文本標(biāo)記輸入LLM骨干模型，實(shí)現(xiàn)了全面的三維動(dòng)/靜態(tài)情境感知以及局部場(chǎng)景與全局地圖的視覺(jué)表示統(tǒng)一，3D?LVLM架構(gòu)具備出色的三維空間理解和動(dòng)態(tài)時(shí)間推理能力，有效提升端到端自動(dòng)駕駛的準(zhǔn)確性和安全性。

技術(shù)研發(fā)人員：趙睿,袁其瑞,高菲,李津羽,高鎮(zhèn)海,鄭程元
受保護(hù)的技術(shù)使用者：吉林大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙睿,袁其瑞,高菲,李津羽,高鎮(zhèn)海,鄭程元
技術(shù)所有人：吉林大學(xué)
我是此專(zhuān)利的發(fā)明人

上一篇：一種建筑施工混凝土成型模具的制作方法
上一篇：阻尼器機(jī)構(gòu)及減震器的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、林老師：1.智能駕駛技術(shù)研究 2.智能汽車(chē)人機(jī)交互研究 3.自動(dòng)駕駛預(yù)期功能安全及可靠性 4.駕駛功能與車(chē)輛動(dòng)力學(xué)數(shù)據(jù)融合 5.駕駛場(chǎng)景大數(shù)據(jù)分析技術(shù) 6.車(chē)輛性能研究
2、朱老師：1.新能源汽車(chē)電驅(qū)動(dòng)技術(shù) 2.輪轂電機(jī)驅(qū)動(dòng)與控制 3.開(kāi)關(guān)磁阻電機(jī)驅(qū)動(dòng)系統(tǒng)控制 4.智能電動(dòng)汽車(chē)
3、徐老師：1.內(nèi)燃機(jī)節(jié)能及排放控制技術(shù) ? 2.汽車(chē)節(jié)能與新能源汽車(chē)技術(shù) ??3. 車(chē)輛現(xiàn)代設(shè)計(jì)理論與方法
4、王老師：1.機(jī)械設(shè)計(jì)原理與方法 2.生理系統(tǒng)耦合及生物力學(xué) 3.康復(fù)工程學(xué)
5、唐老師：1.高效節(jié)能裝備 2.流動(dòng)穩(wěn)定性 3.汽車(chē)流場(chǎng)分析和淀粉糖工藝技術(shù)。
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法