亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法

文檔序號(hào):40378573發(fā)布日期:2024-12-20 12:01閱讀:5來(lái)源:國(guó)知局
一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法

本發(fā)明涉及自動(dòng)駕駛,具體是一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法。


背景技術(shù):

1、最近,大型視覺(jué)語(yǔ)言模型(large?vision-language?model,lvlm)的快速發(fā)展及其出色的常識(shí)推理和泛化能力引發(fā)了一系列在端到端自動(dòng)駕駛中的應(yīng)用。端到端自動(dòng)駕駛旨在通過(guò)使用車(chē)載傳感器數(shù)據(jù)作為輸入,直接預(yù)測(cè)車(chē)輛的控制信號(hào)和/或計(jì)劃路徑。然而,實(shí)現(xiàn)端到端自動(dòng)駕駛面臨的首要挑戰(zhàn)是場(chǎng)景理解,涉及在復(fù)雜多變、全局協(xié)同的3d場(chǎng)景中導(dǎo)航,并直接影響車(chē)輛的未來(lái)狀態(tài)預(yù)測(cè)、駕駛行為決策以及與環(huán)境的安全互動(dòng)。因此,lvlm需要將能力從二維理解擴(kuò)展到全面的三維動(dòng)/靜態(tài)情境感知,將局部場(chǎng)景與全局地圖的視覺(jué)表示進(jìn)行統(tǒng)一,以充分釋放其在現(xiàn)實(shí)應(yīng)用中的潛力。盡管先前的研究已經(jīng)展示了在端到端自動(dòng)駕駛中成功應(yīng)用llm的實(shí)例,但仍需要一種整體的方法,將lvlm的應(yīng)用擴(kuò)展到復(fù)雜的真實(shí)駕駛場(chǎng)景中。

2、端到端自動(dòng)駕駛另一個(gè)亟待解決的挑戰(zhàn)是決策過(guò)程的可解釋性。端到端自動(dòng)駕駛將全棧駕駛組件集成到一個(gè)綜合框架,消除了非連續(xù)中間步驟的累積誤差、協(xié)調(diào)不足與資源次優(yōu)利用,然而運(yùn)作方式類(lèi)似于“黑匣子”,這意味著決策過(guò)程缺乏直觀的可解釋性,可能導(dǎo)致廣泛的公眾不信任和法律關(guān)切。一些方法依賴(lài)可視化地圖作為一種手段來(lái)解釋系統(tǒng)的決策,或者通過(guò)提供有意義的中間表示來(lái)進(jìn)行決策,但對(duì)于駕乘人員而言,可視化地圖或中間表示往往難以理解。此外,一些方法還通過(guò)lvlm將復(fù)雜的決策過(guò)程轉(zhuǎn)化為易于理解的自然語(yǔ)言文本,從而為傳統(tǒng)系統(tǒng)提供了新的解釋層次,但是它們一般只考慮場(chǎng)景潛在因素,忽略了車(chē)輛未來(lái)控制指令序列的文本行為描述。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法,以解決上述背景技術(shù)中提出的問(wèn)題。

2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法,所述方法包括:

3、獲取多視角攝像頭圖像、bev地圖圖像以及文本查詢(xún)模板;

4、基于視頻編碼器對(duì)多視角攝像頭圖像中的視頻特征進(jìn)行提取,基于圖像編碼器對(duì)bev地圖圖像中的圖像特征進(jìn)行提??;

5、基于模態(tài)編碼器對(duì)圖像特征與視頻特征進(jìn)行對(duì)齊;

6、將文本查詢(xún)模板進(jìn)行編碼,生成文本標(biāo)記,基于共享投影器將對(duì)齊后的圖像特征與視頻特征映射到文本嵌入空間,生成視覺(jué)標(biāo)記;

7、將視覺(jué)標(biāo)記與文本標(biāo)記輸入llm骨干模型,輸出自動(dòng)駕駛解釋文本。

8、作為本發(fā)明更進(jìn)一步的方案,所述文本查詢(xún)模板包括歷史控制信號(hào)模板以及任務(wù)指令模板。

9、作為本發(fā)明更進(jìn)一步的方案,所述共享投影器為兩層感知器。

10、作為本發(fā)明更進(jìn)一步的方案,還包括:基于多視角攝像頭圖像、bev地圖圖像構(gòu)建視頻圖像問(wèn)答基準(zhǔn),所述視頻圖像問(wèn)答基準(zhǔn)包括3d場(chǎng)景理解基準(zhǔn)以及可解釋的端到端駕駛基準(zhǔn)。

11、作為本發(fā)明更進(jìn)一步的方案,所述3d場(chǎng)景理解基準(zhǔn)的構(gòu)建步驟具體包括:

12、基于多視角攝像頭圖像、bev地圖圖像確定3d場(chǎng)景分層體系;

13、基于3d場(chǎng)景分層體系確定問(wèn)題選項(xiàng)和答案模板;

14、基于gpt-4v生成場(chǎng)景理解問(wèn)答對(duì);

15、作為本發(fā)明更進(jìn)一步的方案,所述可解釋的端到端駕駛基準(zhǔn)的構(gòu)建步驟包括:

16、基于多視角攝像頭圖像、bev地圖圖像獲取控制信號(hào)序列;

17、確定閾值向量,基于閾值向量確定自車(chē)元?jiǎng)幼鳎?/p>

18、基于自車(chē)元?jiǎng)幼?、控制信?hào)序列以及場(chǎng)景理解問(wèn)答對(duì)通過(guò)chatgpt生成解釋文本。

19、作為本發(fā)明更進(jìn)一步的方案,還包括:

20、將2d空間域中圖像特征、視頻特征與大型語(yǔ)言模型的嵌入空間之間進(jìn)行對(duì)齊;

21、對(duì)3d場(chǎng)景理解基準(zhǔn)進(jìn)行3d微調(diào);

22、對(duì)可解釋的端到端駕駛基準(zhǔn)進(jìn)行端到端微調(diào)。

23、作為本發(fā)明更進(jìn)一步的方案,所述將2d空間域中圖像特征、視頻特征與大型語(yǔ)言模型的嵌入空間之間進(jìn)行對(duì)齊的步驟中包括:

24、將視頻編碼器、圖像編碼器、和llm骨干的權(quán)重保持凍結(jié),僅更新共享投影器的權(quán)重。

25、作為本發(fā)明更進(jìn)一步的方案,所述對(duì)3d場(chǎng)景理解基準(zhǔn)進(jìn)行3d微調(diào)步驟以及對(duì)可解釋的端到端駕駛基準(zhǔn)進(jìn)行端到端微調(diào)的步驟包括:

26、視頻編碼器和圖像編碼器的權(quán)重保持凍結(jié),通過(guò)最小化交叉熵?fù)p失更新共享投影器和llm骨干的權(quán)重。

27、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:通過(guò)模態(tài)編碼器來(lái)聯(lián)合編碼動(dòng)態(tài)的3d多視角場(chǎng)景視頻和靜態(tài)的bev地圖圖像,實(shí)現(xiàn)了全面的三維動(dòng)/靜態(tài)情境感知以及局部場(chǎng)景與全局地圖的視覺(jué)表示統(tǒng)一。相比于其他端到端模型,本發(fā)明提出的3d?lvlm架構(gòu)具備出色的三維空間理解和動(dòng)態(tài)時(shí)間推理能力,有效提升端到端自動(dòng)駕駛的準(zhǔn)確性和安全性。



技術(shù)特征:

1.一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法,其特征在于,所述方法包括:

2.根據(jù)權(quán)利要求1所述的一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法,其特征在于,所述文本查詢(xún)模板包括歷史控制信號(hào)模板以及任務(wù)指令模板。

3.根據(jù)權(quán)利要求1所述的一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法,其特征在于,所述共享投影器為兩層感知器。

4.根據(jù)權(quán)利要求1所述的一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法,其特征在于,還包括:基于多視角攝像頭圖像、bev地圖圖像構(gòu)建視頻圖像問(wèn)答基準(zhǔn),所述視頻圖像問(wèn)答基準(zhǔn)包括3d場(chǎng)景理解基準(zhǔn)以及可解釋的端到端駕駛基準(zhǔn)。

5.根據(jù)權(quán)利要求4所述的一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法,其特征在于,所述3d場(chǎng)景理解基準(zhǔn)的構(gòu)建步驟具體包括:

6.根據(jù)權(quán)利要求5所述的一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法,其特征在于,所述可解釋的端到端駕駛基準(zhǔn)的構(gòu)建步驟包括:

7.根據(jù)權(quán)利要求6所述的一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法,其特征在于,還包括:

8.根據(jù)權(quán)利要求7所述的一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法,其特征在于,所述將2d空間域中圖像特征、視頻特征與大型語(yǔ)言模型的嵌入空間之間進(jìn)行對(duì)齊的步驟中包括:

9.根據(jù)權(quán)利要求7所述的一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法,其特征在于,所述對(duì)3d場(chǎng)景理解基準(zhǔn)進(jìn)行3d微調(diào)步驟以及對(duì)可解釋的端到端駕駛基準(zhǔn)進(jìn)行端到端微調(diào)的步驟包括:


技術(shù)總結(jié)
本發(fā)明涉及自動(dòng)駕駛技術(shù)領(lǐng)域,具體公開(kāi)了一種基于大型視覺(jué)語(yǔ)言模型的自動(dòng)駕駛解釋文本確定方法,所述方法包括獲取多視角攝像頭圖像、BEV地圖圖像以及文本查詢(xún)模板;對(duì)多視角攝像頭圖像中的視頻特征進(jìn)行提取,對(duì)BEV地圖圖像中的圖像特征進(jìn)行提??;基于模態(tài)編碼器對(duì)圖像特征與視頻特征進(jìn)行對(duì)齊;將文本查詢(xún)模板進(jìn)行編碼,生成文本標(biāo)記,基于共享投影器將對(duì)齊后的圖像特征與視頻特征映射到文本嵌入空間,生成視覺(jué)標(biāo)記,將視覺(jué)標(biāo)記與文本標(biāo)記輸入LLM骨干模型,實(shí)現(xiàn)了全面的三維動(dòng)/靜態(tài)情境感知以及局部場(chǎng)景與全局地圖的視覺(jué)表示統(tǒng)一,3D?LVLM架構(gòu)具備出色的三維空間理解和動(dòng)態(tài)時(shí)間推理能力,有效提升端到端自動(dòng)駕駛的準(zhǔn)確性和安全性。

技術(shù)研發(fā)人員:趙睿,袁其瑞,高菲,李津羽,高鎮(zhèn)海,鄭程元
受保護(hù)的技術(shù)使用者:吉林大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/19
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1