亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種多模態(tài)移動平臺的模態(tài)決策方法及裝置

文檔序號:40396345發(fā)布日期:2024-12-20 12:19閱讀:9來源:國知局
一種多模態(tài)移動平臺的模態(tài)決策方法及裝置

本技術(shù)涉及運動控制領(lǐng)域,特別是涉及一種多模態(tài)移動平臺的模態(tài)決策方法及裝置。


背景技術(shù):

1、自動駕駛技術(shù)近年來迅速發(fā)展,在縮短運輸成本、提高城市運行效率以及探索危險工況等具有極其廣泛的應(yīng)用前景。目前,有關(guān)傳統(tǒng)純輪式移動平臺自動駕駛領(lǐng)域得到了充分的發(fā)展。然而,由于越障能力的限制傳統(tǒng)純輪式移動平臺在城市臺階路況、野外丘陵等具有挑戰(zhàn)性的工況中難以通過,作為多模態(tài)移動平臺的輪腿式移動平臺是一種可行的解決方案。輪腿式移動平臺將驅(qū)動輪與腿集成到一起,這種設(shè)計使車輛能夠在較為平坦的路面上長距離高效行駛,同時在具有挑戰(zhàn)性的地形中保持一定程度的越障能力。想要發(fā)揮輪腿式移動平臺高機動性與高通行效率的巨大潛力,需要解決輪腿混合運動控制、實現(xiàn)高效平穩(wěn)的起伏越野環(huán)境導(dǎo)航。

2、首先,輪腿混合運動控制問題極具挑戰(zhàn)性。盡管純輪式和四足機器人控制算法均已發(fā)展成熟,例如基于模型預(yù)測控制的純輪式算法和受自然啟發(fā)的四足控制策略,輪腿混合系統(tǒng)的有效控制仍然復(fù)雜。這些系統(tǒng)通常采用基于啟發(fā)式的算法,將輪式和腿式運動分為兩種模式,從而分別實現(xiàn)高效的輪式控制和優(yōu)良的越障性能。然而,具體使用什么模態(tài)目前只能人為調(diào)控,這阻礙了多模態(tài)移動平臺自動駕駛技術(shù)的發(fā)展。

3、其次,對輪腿式平臺而言,實現(xiàn)高效穩(wěn)定的2.5d導(dǎo)航至關(guān)重要。盡管已有多種針對純輪式車輛的二維導(dǎo)航技術(shù),如基于樣本、人工勢場法、圖理論和強化學(xué)習(xí)方法,這些技術(shù)能在平坦開闊地區(qū)提供穩(wěn)定導(dǎo)航。然而,這些方法往往忽略輪腿平臺的多模態(tài)運動特性,未能充分利用其優(yōu)越的越障能力,例如在具有一定高度障礙的地形中,這些算法只能規(guī)劃出躲避這些高度障礙的軌跡而不是從上面跨越。為綜合速度、效率和越障性能,導(dǎo)航算法需考慮這些多模態(tài)特性,以在平坦地形中高效規(guī)劃同時在障礙面前保持敏捷。2.5d導(dǎo)航系統(tǒng)在傳統(tǒng)導(dǎo)航系統(tǒng)的基礎(chǔ)上增加了三維軌跡規(guī)劃的功能,能夠規(guī)劃出跨越障礙物的軌跡?,F(xiàn)有的2.5d導(dǎo)航方法多設(shè)計于無輪式模態(tài)的四足機器人,其規(guī)劃出的軌跡不包含模態(tài)決策信息,無法利用輪式模態(tài)在平坦區(qū)域的高效運行。

4、輪腿式移動平臺融合了純輪式與四足機器人的運動控制策略,雖然各自獨立控制技術(shù)已相對成熟,但如何高效地整合這兩種模式以實現(xiàn)自適應(yīng)模態(tài)切換和動態(tài)環(huán)境應(yīng)對,仍然是一大技術(shù)挑戰(zhàn)。目前,輪腿混合系統(tǒng)的模式選擇依賴于人工調(diào)控,這限制了其在復(fù)雜地形和自動駕駛場景下的應(yīng)用效果和效率。

5、目前的導(dǎo)航技術(shù)主要分為針對純輪式移動平臺與針對四足機器人兩類。針對純輪式移動平臺的導(dǎo)航技術(shù)不具備三維軌跡規(guī)劃的能力,在越過障礙物時只能選擇繞行,不能發(fā)揮出多模態(tài)移動平臺的越障優(yōu)勢。針對四足機器人的導(dǎo)航技術(shù)屬于2.5d導(dǎo)航技術(shù),具備了規(guī)劃出三維軌跡的能力,但是全程只能使用足式模態(tài),不能發(fā)揮出多模態(tài)移動平臺在平地工況時輪式高效移動的優(yōu)勢。

6、因此,目前急需一種新的導(dǎo)航技術(shù)框架以充分發(fā)揮多模態(tài)運動的潛力。


技術(shù)實現(xiàn)思路

1、本技術(shù)的目的是提供一種多模態(tài)移動平臺的模態(tài)決策方法及裝置,可實現(xiàn)多模態(tài)移動平臺的模態(tài)運動決策控制。

2、為實現(xiàn)上述目的,本技術(shù)提供了如下方案:

3、第一方面,本技術(shù)提供了一種多模態(tài)移動平臺的模態(tài)決策方法,所述多模態(tài)移動平臺的模態(tài)決策方法包括:

4、獲取多模態(tài)移動平臺的基本參數(shù)數(shù)據(jù);所述基本參數(shù)數(shù)據(jù)包括:跨越高度閾值、移動過程閾值和高程地圖信息;所述移動過程閾值包括:長度、寬度和高度;

5、根據(jù)所述基本參數(shù)數(shù)據(jù)確定軌跡信息數(shù)據(jù);所述軌跡信息數(shù)據(jù)是由多個時間步對應(yīng)的軌跡數(shù)據(jù)構(gòu)成的;

6、將狀態(tài)空間數(shù)據(jù)輸入至馬爾可夫決策模型,輸出模態(tài)決策信息;所述狀態(tài)空間數(shù)據(jù)包括所述基本參數(shù)數(shù)據(jù)和所述軌跡信息數(shù)據(jù);所述馬爾可夫決策模型包括:相互連接的策略神經(jīng)網(wǎng)絡(luò)和獎勵神經(jīng)網(wǎng)絡(luò);所述策略神經(jīng)網(wǎng)絡(luò)用于根據(jù)所述狀態(tài)空間數(shù)據(jù)確定行為空間數(shù)據(jù),并基于所述行為空間數(shù)據(jù)確定模態(tài)決策;所述行為空間數(shù)據(jù)為各個時間步對應(yīng)的模態(tài)決策指令數(shù)據(jù);所述模態(tài)決策包括:輪式運動模式和腿式運動模式;所述獎勵神經(jīng)網(wǎng)絡(luò)用于根據(jù)所述模態(tài)決策和所述狀態(tài)空間數(shù)據(jù)確定目標(biāo)函數(shù),并基于獎勵函數(shù)和所述目標(biāo)函數(shù),采用梯度下降的方法,對所述策略神經(jīng)網(wǎng)絡(luò)中的參數(shù)進行更新;所述參數(shù)包括:散度閾值;

7、根據(jù)所述模態(tài)決策信息控制所述多模態(tài)移動平臺進行移動。

8、可選地,所述目標(biāo)函數(shù)的表達(dá)式為:

9、;

10、其中,為目標(biāo)函數(shù);為截斷函數(shù);為超參數(shù);為概率比;為在第時間步的行為數(shù)據(jù)、策略模型、第時間步的狀態(tài)數(shù)據(jù)的遷移遵循遷移概率函數(shù)的條件下的期望值;為優(yōu)勢函數(shù)。

11、可選地,所述獎勵函數(shù)是采用近似值函數(shù)對優(yōu)勢函數(shù)進行計算得到的;

12、所述獎勵函數(shù),具體包括:

13、;

14、;

15、其中,為優(yōu)勢函數(shù);為第時間步的行為數(shù)據(jù);為策略模型;為第時間步的狀態(tài)數(shù)據(jù);為平滑參數(shù);為折扣因子;為第時間步的散度閾值;為第時間步的散度閾值;為第時間步的散度閾值;為第時間步的狀態(tài)數(shù)據(jù)的近似值函數(shù);為第時間步的狀態(tài)數(shù)據(jù)的近似值函數(shù);為第時間步的獎勵。

16、可選地,所述策略神經(jīng)網(wǎng)絡(luò)包括依次連接的第一輸入層、第一正則化處理層、第一全連接層和第一輸出層;

17、所述第一輸入層用于接收所述狀態(tài)空間數(shù)據(jù);

18、所述第一正則化處理層用于對所述狀態(tài)空間數(shù)據(jù)進行正則化處理,以去除噪聲干擾,得到處理后的數(shù)據(jù);

19、所述第一全連接層用于采用激活函數(shù)根據(jù)處理后的數(shù)據(jù)確定模態(tài)決策;

20、所述第一輸出層用于輸出所述模態(tài)決策。

21、可選地,所述激活函數(shù)采用relu函數(shù)。

22、可選地,所述獎勵神經(jīng)網(wǎng)絡(luò)包括依次連接的第二輸入層、第二正則化處理層、第二全連接層和第二輸出層;所述第二輸出層和所述第一輸入層連接;

23、所述第二正則化處理層用于對所述第二輸入層接收的所述模態(tài)決策和所述狀態(tài)空間數(shù)據(jù),進行去噪處理,得到處理數(shù)據(jù);

24、所述第二全連接層用于根據(jù)所述處理數(shù)據(jù)確定目標(biāo)函數(shù),并基于獎勵函數(shù)和所述目標(biāo)函數(shù),采用梯度下降的方法,對所述策略神經(jīng)網(wǎng)絡(luò)中的參數(shù)進行更新,得到更新參數(shù);

25、所述第二輸出層用于將所述更新參數(shù)輸出至所述第一輸入層。

26、可選地,所述獎勵神經(jīng)網(wǎng)絡(luò)用于根據(jù)所述模態(tài)決策確定目標(biāo)函數(shù),并基于獎勵函數(shù)和所述目標(biāo)函數(shù),采用梯度下降的方法,以損失函數(shù)的值最小為目標(biāo),對所述策略神經(jīng)網(wǎng)絡(luò)中的參數(shù)進行更新;所述損失函數(shù)是根據(jù)所述軌跡信息數(shù)據(jù)和實時獲取的軌跡數(shù)據(jù)之間的差值確定的。

27、第二方面,本技術(shù)提供了一種多模態(tài)移動平臺的模態(tài)決策裝置,所述多模態(tài)移動平臺的模態(tài)決策裝置包括:2.5d導(dǎo)航系統(tǒng)、移動控制模塊和由上述所述的多模態(tài)移動平臺的模態(tài)決策方法實現(xiàn)的模態(tài)決策模塊;

28、所述2.5d導(dǎo)航系統(tǒng)與所述模態(tài)決策模塊連接;所述移動控制模塊與所述模態(tài)決策模塊連接;

29、所述2.5d導(dǎo)航系統(tǒng)用于獲取多模態(tài)移動平臺的基本參數(shù)數(shù)據(jù),并根據(jù)所述基本參數(shù)數(shù)據(jù)確定軌跡信息數(shù)據(jù);所述基本參數(shù)數(shù)據(jù)包括:跨越高度閾值、移動過程閾值和高程地圖信息;所述移動過程閾值包括:長度、寬度和高度;所述軌跡信息數(shù)據(jù)是由多個時間步對應(yīng)的軌跡數(shù)據(jù)構(gòu)成的;

30、所述模態(tài)決策模塊用于獲取所述2.5d導(dǎo)航系統(tǒng)中的狀態(tài)數(shù)據(jù),并將狀態(tài)空間數(shù)據(jù)輸入至馬爾可夫決策模型,輸出模態(tài)決策信息;所述狀態(tài)空間數(shù)據(jù)包括所述基本參數(shù)數(shù)據(jù)和所述軌跡信息數(shù)據(jù);所述馬爾可夫決策模型包括:依次連接的策略神經(jīng)網(wǎng)絡(luò)和獎勵神經(jīng)網(wǎng)絡(luò);所述策略神經(jīng)網(wǎng)絡(luò)用于根據(jù)所述狀態(tài)空間數(shù)據(jù)確定行為空間數(shù)據(jù),并基于所述行為空間數(shù)據(jù)確定模態(tài)決策;所述行為空間數(shù)據(jù)為各個時間步對應(yīng)的模態(tài)決策指令數(shù)據(jù);所述模態(tài)決策包括:輪式運動模式和腿式運動模式;所述獎勵神經(jīng)網(wǎng)絡(luò)用于根據(jù)所述模態(tài)決策確定目標(biāo)函數(shù),并基于獎勵函數(shù)和所述目標(biāo)函數(shù),采用梯度下降的方法,對所述策略神經(jīng)網(wǎng)絡(luò)中的參數(shù)進行更新;所述參數(shù)包括:散度閾值;

31、所述移動控制模塊用于根據(jù)所述模態(tài)決策信息控制所述多模態(tài)移動平臺進行移動。

32、可選地,所述2.5d導(dǎo)航系統(tǒng)包括:數(shù)據(jù)獲取模塊和軌跡信息數(shù)據(jù)確定模塊;

33、所述數(shù)據(jù)獲取模塊和所述軌跡信息數(shù)據(jù)確定模塊連接;

34、所述數(shù)據(jù)獲取模塊用于獲取多模態(tài)移動平臺的基本參數(shù)數(shù)據(jù);

35、所述軌跡信息數(shù)據(jù)確定模塊用于根據(jù)所述基本參數(shù)數(shù)據(jù)確定軌跡信息數(shù)據(jù)。

36、可選地,所述數(shù)據(jù)獲取模塊采用感知設(shè)備。

37、根據(jù)本技術(shù)提供的具體實施例,本技術(shù)公開了以下技術(shù)效果:

38、本技術(shù)提供了一種多模態(tài)移動平臺的模態(tài)決策方法及裝置,通過根據(jù)獲取的基本參數(shù)數(shù)據(jù)確定軌跡信息數(shù)據(jù);將狀態(tài)空間數(shù)據(jù)輸入至馬爾可夫決策模型,輸出模態(tài)決策信息;狀態(tài)空間數(shù)據(jù)包括基本參數(shù)數(shù)據(jù)和軌跡信息數(shù)據(jù);馬爾可夫決策模型包括:相互連接的策略神經(jīng)網(wǎng)絡(luò)和獎勵神經(jīng)網(wǎng)絡(luò);根據(jù)模態(tài)決策信息控制多模態(tài)移動平臺進行移動。本技術(shù)將模態(tài)決策問題進行了馬爾可夫建模,創(chuàng)新性地設(shè)計了狀態(tài)空間、行為空間與獎勵函數(shù)。狀態(tài)空間跟隨時間步滾動,從而減少策略獲得的冗余信息并減小策略的計算需求。獎勵函數(shù)考慮了安全與效率的綜合性能,旨在保證安全的前提下通過模態(tài)決策最大化通行效率。由此,本技術(shù)能夠?qū)崿F(xiàn)多模態(tài)移動平臺的模態(tài)運動決策控制。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1