一種基于多模態(tài)逆強(qiáng)化學(xué)習(xí)的機(jī)器人導(dǎo)航方法

文檔序號(hào)：40389861發(fā)布日期：2024-12-20 12:12閱讀：4來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>測(cè)量裝置的制造及其應(yīng)用技術(shù)

本發(fā)明屬于機(jī)器人智能導(dǎo)航領(lǐng)域，具體涉及一種基于多模態(tài)逆強(qiáng)化學(xué)習(xí)的機(jī)器人導(dǎo)航方法。

背景技術(shù)：

1、機(jī)器人導(dǎo)航技術(shù)是移動(dòng)機(jī)器人的研究熱點(diǎn)之一，當(dāng)前機(jī)器人智能導(dǎo)航已在各類(lèi)場(chǎng)景中得到廣泛應(yīng)用。在這些場(chǎng)景中，機(jī)器人需要自主應(yīng)對(duì)復(fù)雜的環(huán)境，并完成一系列指令以實(shí)現(xiàn)任務(wù)目標(biāo)。為實(shí)現(xiàn)這一目標(biāo)，機(jī)器人需要進(jìn)行多次導(dǎo)航?jīng)Q策，即在進(jìn)行動(dòng)態(tài)避障的同時(shí)完成路徑規(guī)劃。

2、然而，當(dāng)前的機(jī)器人導(dǎo)航技術(shù)仍面臨著諸多挑戰(zhàn)，傳統(tǒng)的機(jī)器人導(dǎo)航方法通常依賴(lài)于單一傳感器信息從而引發(fā)局限性，例如激光雷達(dá)難以識(shí)別透明物體，攝像頭易受光照變化影響等，導(dǎo)致機(jī)器人難以全面準(zhǔn)確地感知周?chē)h(huán)境，從而影響導(dǎo)航性能。此外，現(xiàn)實(shí)世界環(huán)境復(fù)雜多變，機(jī)器人需要根據(jù)實(shí)時(shí)感知到的環(huán)境信息做出合理的路徑規(guī)劃和避障決策。此外，基于深度強(qiáng)化學(xué)習(xí)的導(dǎo)航方法在復(fù)雜環(huán)境下難以設(shè)計(jì)合適的獎(jiǎng)勵(lì)函數(shù)，從而導(dǎo)致機(jī)器人具有不佳的表現(xiàn)。

3、cn117369458a公開(kāi)了一種基于逆強(qiáng)化學(xué)習(xí)的室外復(fù)雜環(huán)境局部路徑規(guī)劃方法，其利用機(jī)器人上的gps、攝像頭和激光雷達(dá)等采集環(huán)境信息，通過(guò)數(shù)據(jù)融合算法將不同傳感器的數(shù)據(jù)進(jìn)行整合，然而該技術(shù)依賴(lài)于精確的傳感器數(shù)據(jù)和復(fù)雜的優(yōu)化算法，對(duì)傳感器精度和匹配程度要求高，對(duì)傳感器噪聲和環(huán)境變化的容忍度低。cn117723064a公開(kāi)了一種多傳感器數(shù)據(jù)融合的智能巡檢機(jī)器人導(dǎo)航方法及系統(tǒng)，其通過(guò)硬件設(shè)計(jì)和視覺(jué)模塊提升導(dǎo)航功能，但主要依賴(lài)于預(yù)先設(shè)定的規(guī)則和簡(jiǎn)單的視覺(jué)識(shí)別，對(duì)復(fù)雜環(huán)境的感知能力有限，缺乏全局路徑規(guī)劃能力。cn118289110a公開(kāi)了一種多模態(tài)智能感知四足仿生檢測(cè)機(jī)器人及其控制方法，其利用逆強(qiáng)化學(xué)習(xí)和粒子群算法優(yōu)化局部路徑，實(shí)時(shí)采集圖像并計(jì)算最優(yōu)路徑，適應(yīng)室外復(fù)雜環(huán)境，但是該技術(shù)不具備全局視野，容易陷入局部最優(yōu)解，同時(shí)受專(zhuān)家演示質(zhì)量影響較大，容易由于專(zhuān)家示例的偏好差異導(dǎo)致訓(xùn)練過(guò)程不穩(wěn)定。

4、近年來(lái)涌現(xiàn)出了一些新的機(jī)器人導(dǎo)航技術(shù)，如多模態(tài)信息融合、逆強(qiáng)化學(xué)習(xí)等，為解決機(jī)器人導(dǎo)航問(wèn)題提供了新的思路。但有，效地融合不同模態(tài)的傳感器信息仍是一個(gè)挑戰(zhàn)，同時(shí)高質(zhì)量的專(zhuān)家演示成本高昂且難以獲取，也會(huì)因會(huì)專(zhuān)家演示的偏好不同導(dǎo)致表現(xiàn)上的差異。

技術(shù)實(shí)現(xiàn)思路

1、為了克服以上技術(shù)問(wèn)題，本發(fā)明的目的在于提供一種基于多模態(tài)逆強(qiáng)化學(xué)習(xí)的機(jī)器人導(dǎo)航方法。通過(guò)構(gòu)建多模態(tài)融合網(wǎng)絡(luò)以融合激光雷達(dá)、柵格地圖和機(jī)器人位姿生成新的觀測(cè)表征作為強(qiáng)化學(xué)習(xí)觀測(cè)信息以實(shí)現(xiàn)不同模態(tài)的對(duì)齊與融合。此外，采用生成式對(duì)抗逆強(qiáng)化學(xué)習(xí)將復(fù)雜任務(wù)解耦為若干的子任務(wù)，使用多個(gè)判別器對(duì)應(yīng)于每個(gè)子任務(wù)，并對(duì)每個(gè)子任務(wù)的獎(jiǎng)勵(lì)函數(shù)進(jìn)行加權(quán)融合，使用合并后的標(biāo)準(zhǔn)化獎(jiǎng)勵(lì)函數(shù)來(lái)訓(xùn)練策略，有效降低專(zhuān)家演示的不同偏好所導(dǎo)致的誤差；

2、為了實(shí)現(xiàn)上述目的，本發(fā)明采用了如下技術(shù)方案：

3、一種基于多模態(tài)逆強(qiáng)化學(xué)習(xí)的機(jī)器人導(dǎo)航方法，包括以下步驟：

4、s1：獲取機(jī)器人位姿數(shù)據(jù)，采集激光雷達(dá)數(shù)據(jù)，生成柵格地圖；

5、s2：激光雷達(dá)數(shù)據(jù)、柵格地圖和機(jī)器人位姿信息通過(guò)多模態(tài)融合網(wǎng)絡(luò)生成融合觀測(cè)表征；

6、s3：初始化網(wǎng)絡(luò)參數(shù)，將融合觀測(cè)表征作為專(zhuān)家演示軌跡數(shù)據(jù)，通過(guò)專(zhuān)家演示軌跡預(yù)訓(xùn)練生成式對(duì)抗逆強(qiáng)化學(xué)習(xí)框架中的生成器和判別器，得到預(yù)訓(xùn)練模型；

7、s4：通過(guò)專(zhuān)家軌跡數(shù)據(jù)對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行標(biāo)準(zhǔn)化；

8、s5：構(gòu)建生成式對(duì)抗逆強(qiáng)化學(xué)習(xí)整體框架，訓(xùn)練后得到智能控制模型，部署模型實(shí)現(xiàn)機(jī)器人的智能控制。

9、優(yōu)選地，步驟s1獲取機(jī)器人位姿數(shù)據(jù)，采集激光雷達(dá)數(shù)據(jù)，生成柵格地圖，具體為：

10、步驟s1.1：輪式里程計(jì)利用觀測(cè)的左右輪轉(zhuǎn)速值得到的速度與角速度，代入移動(dòng)機(jī)器人運(yùn)動(dòng)學(xué)模型中，推演出機(jī)器人當(dāng)前的位姿信息p；

11、步驟s1.2：采集的里程計(jì)數(shù)據(jù)和激光雷達(dá)數(shù)據(jù)r，采用坐標(biāo)系轉(zhuǎn)換法對(duì)每束激光數(shù)據(jù)進(jìn)行矯正；

12、步驟s1.3：根據(jù)矯正過(guò)的激光雷達(dá)數(shù)據(jù)生成柵格地圖m。

13、優(yōu)選地，步驟s2通過(guò)神經(jīng)網(wǎng)絡(luò)模型對(duì)激光雷達(dá)數(shù)據(jù)、柵格地圖和機(jī)器人位姿信息進(jìn)行融合為新的觀測(cè)表征，具體為：

14、步驟s2.1：柵格地圖m經(jīng)過(guò)卷積層得到柵格地圖表征fm，其中，卷積層有三層，分別為cl1、cl2和cl3，每一層卷積層后都經(jīng)過(guò)激活函數(shù)relu；

15、步驟s2.2：激光雷達(dá)數(shù)據(jù)r經(jīng)過(guò)卷積層得到雷達(dá)表征fr，其中，卷積層有兩層，分別為cl4和cl5，每一層卷積層后都經(jīng)過(guò)激活函數(shù)relu；

16、步驟s2.3：柵格地圖表征fm和雷達(dá)表征fr經(jīng)過(guò)全連接層融合得到融合表征fmr，其中，全連接層有兩層，分別為fcl1和fcl2，每一層全連接層后都經(jīng)過(guò)激活函數(shù)relu；

17、步驟s2.4：位姿信息p經(jīng)過(guò)全連接層得到位姿表征fp，其中，全連接層有一層，為fcl3，全連接層后經(jīng)過(guò)激活函數(shù)relu；

18、步驟s2.5：位姿表征fp和表征fmr經(jīng)過(guò)全連接層融合得到融合表征fmrp，其中，全連接層有一層，為fcl4。

19、優(yōu)選地，步驟s3初始化網(wǎng)絡(luò)參數(shù)，將融合觀測(cè)表征作為專(zhuān)家演示軌跡數(shù)據(jù)，通過(guò)專(zhuān)家演示軌跡預(yù)訓(xùn)練生成式對(duì)抗逆強(qiáng)化學(xué)習(xí)框架中的生成器和判別器，得到預(yù)訓(xùn)練模型，具體為：

20、步驟s3.1：設(shè)置子任務(wù)共m個(gè)，專(zhuān)家演示軌跡集合s由n條專(zhuān)家軌跡組成，表示如下：

21、s＝[τ1,τ2,…,τn]

22、其中，第i條專(zhuān)家軌跡τi表示如下：

23、

24、其中，(x,a)代表狀態(tài)-動(dòng)作對(duì)，j代表任務(wù)周期中的某個(gè)時(shí)刻，ni代表一個(gè)軌跡的周期長(zhǎng)度；

25、步驟s3.2：初始化生成器g(·|θg)和m個(gè)判別器

26、步驟s3.3：對(duì)于每個(gè)專(zhuān)家軌跡生成器g(·|θg)會(huì)先根據(jù)狀態(tài)序列生成動(dòng)作序列

27、第j個(gè)判別器根據(jù)來(lái)判斷動(dòng)作來(lái)自于生成動(dòng)作還是專(zhuān)家動(dòng)作ai；

28、步驟s3.4：設(shè)置生成器和第j個(gè)判別器的聯(lián)合優(yōu)化目標(biāo)，如下所示：

29、

30、根據(jù)聯(lián)合優(yōu)化目標(biāo)預(yù)訓(xùn)練生成器和m個(gè)判別器。

31、優(yōu)選地，步驟s4通過(guò)專(zhuān)家軌跡數(shù)據(jù)對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行標(biāo)準(zhǔn)化，具體為：

32、步驟s4.1：計(jì)算獎(jiǎng)勵(lì)函數(shù)的均值μi和標(biāo)準(zhǔn)差σi，計(jì)算方法如下所示：

33、

34、其中，ni代表專(zhuān)家軌跡的長(zhǎng)度；

35、步驟s4.2：根據(jù)均值μi和標(biāo)準(zhǔn)差σi，設(shè)置標(biāo)準(zhǔn)化獎(jiǎng)勵(lì)函數(shù)如下所示：

36、

37、優(yōu)選地，步驟s5構(gòu)建生成式對(duì)抗逆強(qiáng)化學(xué)習(xí)整體框架，訓(xùn)練后得到智能控制模型，部署模型實(shí)現(xiàn)機(jī)器人的智能控制，具體為：

38、步驟s5.1：策略網(wǎng)絡(luò)π(xt|θg)根據(jù)狀態(tài)xt生成動(dòng)作將狀態(tài)-生成動(dòng)作對(duì)的序列視為生成軌跡

39、步驟s5.2：基礎(chǔ)生成式對(duì)抗網(wǎng)絡(luò)的判別器的目標(biāo)函數(shù)d*(·)表示如下：

40、

41、其中，p(·)代表真實(shí)分布，q(·)代表生成器分布；

42、引入玻爾茲曼分布cθ(·)替代p(·)，則目標(biāo)函數(shù)表示為：

43、

44、其中，1/z代表分布調(diào)節(jié)系數(shù)；

45、進(jìn)一步簡(jiǎn)化目標(biāo)函數(shù)可以表示為：

46、

47、其中，fθ(s,a)代表獎(jiǎng)勵(lì)函數(shù)；

48、根據(jù)目標(biāo)函數(shù)dθ(·)，設(shè)置生成式對(duì)抗逆強(qiáng)化學(xué)習(xí)中第i個(gè)子任務(wù)的目標(biāo)函數(shù)di(x,a)，如下所示：

49、

50、其中，ri由判別器d(·|θd)給出，如下所示：

51、r1,t,...,rm,t＝d(xt,at|θd)

52、步驟s5.3：設(shè)置價(jià)值網(wǎng)絡(luò)目標(biāo)函數(shù)lc；

53、價(jià)值網(wǎng)絡(luò)目標(biāo)函數(shù)lc由兩個(gè)部分組成，分別是權(quán)重網(wǎng)絡(luò)優(yōu)化目標(biāo)和狀態(tài)價(jià)值函數(shù)優(yōu)化目標(biāo)

54、設(shè)置權(quán)重網(wǎng)絡(luò)優(yōu)化目標(biāo)如下所示：

55、

56、其中，代表t時(shí)刻的第j個(gè)獎(jiǎng)賞，wi(·)代表第j個(gè)權(quán)重網(wǎng)絡(luò)，γ代表折扣因子，θc代表價(jià)值網(wǎng)絡(luò)參數(shù)，包含θg和權(quán)重網(wǎng)絡(luò)的參數(shù)；

57、狀態(tài)價(jià)值函數(shù)優(yōu)化目標(biāo)如下：

58、

59、其中，g(·)代表w(·)經(jīng)過(guò)softmax函數(shù)處理過(guò)的權(quán)重參數(shù)，過(guò)程如下：

60、

61、步驟s5.4：計(jì)算優(yōu)勢(shì)函數(shù)，優(yōu)勢(shì)函數(shù)計(jì)算方法如下所示：

62、

63、步驟s5.5：設(shè)置策略網(wǎng)絡(luò)的目標(biāo)函數(shù)la優(yōu)化目標(biāo)，如下所示：

64、

65、其中，clip代表裁剪函數(shù)，∈代表邊界參數(shù)；

66、梯度計(jì)算方法如下：

67、

68、其中，θ'g代表生成器的歷史參數(shù)，p(a|x)代表策略分布。

69、與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果為：

70、(1)本發(fā)明通過(guò)多模態(tài)融合網(wǎng)絡(luò)為機(jī)器人提供更全面、更準(zhǔn)確的環(huán)境感知信息，通過(guò)生成式逆強(qiáng)化學(xué)習(xí)方法減少具有不同偏好專(zhuān)家演示帶來(lái)的行為差異，從而能夠提高獎(jiǎng)勵(lì)函數(shù)的準(zhǔn)確性以及策略的泛化能力。

71、(2)本發(fā)明可以有效地應(yīng)用于復(fù)雜環(huán)境下機(jī)器人動(dòng)態(tài)避障及路徑規(guī)劃場(chǎng)景，在加快訓(xùn)練收斂速度的同時(shí)，有效提升了機(jī)器人的導(dǎo)航能力。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：史豪斌,何自明,劉子航,楊北亞
技術(shù)所有人：西北工業(yè)大學(xué)
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、邢老師：1.機(jī)械設(shè)計(jì)及理論 2.生物醫(yī)學(xué)材料及器械 3.聲發(fā)射檢測(cè)技術(shù)。
2、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開(kāi)發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
3、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開(kāi)發(fā)
4、張老師：1.機(jī)械設(shè)計(jì)的應(yīng)力分析、強(qiáng)度校核的計(jì)算機(jī)仿真 2.生物反應(yīng)器研制 3.生物力學(xué)
5、趙老師：檢測(cè)與控制技術(shù)、機(jī)器人技術(shù)、機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于多模態(tài)逆強(qiáng)化學(xué)習(xí)的機(jī)器人導(dǎo)航方法