亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于多模態(tài)逆強(qiáng)化學(xué)習(xí)的機(jī)器人導(dǎo)航方法

文檔序號(hào):40389861發(fā)布日期:2024-12-20 12:12閱讀:4來(lái)源:國(guó)知局
一種基于多模態(tài)逆強(qiáng)化學(xué)習(xí)的機(jī)器人導(dǎo)航方法

本發(fā)明屬于機(jī)器人智能導(dǎo)航領(lǐng)域,具體涉及一種基于多模態(tài)逆強(qiáng)化學(xué)習(xí)的機(jī)器人導(dǎo)航方法。


背景技術(shù):

1、機(jī)器人導(dǎo)航技術(shù)是移動(dòng)機(jī)器人的研究熱點(diǎn)之一,當(dāng)前機(jī)器人智能導(dǎo)航已在各類(lèi)場(chǎng)景中得到廣泛應(yīng)用。在這些場(chǎng)景中,機(jī)器人需要自主應(yīng)對(duì)復(fù)雜的環(huán)境,并完成一系列指令以實(shí)現(xiàn)任務(wù)目標(biāo)。為實(shí)現(xiàn)這一目標(biāo),機(jī)器人需要進(jìn)行多次導(dǎo)航?jīng)Q策,即在進(jìn)行動(dòng)態(tài)避障的同時(shí)完成路徑規(guī)劃。

2、然而,當(dāng)前的機(jī)器人導(dǎo)航技術(shù)仍面臨著諸多挑戰(zhàn),傳統(tǒng)的機(jī)器人導(dǎo)航方法通常依賴(lài)于單一傳感器信息從而引發(fā)局限性,例如激光雷達(dá)難以識(shí)別透明物體,攝像頭易受光照變化影響等,導(dǎo)致機(jī)器人難以全面準(zhǔn)確地感知周?chē)h(huán)境,從而影響導(dǎo)航性能。此外,現(xiàn)實(shí)世界環(huán)境復(fù)雜多變,機(jī)器人需要根據(jù)實(shí)時(shí)感知到的環(huán)境信息做出合理的路徑規(guī)劃和避障決策。此外,基于深度強(qiáng)化學(xué)習(xí)的導(dǎo)航方法在復(fù)雜環(huán)境下難以設(shè)計(jì)合適的獎(jiǎng)勵(lì)函數(shù),從而導(dǎo)致機(jī)器人具有不佳的表現(xiàn)。

3、cn117369458a公開(kāi)了一種基于逆強(qiáng)化學(xué)習(xí)的室外復(fù)雜環(huán)境局部路徑規(guī)劃方法,其利用機(jī)器人上的gps、攝像頭和激光雷達(dá)等采集環(huán)境信息,通過(guò)數(shù)據(jù)融合算法將不同傳感器的數(shù)據(jù)進(jìn)行整合,然而該技術(shù)依賴(lài)于精確的傳感器數(shù)據(jù)和復(fù)雜的優(yōu)化算法,對(duì)傳感器精度和匹配程度要求高,對(duì)傳感器噪聲和環(huán)境變化的容忍度低。cn117723064a公開(kāi)了一種多傳感器數(shù)據(jù)融合的智能巡檢機(jī)器人導(dǎo)航方法及系統(tǒng),其通過(guò)硬件設(shè)計(jì)和視覺(jué)模塊提升導(dǎo)航功能,但主要依賴(lài)于預(yù)先設(shè)定的規(guī)則和簡(jiǎn)單的視覺(jué)識(shí)別,對(duì)復(fù)雜環(huán)境的感知能力有限,缺乏全局路徑規(guī)劃能力。cn118289110a公開(kāi)了一種多模態(tài)智能感知四足仿生檢測(cè)機(jī)器人及其控制方法,其利用逆強(qiáng)化學(xué)習(xí)和粒子群算法優(yōu)化局部路徑,實(shí)時(shí)采集圖像并計(jì)算最優(yōu)路徑,適應(yīng)室外復(fù)雜環(huán)境,但是該技術(shù)不具備全局視野,容易陷入局部最優(yōu)解,同時(shí)受專(zhuān)家演示質(zhì)量影響較大,容易由于專(zhuān)家示例的偏好差異導(dǎo)致訓(xùn)練過(guò)程不穩(wěn)定。

4、近年來(lái)涌現(xiàn)出了一些新的機(jī)器人導(dǎo)航技術(shù),如多模態(tài)信息融合、逆強(qiáng)化學(xué)習(xí)等,為解決機(jī)器人導(dǎo)航問(wèn)題提供了新的思路。但有,效地融合不同模態(tài)的傳感器信息仍是一個(gè)挑戰(zhàn),同時(shí)高質(zhì)量的專(zhuān)家演示成本高昂且難以獲取,也會(huì)因會(huì)專(zhuān)家演示的偏好不同導(dǎo)致表現(xiàn)上的差異。


技術(shù)實(shí)現(xiàn)思路

1、為了克服以上技術(shù)問(wèn)題,本發(fā)明的目的在于提供一種基于多模態(tài)逆強(qiáng)化學(xué)習(xí)的機(jī)器人導(dǎo)航方法。通過(guò)構(gòu)建多模態(tài)融合網(wǎng)絡(luò)以融合激光雷達(dá)、柵格地圖和機(jī)器人位姿生成新的觀測(cè)表征作為強(qiáng)化學(xué)習(xí)觀測(cè)信息以實(shí)現(xiàn)不同模態(tài)的對(duì)齊與融合。此外,采用生成式對(duì)抗逆強(qiáng)化學(xué)習(xí)將復(fù)雜任務(wù)解耦為若干的子任務(wù),使用多個(gè)判別器對(duì)應(yīng)于每個(gè)子任務(wù),并對(duì)每個(gè)子任務(wù)的獎(jiǎng)勵(lì)函數(shù)進(jìn)行加權(quán)融合,使用合并后的標(biāo)準(zhǔn)化獎(jiǎng)勵(lì)函數(shù)來(lái)訓(xùn)練策略,有效降低專(zhuān)家演示的不同偏好所導(dǎo)致的誤差;

2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用了如下技術(shù)方案:

3、一種基于多模態(tài)逆強(qiáng)化學(xué)習(xí)的機(jī)器人導(dǎo)航方法,包括以下步驟:

4、s1:獲取機(jī)器人位姿數(shù)據(jù),采集激光雷達(dá)數(shù)據(jù),生成柵格地圖;

5、s2:激光雷達(dá)數(shù)據(jù)、柵格地圖和機(jī)器人位姿信息通過(guò)多模態(tài)融合網(wǎng)絡(luò)生成融合觀測(cè)表征;

6、s3:初始化網(wǎng)絡(luò)參數(shù),將融合觀測(cè)表征作為專(zhuān)家演示軌跡數(shù)據(jù),通過(guò)專(zhuān)家演示軌跡預(yù)訓(xùn)練生成式對(duì)抗逆強(qiáng)化學(xué)習(xí)框架中的生成器和判別器,得到預(yù)訓(xùn)練模型;

7、s4:通過(guò)專(zhuān)家軌跡數(shù)據(jù)對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行標(biāo)準(zhǔn)化;

8、s5:構(gòu)建生成式對(duì)抗逆強(qiáng)化學(xué)習(xí)整體框架,訓(xùn)練后得到智能控制模型,部署模型實(shí)現(xiàn)機(jī)器人的智能控制。

9、優(yōu)選地,步驟s1獲取機(jī)器人位姿數(shù)據(jù),采集激光雷達(dá)數(shù)據(jù),生成柵格地圖,具體為:

10、步驟s1.1:輪式里程計(jì)利用觀測(cè)的左右輪轉(zhuǎn)速值得到的速度與角速度,代入移動(dòng)機(jī)器人運(yùn)動(dòng)學(xué)模型中,推演出機(jī)器人當(dāng)前的位姿信息p;

11、步驟s1.2:采集的里程計(jì)數(shù)據(jù)和激光雷達(dá)數(shù)據(jù)r,采用坐標(biāo)系轉(zhuǎn)換法對(duì)每束激光數(shù)據(jù)進(jìn)行矯正;

12、步驟s1.3:根據(jù)矯正過(guò)的激光雷達(dá)數(shù)據(jù)生成柵格地圖m。

13、優(yōu)選地,步驟s2通過(guò)神經(jīng)網(wǎng)絡(luò)模型對(duì)激光雷達(dá)數(shù)據(jù)、柵格地圖和機(jī)器人位姿信息進(jìn)行融合為新的觀測(cè)表征,具體為:

14、步驟s2.1:柵格地圖m經(jīng)過(guò)卷積層得到柵格地圖表征fm,其中,卷積層有三層,分別為cl1、cl2和cl3,每一層卷積層后都經(jīng)過(guò)激活函數(shù)relu;

15、步驟s2.2:激光雷達(dá)數(shù)據(jù)r經(jīng)過(guò)卷積層得到雷達(dá)表征fr,其中,卷積層有兩層,分別為cl4和cl5,每一層卷積層后都經(jīng)過(guò)激活函數(shù)relu;

16、步驟s2.3:柵格地圖表征fm和雷達(dá)表征fr經(jīng)過(guò)全連接層融合得到融合表征fmr,其中,全連接層有兩層,分別為fcl1和fcl2,每一層全連接層后都經(jīng)過(guò)激活函數(shù)relu;

17、步驟s2.4:位姿信息p經(jīng)過(guò)全連接層得到位姿表征fp,其中,全連接層有一層,為fcl3,全連接層后經(jīng)過(guò)激活函數(shù)relu;

18、步驟s2.5:位姿表征fp和表征fmr經(jīng)過(guò)全連接層融合得到融合表征fmrp,其中,全連接層有一層,為fcl4。

19、優(yōu)選地,步驟s3初始化網(wǎng)絡(luò)參數(shù),將融合觀測(cè)表征作為專(zhuān)家演示軌跡數(shù)據(jù),通過(guò)專(zhuān)家演示軌跡預(yù)訓(xùn)練生成式對(duì)抗逆強(qiáng)化學(xué)習(xí)框架中的生成器和判別器,得到預(yù)訓(xùn)練模型,具體為:

20、步驟s3.1:設(shè)置子任務(wù)共m個(gè),專(zhuān)家演示軌跡集合s由n條專(zhuān)家軌跡組成,表示如下:

21、s=[τ1,τ2,…,τn]

22、其中,第i條專(zhuān)家軌跡τi表示如下:

23、

24、其中,(x,a)代表狀態(tài)-動(dòng)作對(duì),j代表任務(wù)周期中的某個(gè)時(shí)刻,ni代表一個(gè)軌跡的周期長(zhǎng)度;

25、步驟s3.2:初始化生成器g(·|θg)和m個(gè)判別器

26、步驟s3.3:對(duì)于每個(gè)專(zhuān)家軌跡生成器g(·|θg)會(huì)先根據(jù)狀態(tài)序列生成動(dòng)作序列

27、第j個(gè)判別器根據(jù)來(lái)判斷動(dòng)作來(lái)自于生成動(dòng)作還是專(zhuān)家動(dòng)作ai;

28、步驟s3.4:設(shè)置生成器和第j個(gè)判別器的聯(lián)合優(yōu)化目標(biāo),如下所示:

29、

30、根據(jù)聯(lián)合優(yōu)化目標(biāo)預(yù)訓(xùn)練生成器和m個(gè)判別器。

31、優(yōu)選地,步驟s4通過(guò)專(zhuān)家軌跡數(shù)據(jù)對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行標(biāo)準(zhǔn)化,具體為:

32、步驟s4.1:計(jì)算獎(jiǎng)勵(lì)函數(shù)的均值μi和標(biāo)準(zhǔn)差σi,計(jì)算方法如下所示:

33、

34、其中,ni代表專(zhuān)家軌跡的長(zhǎng)度;

35、步驟s4.2:根據(jù)均值μi和標(biāo)準(zhǔn)差σi,設(shè)置標(biāo)準(zhǔn)化獎(jiǎng)勵(lì)函數(shù)如下所示:

36、

37、優(yōu)選地,步驟s5構(gòu)建生成式對(duì)抗逆強(qiáng)化學(xué)習(xí)整體框架,訓(xùn)練后得到智能控制模型,部署模型實(shí)現(xiàn)機(jī)器人的智能控制,具體為:

38、步驟s5.1:策略網(wǎng)絡(luò)π(xt|θg)根據(jù)狀態(tài)xt生成動(dòng)作將狀態(tài)-生成動(dòng)作對(duì)的序列視為生成軌跡

39、步驟s5.2:基礎(chǔ)生成式對(duì)抗網(wǎng)絡(luò)的判別器的目標(biāo)函數(shù)d*(·)表示如下:

40、

41、其中,p(·)代表真實(shí)分布,q(·)代表生成器分布;

42、引入玻爾茲曼分布cθ(·)替代p(·),則目標(biāo)函數(shù)表示為:

43、

44、其中,1/z代表分布調(diào)節(jié)系數(shù);

45、進(jìn)一步簡(jiǎn)化目標(biāo)函數(shù)可以表示為:

46、

47、其中,fθ(s,a)代表獎(jiǎng)勵(lì)函數(shù);

48、根據(jù)目標(biāo)函數(shù)dθ(·),設(shè)置生成式對(duì)抗逆強(qiáng)化學(xué)習(xí)中第i個(gè)子任務(wù)的目標(biāo)函數(shù)di(x,a),如下所示:

49、

50、其中,ri由判別器d(·|θd)給出,如下所示:

51、r1,t,...,rm,t=d(xt,at|θd)

52、步驟s5.3:設(shè)置價(jià)值網(wǎng)絡(luò)目標(biāo)函數(shù)lc;

53、價(jià)值網(wǎng)絡(luò)目標(biāo)函數(shù)lc由兩個(gè)部分組成,分別是權(quán)重網(wǎng)絡(luò)優(yōu)化目標(biāo)和狀態(tài)價(jià)值函數(shù)優(yōu)化目標(biāo)

54、設(shè)置權(quán)重網(wǎng)絡(luò)優(yōu)化目標(biāo)如下所示:

55、

56、其中,代表t時(shí)刻的第j個(gè)獎(jiǎng)賞,wi(·)代表第j個(gè)權(quán)重網(wǎng)絡(luò),γ代表折扣因子,θc代表價(jià)值網(wǎng)絡(luò)參數(shù),包含θg和權(quán)重網(wǎng)絡(luò)的參數(shù);

57、狀態(tài)價(jià)值函數(shù)優(yōu)化目標(biāo)如下:

58、

59、其中,g(·)代表w(·)經(jīng)過(guò)softmax函數(shù)處理過(guò)的權(quán)重參數(shù),過(guò)程如下:

60、

61、步驟s5.4:計(jì)算優(yōu)勢(shì)函數(shù),優(yōu)勢(shì)函數(shù)計(jì)算方法如下所示:

62、

63、步驟s5.5:設(shè)置策略網(wǎng)絡(luò)的目標(biāo)函數(shù)la優(yōu)化目標(biāo),如下所示:

64、

65、其中,clip代表裁剪函數(shù),∈代表邊界參數(shù);

66、梯度計(jì)算方法如下:

67、

68、其中,θ'g代表生成器的歷史參數(shù),p(a|x)代表策略分布。

69、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:

70、(1)本發(fā)明通過(guò)多模態(tài)融合網(wǎng)絡(luò)為機(jī)器人提供更全面、更準(zhǔn)確的環(huán)境感知信息,通過(guò)生成式逆強(qiáng)化學(xué)習(xí)方法減少具有不同偏好專(zhuān)家演示帶來(lái)的行為差異,從而能夠提高獎(jiǎng)勵(lì)函數(shù)的準(zhǔn)確性以及策略的泛化能力。

71、(2)本發(fā)明可以有效地應(yīng)用于復(fù)雜環(huán)境下機(jī)器人動(dòng)態(tài)避障及路徑規(guī)劃場(chǎng)景,在加快訓(xùn)練收斂速度的同時(shí),有效提升了機(jī)器人的導(dǎo)航能力。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1