本發(fā)明屬于機(jī)器人智能導(dǎo)航領(lǐng)域,具體涉及一種基于多模態(tài)逆強(qiáng)化學(xué)習(xí)的機(jī)器人導(dǎo)航方法。
背景技術(shù):
1、機(jī)器人導(dǎo)航技術(shù)是移動(dòng)機(jī)器人的研究熱點(diǎn)之一,當(dāng)前機(jī)器人智能導(dǎo)航已在各類(lèi)場(chǎng)景中得到廣泛應(yīng)用。在這些場(chǎng)景中,機(jī)器人需要自主應(yīng)對(duì)復(fù)雜的環(huán)境,并完成一系列指令以實(shí)現(xiàn)任務(wù)目標(biāo)。為實(shí)現(xiàn)這一目標(biāo),機(jī)器人需要進(jìn)行多次導(dǎo)航?jīng)Q策,即在進(jìn)行動(dòng)態(tài)避障的同時(shí)完成路徑規(guī)劃。
2、然而,當(dāng)前的機(jī)器人導(dǎo)航技術(shù)仍面臨著諸多挑戰(zhàn),傳統(tǒng)的機(jī)器人導(dǎo)航方法通常依賴(lài)于單一傳感器信息從而引發(fā)局限性,例如激光雷達(dá)難以識(shí)別透明物體,攝像頭易受光照變化影響等,導(dǎo)致機(jī)器人難以全面準(zhǔn)確地感知周?chē)h(huán)境,從而影響導(dǎo)航性能。此外,現(xiàn)實(shí)世界環(huán)境復(fù)雜多變,機(jī)器人需要根據(jù)實(shí)時(shí)感知到的環(huán)境信息做出合理的路徑規(guī)劃和避障決策。此外,基于深度強(qiáng)化學(xué)習(xí)的導(dǎo)航方法在復(fù)雜環(huán)境下難以設(shè)計(jì)合適的獎(jiǎng)勵(lì)函數(shù),從而導(dǎo)致機(jī)器人具有不佳的表現(xiàn)。
3、cn117369458a公開(kāi)了一種基于逆強(qiáng)化學(xué)習(xí)的室外復(fù)雜環(huán)境局部路徑規(guī)劃方法,其利用機(jī)器人上的gps、攝像頭和激光雷達(dá)等采集環(huán)境信息,通過(guò)數(shù)據(jù)融合算法將不同傳感器的數(shù)據(jù)進(jìn)行整合,然而該技術(shù)依賴(lài)于精確的傳感器數(shù)據(jù)和復(fù)雜的優(yōu)化算法,對(duì)傳感器精度和匹配程度要求高,對(duì)傳感器噪聲和環(huán)境變化的容忍度低。cn117723064a公開(kāi)了一種多傳感器數(shù)據(jù)融合的智能巡檢機(jī)器人導(dǎo)航方法及系統(tǒng),其通過(guò)硬件設(shè)計(jì)和視覺(jué)模塊提升導(dǎo)航功能,但主要依賴(lài)于預(yù)先設(shè)定的規(guī)則和簡(jiǎn)單的視覺(jué)識(shí)別,對(duì)復(fù)雜環(huán)境的感知能力有限,缺乏全局路徑規(guī)劃能力。cn118289110a公開(kāi)了一種多模態(tài)智能感知四足仿生檢測(cè)機(jī)器人及其控制方法,其利用逆強(qiáng)化學(xué)習(xí)和粒子群算法優(yōu)化局部路徑,實(shí)時(shí)采集圖像并計(jì)算最優(yōu)路徑,適應(yīng)室外復(fù)雜環(huán)境,但是該技術(shù)不具備全局視野,容易陷入局部最優(yōu)解,同時(shí)受專(zhuān)家演示質(zhì)量影響較大,容易由于專(zhuān)家示例的偏好差異導(dǎo)致訓(xùn)練過(guò)程不穩(wěn)定。
4、近年來(lái)涌現(xiàn)出了一些新的機(jī)器人導(dǎo)航技術(shù),如多模態(tài)信息融合、逆強(qiáng)化學(xué)習(xí)等,為解決機(jī)器人導(dǎo)航問(wèn)題提供了新的思路。但有,效地融合不同模態(tài)的傳感器信息仍是一個(gè)挑戰(zhàn),同時(shí)高質(zhì)量的專(zhuān)家演示成本高昂且難以獲取,也會(huì)因會(huì)專(zhuān)家演示的偏好不同導(dǎo)致表現(xiàn)上的差異。
技術(shù)實(shí)現(xiàn)思路
1、為了克服以上技術(shù)問(wèn)題,本發(fā)明的目的在于提供一種基于多模態(tài)逆強(qiáng)化學(xué)習(xí)的機(jī)器人導(dǎo)航方法。通過(guò)構(gòu)建多模態(tài)融合網(wǎng)絡(luò)以融合激光雷達(dá)、柵格地圖和機(jī)器人位姿生成新的觀測(cè)表征作為強(qiáng)化學(xué)習(xí)觀測(cè)信息以實(shí)現(xiàn)不同模態(tài)的對(duì)齊與融合。此外,采用生成式對(duì)抗逆強(qiáng)化學(xué)習(xí)將復(fù)雜任務(wù)解耦為若干的子任務(wù),使用多個(gè)判別器對(duì)應(yīng)于每個(gè)子任務(wù),并對(duì)每個(gè)子任務(wù)的獎(jiǎng)勵(lì)函數(shù)進(jìn)行加權(quán)融合,使用合并后的標(biāo)準(zhǔn)化獎(jiǎng)勵(lì)函數(shù)來(lái)訓(xùn)練策略,有效降低專(zhuān)家演示的不同偏好所導(dǎo)致的誤差;
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用了如下技術(shù)方案:
3、一種基于多模態(tài)逆強(qiáng)化學(xué)習(xí)的機(jī)器人導(dǎo)航方法,包括以下步驟:
4、s1:獲取機(jī)器人位姿數(shù)據(jù),采集激光雷達(dá)數(shù)據(jù),生成柵格地圖;
5、s2:激光雷達(dá)數(shù)據(jù)、柵格地圖和機(jī)器人位姿信息通過(guò)多模態(tài)融合網(wǎng)絡(luò)生成融合觀測(cè)表征;
6、s3:初始化網(wǎng)絡(luò)參數(shù),將融合觀測(cè)表征作為專(zhuān)家演示軌跡數(shù)據(jù),通過(guò)專(zhuān)家演示軌跡預(yù)訓(xùn)練生成式對(duì)抗逆強(qiáng)化學(xué)習(xí)框架中的生成器和判別器,得到預(yù)訓(xùn)練模型;
7、s4:通過(guò)專(zhuān)家軌跡數(shù)據(jù)對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行標(biāo)準(zhǔn)化;
8、s5:構(gòu)建生成式對(duì)抗逆強(qiáng)化學(xué)習(xí)整體框架,訓(xùn)練后得到智能控制模型,部署模型實(shí)現(xiàn)機(jī)器人的智能控制。
9、優(yōu)選地,步驟s1獲取機(jī)器人位姿數(shù)據(jù),采集激光雷達(dá)數(shù)據(jù),生成柵格地圖,具體為:
10、步驟s1.1:輪式里程計(jì)利用觀測(cè)的左右輪轉(zhuǎn)速值得到的速度與角速度,代入移動(dòng)機(jī)器人運(yùn)動(dòng)學(xué)模型中,推演出機(jī)器人當(dāng)前的位姿信息p;
11、步驟s1.2:采集的里程計(jì)數(shù)據(jù)和激光雷達(dá)數(shù)據(jù)r,采用坐標(biāo)系轉(zhuǎn)換法對(duì)每束激光數(shù)據(jù)進(jìn)行矯正;
12、步驟s1.3:根據(jù)矯正過(guò)的激光雷達(dá)數(shù)據(jù)生成柵格地圖m。
13、優(yōu)選地,步驟s2通過(guò)神經(jīng)網(wǎng)絡(luò)模型對(duì)激光雷達(dá)數(shù)據(jù)、柵格地圖和機(jī)器人位姿信息進(jìn)行融合為新的觀測(cè)表征,具體為:
14、步驟s2.1:柵格地圖m經(jīng)過(guò)卷積層得到柵格地圖表征fm,其中,卷積層有三層,分別為cl1、cl2和cl3,每一層卷積層后都經(jīng)過(guò)激活函數(shù)relu;
15、步驟s2.2:激光雷達(dá)數(shù)據(jù)r經(jīng)過(guò)卷積層得到雷達(dá)表征fr,其中,卷積層有兩層,分別為cl4和cl5,每一層卷積層后都經(jīng)過(guò)激活函數(shù)relu;
16、步驟s2.3:柵格地圖表征fm和雷達(dá)表征fr經(jīng)過(guò)全連接層融合得到融合表征fmr,其中,全連接層有兩層,分別為fcl1和fcl2,每一層全連接層后都經(jīng)過(guò)激活函數(shù)relu;
17、步驟s2.4:位姿信息p經(jīng)過(guò)全連接層得到位姿表征fp,其中,全連接層有一層,為fcl3,全連接層后經(jīng)過(guò)激活函數(shù)relu;
18、步驟s2.5:位姿表征fp和表征fmr經(jīng)過(guò)全連接層融合得到融合表征fmrp,其中,全連接層有一層,為fcl4。
19、優(yōu)選地,步驟s3初始化網(wǎng)絡(luò)參數(shù),將融合觀測(cè)表征作為專(zhuān)家演示軌跡數(shù)據(jù),通過(guò)專(zhuān)家演示軌跡預(yù)訓(xùn)練生成式對(duì)抗逆強(qiáng)化學(xué)習(xí)框架中的生成器和判別器,得到預(yù)訓(xùn)練模型,具體為:
20、步驟s3.1:設(shè)置子任務(wù)共m個(gè),專(zhuān)家演示軌跡集合s由n條專(zhuān)家軌跡組成,表示如下:
21、s=[τ1,τ2,…,τn]
22、其中,第i條專(zhuān)家軌跡τi表示如下:
23、
24、其中,(x,a)代表狀態(tài)-動(dòng)作對(duì),j代表任務(wù)周期中的某個(gè)時(shí)刻,ni代表一個(gè)軌跡的周期長(zhǎng)度;
25、步驟s3.2:初始化生成器g(·|θg)和m個(gè)判別器
26、步驟s3.3:對(duì)于每個(gè)專(zhuān)家軌跡生成器g(·|θg)會(huì)先根據(jù)狀態(tài)序列生成動(dòng)作序列
27、第j個(gè)判別器根據(jù)來(lái)判斷動(dòng)作來(lái)自于生成動(dòng)作還是專(zhuān)家動(dòng)作ai;
28、步驟s3.4:設(shè)置生成器和第j個(gè)判別器的聯(lián)合優(yōu)化目標(biāo),如下所示:
29、
30、根據(jù)聯(lián)合優(yōu)化目標(biāo)預(yù)訓(xùn)練生成器和m個(gè)判別器。
31、優(yōu)選地,步驟s4通過(guò)專(zhuān)家軌跡數(shù)據(jù)對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行標(biāo)準(zhǔn)化,具體為:
32、步驟s4.1:計(jì)算獎(jiǎng)勵(lì)函數(shù)的均值μi和標(biāo)準(zhǔn)差σi,計(jì)算方法如下所示:
33、
34、其中,ni代表專(zhuān)家軌跡的長(zhǎng)度;
35、步驟s4.2:根據(jù)均值μi和標(biāo)準(zhǔn)差σi,設(shè)置標(biāo)準(zhǔn)化獎(jiǎng)勵(lì)函數(shù)如下所示:
36、
37、優(yōu)選地,步驟s5構(gòu)建生成式對(duì)抗逆強(qiáng)化學(xué)習(xí)整體框架,訓(xùn)練后得到智能控制模型,部署模型實(shí)現(xiàn)機(jī)器人的智能控制,具體為:
38、步驟s5.1:策略網(wǎng)絡(luò)π(xt|θg)根據(jù)狀態(tài)xt生成動(dòng)作將狀態(tài)-生成動(dòng)作對(duì)的序列視為生成軌跡
39、步驟s5.2:基礎(chǔ)生成式對(duì)抗網(wǎng)絡(luò)的判別器的目標(biāo)函數(shù)d*(·)表示如下:
40、
41、其中,p(·)代表真實(shí)分布,q(·)代表生成器分布;
42、引入玻爾茲曼分布cθ(·)替代p(·),則目標(biāo)函數(shù)表示為:
43、
44、其中,1/z代表分布調(diào)節(jié)系數(shù);
45、進(jìn)一步簡(jiǎn)化目標(biāo)函數(shù)可以表示為:
46、
47、其中,fθ(s,a)代表獎(jiǎng)勵(lì)函數(shù);
48、根據(jù)目標(biāo)函數(shù)dθ(·),設(shè)置生成式對(duì)抗逆強(qiáng)化學(xué)習(xí)中第i個(gè)子任務(wù)的目標(biāo)函數(shù)di(x,a),如下所示:
49、
50、其中,ri由判別器d(·|θd)給出,如下所示:
51、r1,t,...,rm,t=d(xt,at|θd)
52、步驟s5.3:設(shè)置價(jià)值網(wǎng)絡(luò)目標(biāo)函數(shù)lc;
53、價(jià)值網(wǎng)絡(luò)目標(biāo)函數(shù)lc由兩個(gè)部分組成,分別是權(quán)重網(wǎng)絡(luò)優(yōu)化目標(biāo)和狀態(tài)價(jià)值函數(shù)優(yōu)化目標(biāo)
54、設(shè)置權(quán)重網(wǎng)絡(luò)優(yōu)化目標(biāo)如下所示:
55、
56、其中,代表t時(shí)刻的第j個(gè)獎(jiǎng)賞,wi(·)代表第j個(gè)權(quán)重網(wǎng)絡(luò),γ代表折扣因子,θc代表價(jià)值網(wǎng)絡(luò)參數(shù),包含θg和權(quán)重網(wǎng)絡(luò)的參數(shù);
57、狀態(tài)價(jià)值函數(shù)優(yōu)化目標(biāo)如下:
58、
59、其中,g(·)代表w(·)經(jīng)過(guò)softmax函數(shù)處理過(guò)的權(quán)重參數(shù),過(guò)程如下:
60、
61、步驟s5.4:計(jì)算優(yōu)勢(shì)函數(shù),優(yōu)勢(shì)函數(shù)計(jì)算方法如下所示:
62、
63、步驟s5.5:設(shè)置策略網(wǎng)絡(luò)的目標(biāo)函數(shù)la優(yōu)化目標(biāo),如下所示:
64、
65、其中,clip代表裁剪函數(shù),∈代表邊界參數(shù);
66、梯度計(jì)算方法如下:
67、
68、其中,θ'g代表生成器的歷史參數(shù),p(a|x)代表策略分布。
69、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:
70、(1)本發(fā)明通過(guò)多模態(tài)融合網(wǎng)絡(luò)為機(jī)器人提供更全面、更準(zhǔn)確的環(huán)境感知信息,通過(guò)生成式逆強(qiáng)化學(xué)習(xí)方法減少具有不同偏好專(zhuān)家演示帶來(lái)的行為差異,從而能夠提高獎(jiǎng)勵(lì)函數(shù)的準(zhǔn)確性以及策略的泛化能力。
71、(2)本發(fā)明可以有效地應(yīng)用于復(fù)雜環(huán)境下機(jī)器人動(dòng)態(tài)避障及路徑規(guī)劃場(chǎng)景,在加快訓(xùn)練收斂速度的同時(shí),有效提升了機(jī)器人的導(dǎo)航能力。