亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于兩階段解耦離線強(qiáng)化學(xué)習(xí)的機(jī)器人路徑規(guī)劃模型及方法

文檔序號(hào):40393745發(fā)布日期:2024-12-20 12:17閱讀:5來(lái)源:國(guó)知局
基于兩階段解耦離線強(qiáng)化學(xué)習(xí)的機(jī)器人路徑規(guī)劃模型及方法

本發(fā)明屬于機(jī)器智能決策與控制,具體涉及一種基于兩階段解耦離線強(qiáng)化學(xué)習(xí)的機(jī)器人路徑規(guī)劃模型及方法。


背景技術(shù):

1、目前,強(qiáng)化學(xué)習(xí)被廣泛應(yīng)用于機(jī)器人路徑規(guī)劃任務(wù)中。強(qiáng)化學(xué)習(xí)具有一定的自主性和適應(yīng)性;強(qiáng)化學(xué)習(xí)使機(jī)器人能夠通過(guò)與環(huán)境的互動(dòng)自主學(xué)習(xí)路徑規(guī)劃策略,而不是依賴于預(yù)先設(shè)計(jì)的規(guī)則或模型。機(jī)器人能夠在動(dòng)態(tài)和未知環(huán)境中不斷調(diào)整和優(yōu)化其路徑規(guī)劃策略,具有很強(qiáng)的適應(yīng)性。同時(shí)在連續(xù)優(yōu)化、高位狀態(tài)空間處理以及處理不確定性上有較大的優(yōu)勢(shì)。

2、標(biāo)準(zhǔn)的在線強(qiáng)化學(xué)習(xí)(online?reinforcement?learning)通過(guò)智能體與環(huán)境實(shí)時(shí)交互進(jìn)行訓(xùn)練,該方法采樣效率極低,需要頻繁地與環(huán)境進(jìn)行交互收集數(shù)據(jù)來(lái)訓(xùn)練智能體。而在與環(huán)境交互過(guò)程中大量的探索行為在現(xiàn)實(shí)場(chǎng)景中往往意味著高昂的成本。例如,使用機(jī)器人在真實(shí)場(chǎng)景中進(jìn)行探索可能損害機(jī)器人自身或周圍物體,在醫(yī)療或自動(dòng)駕駛場(chǎng)景中進(jìn)行探索可能嚴(yán)重危害人類安全。與之相對(duì)的離線強(qiáng)化學(xué)習(xí)(offline?reinforcementlearning)則是一種利用現(xiàn)有的數(shù)據(jù)集進(jìn)行強(qiáng)化學(xué)習(xí)的方法,與在線強(qiáng)化學(xué)習(xí)比較無(wú)需與環(huán)境進(jìn)行實(shí)時(shí)交互,從而可以節(jié)省采樣成本,提高數(shù)據(jù)利用率,降低安全風(fēng)險(xiǎn),適用于許多實(shí)際場(chǎng)景,如醫(yī)療、金融系統(tǒng)等。離線強(qiáng)化學(xué)習(xí)的核心問(wèn)題是如何從一個(gè)固定的數(shù)據(jù)集中學(xué)習(xí)一個(gè)有效的策略,使其在未知的環(huán)境中表現(xiàn)良好。這個(gè)數(shù)據(jù)集通常由一個(gè)或多個(gè)行為策略(behavior?policy)生成。

3、然而,離線強(qiáng)化學(xué)習(xí)也面臨著一些挑戰(zhàn),其中最主要的挑戰(zhàn)是分布外泛化(ood)問(wèn)題,傳統(tǒng)離線強(qiáng)化學(xué)習(xí)方法,例如bear算法(bootstrapping?error?accumulationreduction),brac算法(behavior?regularized?offline?reinforcement?learning),時(shí)序差分+動(dòng)作克隆算法,cql(算法conservative?q-learning),rem算法(random?ensemblemixture)均面臨這一問(wèn)題。造成這一問(wèn)題的原因是分布偏移,即離線數(shù)據(jù)集中的狀態(tài)-動(dòng)作分布與當(dāng)前策略下的狀態(tài)-動(dòng)作分布不一致,導(dǎo)致策略優(yōu)化過(guò)程中出現(xiàn)錯(cuò)誤泛化的現(xiàn)象。ood問(wèn)題會(huì)使得離線強(qiáng)化學(xué)習(xí)算法無(wú)法有效地利用數(shù)據(jù)集中的信息,甚至可能導(dǎo)致策略性能下降。

4、如何有效解決ood問(wèn)題,已成為關(guān)乎離線強(qiáng)化學(xué)習(xí)發(fā)展態(tài)勢(shì)的一大難點(diǎn)。而基于序列決策模型的方法為離線強(qiáng)化學(xué)習(xí)提供了一種全新的視角,該方法將強(qiáng)化學(xué)習(xí)任務(wù)視為序列決策問(wèn)題并使用transformer進(jìn)行序列決策,因此無(wú)需對(duì)分布外動(dòng)作進(jìn)行價(jià)值估計(jì),從根本上避免了ood問(wèn)題。基于transformer的方法已經(jīng)被應(yīng)用于離線強(qiáng)化學(xué)習(xí)任務(wù),并表現(xiàn)出強(qiáng)大的競(jìng)爭(zhēng)力,但在軌跡拼接方法仍然存在很大的優(yōu)化空間。本發(fā)明擬通過(guò)彈性歷史長(zhǎng)度和兩階段解耦策略,改進(jìn)基于transformer的離線強(qiáng)化學(xué)習(xí)方法的軌跡拼接能力,提升強(qiáng)化學(xué)習(xí)智能體的性能。


技術(shù)實(shí)現(xiàn)思路

1、針對(duì)上述現(xiàn)有技術(shù),本發(fā)明目的在于提出了一種基于兩階段解耦離線強(qiáng)化學(xué)習(xí)的機(jī)器人路徑規(guī)劃模型。旨在解決現(xiàn)有機(jī)器人路徑規(guī)劃方法計(jì)算資源要求高、模型泛化能力差、容易陷入局部最優(yōu)等問(wèn)題。

2、本發(fā)明為解決上述技術(shù)問(wèn)題,采用的技術(shù)方案是,一種基于兩階段解耦離線強(qiáng)化學(xué)習(xí)的機(jī)器人路徑規(guī)劃模型,包括狀態(tài)預(yù)測(cè)網(wǎng)絡(luò)和執(zhí)行策略網(wǎng)絡(luò),其構(gòu)建方法包括以下步驟:

3、步驟1:選擇訓(xùn)練數(shù)據(jù),構(gòu)建訓(xùn)練集;將機(jī)器人路徑規(guī)劃問(wèn)題視作一個(gè)馬爾可夫過(guò)程m=(s,a,p,r),通過(guò)馬爾可夫序列對(duì)機(jī)器人的路徑進(jìn)行描述;其中s表示狀態(tài)空間,即機(jī)器人所有可能處于的狀態(tài)集合,通過(guò)機(jī)器人所處的二維坐標(biāo)進(jìn)行表示;a表示動(dòng)作空間,即機(jī)器人可以采取的動(dòng)作集合;p(·|s,a)表示狀態(tài)轉(zhuǎn)移概率,即在狀態(tài)s下選擇動(dòng)作a,轉(zhuǎn)移到某一狀態(tài)s′的概率;r(s,a)表示回報(bào);訓(xùn)練數(shù)據(jù)包括離線機(jī)器人路徑規(guī)劃數(shù)據(jù)集;

4、步驟2:對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理,得到當(dāng)前狀態(tài)的特征;

5、步驟3:特征輸入狀態(tài)預(yù)測(cè)網(wǎng)絡(luò),使用狀態(tài)預(yù)測(cè)網(wǎng)絡(luò)預(yù)測(cè)下一個(gè)最優(yōu)狀態(tài);

6、步驟4:構(gòu)造損失函數(shù)以衡量步驟3中由模型預(yù)測(cè)的狀態(tài)與實(shí)際下一個(gè)狀態(tài)之間的差距;在訓(xùn)練過(guò)程中通過(guò)最小化該損失函數(shù)對(duì)模型參數(shù)進(jìn)行優(yōu)化與更新;

7、步驟5:構(gòu)建執(zhí)行策略網(wǎng)絡(luò),使用執(zhí)行策略網(wǎng)絡(luò)預(yù)測(cè)從當(dāng)前狀態(tài)到達(dá)下一狀態(tài)執(zhí)行的最優(yōu)動(dòng)作;

8、步驟6:優(yōu)化執(zhí)行策略網(wǎng)絡(luò);

9、步驟7:利用訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練,確定超參數(shù);直至預(yù)測(cè)性能達(dá)到預(yù)設(shè)值后停止訓(xùn)練,則機(jī)器人路徑規(guī)劃模型構(gòu)建完成。

10、進(jìn)一步的,所述離線機(jī)器人路徑規(guī)劃數(shù)據(jù)集包括由專家指導(dǎo)的最優(yōu)路徑集合或/和其他高性能機(jī)器人路徑規(guī)劃算法所完成的機(jī)器人路徑規(guī)劃數(shù)據(jù)集。

11、進(jìn)一步的,所述預(yù)處理具體為:將強(qiáng)化學(xué)習(xí)中的最后k個(gè)時(shí)間步輸入決策轉(zhuǎn)換器,將r,s,a分別映射到一個(gè)嵌入并與位置編碼相加,得到設(shè)定長(zhǎng)度的標(biāo)志tokens,作為當(dāng)前狀態(tài)的特征,這個(gè)特征包含局部特征和全局特征。

12、進(jìn)一步的,所述狀態(tài)預(yù)測(cè)網(wǎng)絡(luò)具體為transformers模型;所述transformers模型由堆疊的自注意力層和連接層組成;將r,s,a的token輸入transformer模型,transformer模型輸出一個(gè)隱藏狀態(tài),將該隱藏狀態(tài)輸入到一個(gè)線性層來(lái)預(yù)測(cè)下一個(gè)狀態(tài);

13、其中,所述自注意力層的第i個(gè)輸出zi由查詢qi與其他鍵kj之間的歸一化點(diǎn)積加權(quán)值vj給出:

14、

15、進(jìn)一步的,所述步驟4中的損失函數(shù)具體為交叉熵?fù)p失函數(shù),計(jì)算公式如下:

16、

17、在機(jī)器人路徑規(guī)劃過(guò)程中,p表示真實(shí)的狀態(tài)選擇分布,q表示transforme模型輸出的概率分布。

18、進(jìn)一步的,所述執(zhí)行策略網(wǎng)絡(luò)只以當(dāng)前狀態(tài)s和下一個(gè)狀態(tài)s′作為輸入,選擇在當(dāng)前狀態(tài)下的最優(yōu)動(dòng)作a,使用策略梯度方法來(lái)訓(xùn)練,具體構(gòu)建執(zhí)行策略網(wǎng)絡(luò)的公式如下:

19、

20、

21、其中,π表示模型的控制策略,即當(dāng)無(wú)人機(jī)處于某一狀態(tài)s時(shí),模型選擇采取的控制動(dòng)作;q(s,a)為狀態(tài)動(dòng)作對(duì)的回報(bào),表示從當(dāng)前狀態(tài)到任務(wù)結(jié)束能獲得的累積獎(jiǎng)勵(lì),即機(jī)器人在當(dāng)前狀態(tài)s下采取控制動(dòng)作a,未來(lái)能獲得的獎(jiǎng)勵(lì)和,模型通過(guò)最大化q值來(lái)選擇最合適的控制動(dòng)作;表示期望,z表示當(dāng)前狀態(tài)動(dòng)作對(duì)(s,a)的回報(bào)分布。

22、進(jìn)一步的,所述優(yōu)化執(zhí)行策略網(wǎng)絡(luò)的具體流程如下:

23、將執(zhí)行策略記為在訓(xùn)練過(guò)程中,得到以下目標(biāo):

24、

25、在評(píng)估過(guò)程中,在給定狀態(tài)s的情況下,最終行動(dòng)由指導(dǎo)策略和執(zhí)行策略共同決定:

26、

27、在機(jī)器人路徑規(guī)劃任務(wù)中,gω表示執(zhí)行策略網(wǎng)絡(luò),g的優(yōu)化目標(biāo)為:

28、

29、其中α表示權(quán)重,vφ表示狀態(tài)動(dòng)作價(jià)值函數(shù)。

30、進(jìn)一步的,所述超參數(shù)包括狀態(tài)預(yù)測(cè)網(wǎng)絡(luò)與執(zhí)行策略網(wǎng)絡(luò)的學(xué)習(xí)率、經(jīng)驗(yàn)回放池大、探索步數(shù)、訓(xùn)練步數(shù)、優(yōu)化步數(shù)。

31、本發(fā)明還提供一種基于兩階段解耦離線強(qiáng)化學(xué)習(xí)的機(jī)器人路徑規(guī)劃方法,包括以下步驟:

32、步驟1:對(duì)于待控制的機(jī)器人,根據(jù)機(jī)器人可能處于的狀態(tài)與可選擇的控制動(dòng)作,使用馬爾可夫決策過(guò)程對(duì)機(jī)器人路徑規(guī)劃過(guò)程進(jìn)行描述,狀態(tài)s由機(jī)器人搭載的攝像頭或其他設(shè)備觀察得到,動(dòng)作a代表機(jī)器人所能執(zhí)行的動(dòng)作;

33、步驟2:將待控制的機(jī)器人當(dāng)前時(shí)刻所處的狀態(tài)預(yù)處理后輸入到狀態(tài)預(yù)測(cè)網(wǎng)絡(luò),狀態(tài)預(yù)測(cè)網(wǎng)絡(luò)根據(jù)離線數(shù)據(jù)集得到預(yù)測(cè)狀態(tài)s′;通過(guò)該網(wǎng)絡(luò)可以得到機(jī)器人下一步的最優(yōu)狀態(tài);

34、步驟3:將當(dāng)前狀態(tài)s和下一個(gè)狀態(tài)s’輸入到執(zhí)行策略網(wǎng)絡(luò),執(zhí)行策略網(wǎng)絡(luò)通過(guò)最大化回報(bào)來(lái)選擇最優(yōu)的動(dòng)作a*;

35、步驟4:機(jī)器人執(zhí)行最優(yōu)動(dòng)作a*,執(zhí)行最優(yōu)動(dòng)作后,機(jī)器人進(jìn)行新的狀態(tài)s;重復(fù)步驟2-4,直到機(jī)器人路徑規(guī)劃過(guò)程完成。

36、本發(fā)明的有益效果在于,本發(fā)明提出了一種兩階段解耦離線強(qiáng)化學(xué)習(xí)的機(jī)器人路徑規(guī)劃方法,這種方法將狀態(tài)選擇和動(dòng)作選擇解耦,狀態(tài)的選擇是從專家數(shù)據(jù)集中進(jìn)行選擇,而動(dòng)作則無(wú)需從專家數(shù)據(jù)集中選擇。一方面,這種強(qiáng)化學(xué)習(xí)的方法改善了傳統(tǒng)機(jī)器人路徑規(guī)劃方法所需大量計(jì)算資源以及容易陷入局部最優(yōu)的問(wèn)題;另一方面,這種兩階段解耦離線強(qiáng)化學(xué)習(xí)方法能夠?qū)W習(xí)到離線數(shù)據(jù)集以外的動(dòng)作,大大增加了機(jī)器人學(xué)習(xí)的泛化能力。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1