亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動控制方法

文檔序號:40393140發(fā)布日期:2024-12-20 12:16閱讀:7來源:國知局
一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動控制方法

本發(fā)明涉及多機(jī)器人移動控制,尤其是涉及一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動控制方法。


背景技術(shù):

1、在多機(jī)器人協(xié)作系統(tǒng)中,機(jī)器人路徑規(guī)劃是一項重要的任務(wù)。當(dāng)前多數(shù)路徑規(guī)劃方法針對的是靜態(tài)環(huán)境下的機(jī)器人路徑規(guī)劃,即主要依據(jù)人工設(shè)定的規(guī)劃點或路徑來進(jìn)行移動控制。然而,在動態(tài)環(huán)境下,比如有人或其他移動物體存在的情況下,這些靜態(tài)方法將會受到很大的限制。

2、此外,在多機(jī)器人系統(tǒng)中,如果是分布式機(jī)器人系統(tǒng),機(jī)器人之間的交互信息將急劇減小。因此,機(jī)器人有必要將其他機(jī)器人也識別為障礙物,并且根據(jù)傳感器信息獲取動態(tài)障礙物移動的位置和方向,當(dāng)障礙物在一定的速度范圍內(nèi),機(jī)器人需要能夠有效避開動態(tài)和靜態(tài)障礙物。

3、近年來,強(qiáng)化學(xué)習(xí)技術(shù)在機(jī)器人路徑規(guī)劃中得到了廣泛應(yīng)用,但在實際中還存在預(yù)測路徑不準(zhǔn)確、預(yù)測速度較低等缺陷,導(dǎo)致機(jī)器人無法快速精準(zhǔn)地實現(xiàn)避障連續(xù)移動。


技術(shù)實現(xiàn)思路

1、本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動控制方法,能夠循環(huán)準(zhǔn)確產(chǎn)生預(yù)測路徑,并相應(yīng)控制多機(jī)器人實現(xiàn)精準(zhǔn)避障移動。

2、本發(fā)明的目的可以通過以下技術(shù)方案來實現(xiàn):一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動控制方法,包括以下步驟:

3、s1、分別實時獲取多機(jī)器人系統(tǒng)中各機(jī)器人的周圍環(huán)境信息;

4、s2、將機(jī)器人的周圍環(huán)境信息以及機(jī)器人對應(yīng)的設(shè)定目標(biāo)點信息輸入預(yù)先構(gòu)建的路徑預(yù)測循環(huán)網(wǎng)絡(luò)中,得到各機(jī)器人對應(yīng)的多個預(yù)測路徑點;

5、s3、根據(jù)各機(jī)器人對應(yīng)的多個預(yù)測路徑點,確定出各機(jī)器人對應(yīng)的完整預(yù)測路徑;

6、s4、基于各機(jī)器人對應(yīng)的完整預(yù)測路徑,相應(yīng)控制各機(jī)器人按照對應(yīng)的完整預(yù)測路徑發(fā)生移動。

7、進(jìn)一步地,所述多機(jī)器人系統(tǒng)中各機(jī)器人均搭載有雷達(dá)傳感器,用于采集周圍環(huán)境信息,具體為周圍障礙物與機(jī)器人之間的距離信息。

8、進(jìn)一步地,所述步驟s1具體包括以下步驟:

9、s11、多機(jī)器人系統(tǒng)中機(jī)器人m通過其搭載的雷達(dá)傳感器采集得到信息:

10、

11、其中,為機(jī)器人m的雷達(dá)傳感器采集的第i幀信息,k為雷達(dá)傳感器的連續(xù)幀數(shù)量;

12、s12、對于每一幀傳感器信息根據(jù)雷達(dá)特性,其掃描周圍環(huán)境一周,每一角度獲得一個數(shù)據(jù),共得到360個數(shù)據(jù),數(shù)據(jù)記錄的是障礙物距離雷達(dá)傳感器的距離信息,障礙物距離雷達(dá)傳感器越近,則數(shù)據(jù)值越?。?/p>

13、障礙物距離雷達(dá)傳感器越遠(yuǎn),則數(shù)據(jù)值越大;

14、即有:di表示雷達(dá)傳感器采集的第i幀距離信息;

15、s13、將雷達(dá)傳感器所有幀的距離信息匯總,得到機(jī)器人m的周圍環(huán)境信息為:

16、進(jìn)一步地,所述步驟s2中路徑預(yù)測循環(huán)網(wǎng)絡(luò)具體是結(jié)合ppo(proximal?policyoptimization,近端策略優(yōu)化)算法以及馬爾可夫模型構(gòu)建得到,構(gòu)建過程包括:

17、搭建神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),將周圍環(huán)境信息映射至輸入層,經(jīng)過多層非線性變化后輸出機(jī)器人的行動信息;

18、根據(jù)獎勵函數(shù)的反饋信息,迭代訓(xùn)練神經(jīng)網(wǎng)絡(luò),以獲得最優(yōu)獎勵值對應(yīng)的神經(jīng)網(wǎng)絡(luò),即為路徑預(yù)測循環(huán)網(wǎng)絡(luò)。

19、進(jìn)一步地,所述獎勵函數(shù)包括第一獎勵和第二獎勵,所述第一獎勵用于評判預(yù)測路徑是否使機(jī)器人距離對應(yīng)的設(shè)定目標(biāo)點更近,即使機(jī)器人能朝向?qū)?yīng)的設(shè)定目標(biāo)點移動;

20、所述第二獎勵用于評判預(yù)測路徑是否與障礙物碰撞。

21、進(jìn)一步地,所述第一獎勵的計算公式具體為:

22、

23、其中,ds為完整預(yù)測路徑最后一個路徑點qs與機(jī)器人設(shè)定目標(biāo)點t之間的距離,dt為機(jī)器人設(shè)定目標(biāo)點t與機(jī)器人當(dāng)前所在位置之間的距離,條件not?reach表示未到達(dá)目標(biāo)點,條件reach?goal表示已經(jīng)到達(dá)目標(biāo)點。

24、進(jìn)一步地,所述第二獎勵的計算公式具體為:

25、

26、其中,條件safe表示完整預(yù)測路徑上所有路徑點與其他障礙物的安全范圍均沒有交集,條件else表示除條件safe以外的其他情況、即表示預(yù)測路徑與障礙物發(fā)生碰撞。

27、進(jìn)一步地,所述步驟s2中得到機(jī)器人對應(yīng)的多個預(yù)測路徑點的具體過程為:

28、將機(jī)器人當(dāng)前位置、機(jī)器人的周圍環(huán)境信息以及機(jī)器人對應(yīng)的設(shè)定目標(biāo)點信息輸入路徑預(yù)測循環(huán)網(wǎng)絡(luò),輸出得到第一個預(yù)測路徑點;

29、再將第一個預(yù)測路徑點、機(jī)器人的周圍環(huán)境信息以及機(jī)器人對應(yīng)的設(shè)定目標(biāo)點信息輸入路徑預(yù)測循環(huán)網(wǎng)絡(luò),輸出得到第二個預(yù)測路徑點,再依次循環(huán)操作得到多個預(yù)測路徑點。

30、進(jìn)一步地,所述預(yù)測路徑點的信息包括位移和轉(zhuǎn)動角度,所述位移具體是指機(jī)器人前一個位置點與當(dāng)前預(yù)測路徑點之間的位移;

31、所述轉(zhuǎn)動角度具體是指機(jī)器人前一個位置點移動到當(dāng)前預(yù)測路徑點所需轉(zhuǎn)動的角度。

32、進(jìn)一步地,所述步驟s3中具體是將多個預(yù)測路徑點按順序通過曲線優(yōu)化后得到一條連續(xù)可導(dǎo)的圓弧型路徑,即為完整預(yù)測路徑。

33、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點:

34、一、本發(fā)明通過實時獲取多機(jī)器人系統(tǒng)中各機(jī)器人的周圍環(huán)境信息,再結(jié)合構(gòu)建的路徑預(yù)測循環(huán)網(wǎng)絡(luò),以得到各機(jī)器人對應(yīng)的多個預(yù)測路徑點,基于此確定出各機(jī)器人對應(yīng)的完整預(yù)測路徑,再相應(yīng)控制各機(jī)器人按照對應(yīng)的完整預(yù)測路徑發(fā)生移動。由此能夠?qū)崟r動態(tài)循環(huán)生成對應(yīng)于單個機(jī)器人的完整預(yù)測路徑,使得各機(jī)器人均能夠按照相應(yīng)預(yù)測路徑移動至對應(yīng)設(shè)定目標(biāo)點,并且能夠避開周圍所有障礙物。

35、二、本發(fā)明結(jié)合ppo算法以及馬爾可夫模型,并設(shè)計獎勵函數(shù),通過迭代訓(xùn)練的方式,以構(gòu)建得到路徑預(yù)測循環(huán)網(wǎng)絡(luò),其中,獎勵函數(shù)采用預(yù)測路徑與目標(biāo)點之間距離、障礙物避免程度作為評估指標(biāo),由此一方面能夠加快預(yù)測路徑生成速度,另一方面能夠提高生成預(yù)測路徑的準(zhǔn)確性,使得機(jī)器人能夠精準(zhǔn)避開周圍所有障礙物、且朝著對應(yīng)設(shè)定目標(biāo)點發(fā)生移動。

36、三、本發(fā)明利用雷達(dá)傳感器采集機(jī)器人的周圍環(huán)境信息,能夠采集得到機(jī)器人周圍360個角度的信息,有利于后續(xù)生成預(yù)測路徑時能夠精準(zhǔn)避開周圍所有障礙物。

37、四、本發(fā)明利用路徑預(yù)測循環(huán)網(wǎng)絡(luò)來循環(huán)生成多個預(yù)測路徑點,其中,每個預(yù)測路徑點的信息包括機(jī)器人前一個位置點與當(dāng)前預(yù)測路徑點之間的位移、機(jī)器人前一個位置點移動到當(dāng)前預(yù)測路徑點所需轉(zhuǎn)動的角度,之后通過曲線優(yōu)化的方式,得到由圓弧路徑組成的完整預(yù)測路徑,確保多機(jī)器人系統(tǒng)中各機(jī)器人能夠根據(jù)自身的完整預(yù)測路徑,動態(tài)避開障礙物后到達(dá)設(shè)定目標(biāo)點。



技術(shù)特征:

1.一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動控制方法,其特征在于,包括以下步驟:

2.根據(jù)權(quán)利要求1所述的一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動控制方法,其特征在于,所述多機(jī)器人系統(tǒng)中各機(jī)器人均搭載有雷達(dá)傳感器,用于采集周圍環(huán)境信息,具體為周圍障礙物與機(jī)器人之間的距離信息。

3.根據(jù)權(quán)利要求2所述的一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動控制方法,其特征在于,所述步驟s1具體包括以下步驟:

4.根據(jù)權(quán)利要求1所述的一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動控制方法,其特征在于,所述步驟s2中路徑預(yù)測循環(huán)網(wǎng)絡(luò)具體是結(jié)合ppo算法以及馬爾可夫模型構(gòu)建得到,構(gòu)建過程包括:

5.根據(jù)權(quán)利要求4所述的一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動控制方法,其特征在于,所述獎勵函數(shù)包括第一獎勵和第二獎勵,所述第一獎勵用于評判預(yù)測路徑是否使機(jī)器人距離對應(yīng)的設(shè)定目標(biāo)點更近,即使機(jī)器人能朝向?qū)?yīng)的設(shè)定目標(biāo)點移動;

6.根據(jù)權(quán)利要求5所述的一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動控制方法,其特征在于,所述第一獎勵的計算公式具體為:

7.根據(jù)權(quán)利要求5所述的一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動控制方法,其特征在于,所述第二獎勵的計算公式具體為:

8.根據(jù)權(quán)利要求4所述的一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動控制方法,其特征在于,所述步驟s2中得到機(jī)器人對應(yīng)的多個預(yù)測路徑點的具體過程為:

9.根據(jù)權(quán)利要求8所述的一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動控制方法,其特征在于,所述預(yù)測路徑點的信息包括位移和轉(zhuǎn)動角度,所述位移具體是指機(jī)器人前一個位置點與當(dāng)前預(yù)測路徑點之間的位移;

10.根據(jù)權(quán)利要求1~9任一所述的一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動控制方法,其特征在于,所述步驟s3中具體是將多個預(yù)測路徑點按順序通過曲線優(yōu)化后得到一條連續(xù)可導(dǎo)的圓弧型路徑,即為完整預(yù)測路徑。


技術(shù)總結(jié)
本發(fā)明涉及一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動控制方法,包括以下步驟:分別實時獲取多機(jī)器人系統(tǒng)中各機(jī)器人的周圍環(huán)境信息;將機(jī)器人的周圍環(huán)境信息以及機(jī)器人對應(yīng)的設(shè)定目標(biāo)點信息輸入預(yù)先構(gòu)建的路徑預(yù)測循環(huán)網(wǎng)絡(luò)中,得到各機(jī)器人對應(yīng)的多個預(yù)測路徑點;根據(jù)各機(jī)器人對應(yīng)的多個預(yù)測路徑點,確定出各機(jī)器人對應(yīng)的完整預(yù)測路徑;基于各機(jī)器人對應(yīng)的完整預(yù)測路徑,相應(yīng)控制各機(jī)器人按照對應(yīng)的完整預(yù)測路徑發(fā)生移動。與現(xiàn)有技術(shù)相比,本發(fā)明能夠循環(huán)快速地產(chǎn)生準(zhǔn)確的預(yù)測路徑,并相應(yīng)控制多機(jī)器人實現(xiàn)精準(zhǔn)避障移動,確保多機(jī)器人系統(tǒng)中各機(jī)器人均能夠在動態(tài)環(huán)境下避開周圍所有障礙物后移動至對應(yīng)目標(biāo)點。

技術(shù)研發(fā)人員:李偉,張隆源,王冀,朱繼偉
受保護(hù)的技術(shù)使用者:復(fù)旦大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/19
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1