本發(fā)明涉及機器人避障,尤其涉及一種基于智能跨域策略遷移的機器人裝配避障方法及系統(tǒng)。
背景技術:
1、目前廣泛使用的機器人裝配和避障技術依賴于深度強化學習(drl)。這些技術通過大量的環(huán)境交互和數(shù)據(jù)積累,逐步學習完成任務的策略。例如,使用強化學習訓練的機器人能夠通過不斷嘗試和錯誤來優(yōu)化其路徑選擇和物體操作策略,從而在有障礙的環(huán)境中實現(xiàn)有效的避障和精確的裝配。這些方法主要依賴于大量的交互數(shù)據(jù)和長時間的訓練周期,通過逐步學習環(huán)境特征和任務策略來適應復雜場景,然而,相關技術中,存在的一些不足,如訓練時間長,drl通常需要長時間的訓練才能達到工業(yè)使用的穩(wěn)定性和效率;數(shù)據(jù)依賴性強,有效的drl策略需要大量的環(huán)境交互數(shù)據(jù),這在實際應用中往往是不可行的;環(huán)境適應性差,當機器人從一個訓練環(huán)境轉移到實際的生產環(huán)境時,由于環(huán)境差異可能導致性能顯著下降。
2、綜上,相關技術中存在的技術問題有待得到改善。
技術實現(xiàn)思路
1、為了解決上述技術問題,本發(fā)明的目的是提供一種基于智能跨域策略遷移的機器人裝配避障方法及系統(tǒng),能夠提高機器人的操作安全性和生產效率,減少了碰撞和故障的風險。
2、本發(fā)明所采用的第一技術方案是:一種基于智能跨域策略遷移的機器人裝配避障方法,包括以下步驟:
3、構建源環(huán)境場景與目標環(huán)境場景,所述源環(huán)境場景表示無障礙的仿真環(huán)境,所述目標環(huán)境場景表示有障礙的仿真環(huán)境;
4、基于源環(huán)境場景,通過深度強化學習策略與稀疏獎勵機制,對機器人進行三維裝配操作,構建近似最優(yōu)源域策略;
5、基于目標環(huán)境場景,對近似最優(yōu)源域策略進行遷移,并結合狀態(tài)拼接策略對機器人進行三維裝配避障操作,構建最優(yōu)目標域策略;
6、將最優(yōu)目標域策略部署于機器人控制平臺,完成機器人三維裝配避障操作。
7、進一步,所述基于源環(huán)境場景,通過深度強化學習策略與稀疏獎勵機制,對機器人進行三維裝配操作,構建近似最優(yōu)源域策略這一步驟,其具體包括:
8、基于深度強化學習策略,初始化策略網絡、值函數(shù)與經驗回放緩沖區(qū);
9、基于源環(huán)境場景,采集機器人三維裝配操作數(shù)據(jù)并存儲至經驗回放緩沖區(qū);
10、基于演員-評論家架構算法,設定最大熵目標,通過最大化累計最大熵目標的期望值,對經驗回放緩沖區(qū)中的機器人三維裝配操作數(shù)據(jù)進行隨機更新,得到隨機更新后的機器人三維裝配操作數(shù)據(jù);
11、設置稀疏獎勵機制,獲取隨機更新后的機器人三維裝配操作數(shù)據(jù)的獎勵激勵并對經驗回放緩沖區(qū)進行更新;
12、通過her算法對隨機更新后的機器人三維裝配操作數(shù)據(jù)進行標記處理,得到標記后的機器人三維裝配操作數(shù)據(jù);
13、根據(jù)標記后的機器人三維裝配操作數(shù)據(jù)對策略網絡與值函數(shù)進行更新,直至策略網絡與值函數(shù)滿足預設要求,構建近似最優(yōu)源域策略。
14、進一步,所述最大化累計最大熵目標的期望值的表達式具體如下所示:
15、;
16、上式中,表示最大熵目標的期望值,表示立即回報項,量化了環(huán)境的即時反饋,表示熵回報項,表示溫度參數(shù),用來調整熵項的權重,控制探索與利用之間的權衡,表示在狀態(tài)-動作分布上的期望值,是按照策略生成的狀態(tài)-動作對的分布,表示在時間步的環(huán)境狀態(tài),表示在時間步由智能體采取的動作,表示策略,即狀態(tài)到動作分布的映射,用于定義智能體的行為,表示總時間范圍、考慮的整個回合軌跡的時間步數(shù),表示在0到范圍內的具體時間步。
17、進一步,所述基于目標環(huán)境場景,對近似最優(yōu)源域策略進行遷移,并結合狀態(tài)拼接策略對機器人進行三維裝配避障操作,構建最優(yōu)目標域策略這一步驟,其具體包括:
18、考慮目標環(huán)境場景與源環(huán)境場景的差異性,將近似最優(yōu)源域策略進行遷移,構建目標環(huán)境場景最優(yōu)決策策略;
19、通過動態(tài)策略依賴方法,對目標環(huán)境場景最優(yōu)決策策略進行更新處理,得到更新后的目標環(huán)境場景最優(yōu)決策策略;
20、基于更新后的目標環(huán)境場景最優(yōu)決策策略,結合狀態(tài)拼接策略對機器人進行三維裝配避障操作,構建最優(yōu)目標域策略。
21、進一步,所述考慮目標環(huán)境場景與源環(huán)境場景的差異性,將近似最優(yōu)源域策略進行遷移,構建目標環(huán)境場景最優(yōu)決策策略這一步驟,其具體包括:
22、定義目標環(huán)境場景的目標域與源環(huán)境場景的源域;
23、獲取源域的外部知識與目標域的內部知識;
24、通過將源域的外部知識與目標域的內部知識進行融合,對近似最優(yōu)源域策略進行遷移,得到目標環(huán)境場景最優(yōu)決策策略。
25、進一步,所述目標環(huán)境場景最優(yōu)決策策略的表達式具體如下所示:
26、;
27、上式中,表示目標環(huán)境場景最優(yōu)決策策略,為狀態(tài)-動作值函數(shù)或函數(shù),在策略下,在狀態(tài)采取動作時的預期累積回報,表示在狀態(tài)分布和策略下的期望值,表示從初始狀態(tài)到第步的狀態(tài)分布,旨在最大化函數(shù)的期望值,表示當前的環(huán)境狀態(tài),表示智能體在狀態(tài)下選擇的動作。
28、進一步,所述通過動態(tài)策略依賴方法,對目標環(huán)境場景最優(yōu)決策策略進行更新處理,得到更新后的目標環(huán)境場景最優(yōu)決策策略這一步驟,其具體包括:
29、通過近似最優(yōu)源域策略的在線評論家網絡與目標環(huán)境場景最優(yōu)決策策略的在線評論家網絡,對給定的機器人動作與狀態(tài)進行評估,獲取源域q值與目標域q值;
30、將源域q值與目標域q值進行整合,得到綜合評價網絡q值;
31、根據(jù)綜合評價網絡q值定義最優(yōu)機器人動作,并通過bellman方程獲取最優(yōu)機器人動作的價值預期q值;
32、基于價值預期q值對目標環(huán)境場景最優(yōu)決策策略進行更新處理,得到更新后的目標環(huán)境場景最優(yōu)決策策略。
33、進一步,所述基于更新后的目標環(huán)境場景最優(yōu)決策策略,結合狀態(tài)拼接策略對機器人進行三維裝配避障操作,構建最優(yōu)目標域策略這一步驟,其具體包括:
34、構建目標域狀態(tài)向量,所述目標域狀態(tài)向量包括機器人的狀態(tài)信息與障礙物的狀態(tài)信息;
35、將目標域狀態(tài)向量輸入至更新后的目標環(huán)境場景最優(yōu)決策策略進行評估當前狀態(tài)和動作的價值;
36、通過策略梯度方法,結合當前狀態(tài)和動作的價值進行目標環(huán)境場景最優(yōu)決策策略的參數(shù)更新,最大化期望回報,構建最優(yōu)目標域策略。
37、本發(fā)明所采用的第二技術方案是:一種基于智能跨域策略遷移的機器人裝配避障系統(tǒng),包括:
38、第一模塊,用于構建源環(huán)境場景與目標環(huán)境場景,所述源環(huán)境場景表示無障礙的仿真環(huán)境,所述目標環(huán)境場景表示有障礙的仿真環(huán)境;
39、第二模塊,用于基于源環(huán)境場景,通過深度強化學習策略與稀疏獎勵機制,對機器人進行三維裝配操作,構建近似最優(yōu)源域策略;
40、第三模塊,用于基于目標環(huán)境場景,對近似最優(yōu)源域策略進行遷移,并結合狀態(tài)拼接策略對機器人進行三維裝配避障操作,構建最優(yōu)目標域策略;
41、第四模塊,用于將最優(yōu)目標域策略部署于機器人控制平臺,完成機器人三維裝配避障操作。
42、本發(fā)明方法及系統(tǒng)的有益效果是:本發(fā)明通過構建源環(huán)境場景與目標環(huán)境場景,基于源環(huán)境場景,通過深度強化學習策略與稀疏獎勵機制,對機器人進行三維裝配操作,構建近似最優(yōu)源域策略,通過深度強化學習策略鼓勵策略更廣泛地探索環(huán)境,防止過早收斂到局部最優(yōu),結合稀疏獎勵機制,其中獎勵僅在成功完成裝配任務時授予,這種獎勵設置激勵代理專注于實現(xiàn)任務的關鍵目標,而不是在過程中追求無關的中間狀態(tài),加速深度強化學習策略的有效收斂,基于目標環(huán)境場景,對近似最優(yōu)源域策略進行遷移,并結合狀態(tài)拼接策略對機器人進行三維裝配避障操作,構建最優(yōu)目標域策略,在遷移過程中通過共享策略動作空間的特征,并考慮源環(huán)境與目標環(huán)境在觀測空間上的差異,通過調整觀測空間以捕捉更多的關鍵信息,從而提升模型在新環(huán)境中的表現(xiàn),進而提高機器人在面對環(huán)境變化時的反應速度和準確性,提高了機器人的操作安全性和生產效率,減少了碰撞和故障的風險。