亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

面向多智能體路徑規(guī)劃的分層協(xié)同深度強化學習決策方法

文檔序號:40398701發(fā)布日期:2024-12-20 12:22閱讀:7來源:國知局
面向多智能體路徑規(guī)劃的分層協(xié)同深度強化學習決策方法

本發(fā)明涉及一種面向多智能體路徑規(guī)劃的分層協(xié)同深度強化學習決策方法,屬于多智能體路徑規(guī)劃。


背景技術:

1、深度強化學習(deep?reinforcement?learning,drl)是將深度學習與強化學習相結合的一種算法,用于實現(xiàn)從原始輸入到輸出的端到端控制,根據(jù)當前智能體的狀態(tài)和行為,優(yōu)化策略,在完成任務的同時達到最佳性能。因此,drl被認為是解決多智能體路徑規(guī)劃(multi-agentpath?finding,mapf)問題的有效方法。mapf涉及到多個智能體執(zhí)行任務期間能夠在同一環(huán)境下尋找到達目標的最佳路徑。然而,現(xiàn)有的mapf研究大多集中在路徑規(guī)劃本身,而忽略了與任務資源分配相關的要求,特別是在倉儲環(huán)境中。在這樣的環(huán)境中,智能體首先需要接受系統(tǒng)進行的資源任務分配,然后進行規(guī)劃路徑,以滿足實際需求并提高整體效率。當前的研究往往無法很好地解決這一問題,導致實際應用中存在資源浪費和效率低下的情況。此外,基于多智能體drl的研究也面臨著系統(tǒng)狀態(tài)不穩(wěn)定的挑戰(zhàn)。每個智能體僅具有局部視野,其他智能體都處于動態(tài)的情況,每個智能體的局部信息會同時發(fā)生變化,從而影響個體決策的準確性和一致性。隨著智能體數(shù)量的增加,系統(tǒng)的復雜性增加,智能體之間的相互作用會導致整個系統(tǒng)的行為變得不穩(wěn)定。系統(tǒng)的非穩(wěn)定性進一步造成多智能體協(xié)同困難,導致系統(tǒng)資源利用率低,執(zhí)行效率低等問題。

2、有鑒于此,特提出本發(fā)明。


技術實現(xiàn)思路

1、本發(fā)明提供了一種面向多智能體路徑規(guī)劃的分層協(xié)同深度強化學習決策方法,以用于構建基于ppo的分層協(xié)同決策模型,以解決現(xiàn)有深度強化學習方法在環(huán)境中進行路徑規(guī)劃任務時面臨的挑戰(zhàn)。

2、本發(fā)明的技術方案是:

3、一種面向多智能體路徑規(guī)劃的分層協(xié)同深度強化學習決策方法,包括:通過底層任務分配決策模塊和以ppo為框架的上層行為決策模塊構建基于ppo的分層協(xié)同決策模型;以環(huán)境rgb圖像數(shù)據(jù)、任務請求以及觀測信息作為基于ppo的分層協(xié)同決策模型的輸入;其中,觀測信息包括底層觀測信息、上層觀測信息;通過不斷訓練基于ppo的分層協(xié)同決策模型,獲得多智能體系統(tǒng)最優(yōu)控制策略。

4、各智能體底層觀測信息轉化為dec-pomdp過程,表達式為:其中,表示t時刻的底層狀態(tài);表示智能體決定是否接受任務請求的底層決策動作;為智能體執(zhí)行底層決策動作動作后使得狀態(tài)變化的轉換函數(shù);表示底層任務分配決策下智能體的視野,v表示可見的環(huán)境地圖,e表示距離權重集合;為t時刻執(zhí)行底層決策后的預期獎勵。

5、各智能體上層觀測信息轉化為dec-pomdp過程,表達式為:其中,表示t時刻的上層狀態(tài)的狀態(tài)集合;表示t時刻智能體的可執(zhí)行的上層決策動作的動作集合;為智能體執(zhí)行上層決策動作后狀態(tài)發(fā)生變化的狀態(tài)轉移概率分布;表示上層行為決策模塊中智能體的視野;為t時刻執(zhí)行上層決策后的預期獎勵。

6、所述基于ppo的分層協(xié)同決策模型依據(jù)熵函數(shù)、具有分層決策獎勵的集中策略網絡目標函數(shù)和具有分層決策獎勵的集中價值網絡目標函數(shù)構建的損失函數(shù)。

7、所述損失函數(shù),表達式為:

8、

9、其中,lp(θ)表示具有分層決策獎勵的集中策略網絡目標函數(shù),表示具有分層決策獎勵的集中價值網絡目標函數(shù),c1和c2分別為具有分層決策獎勵的集中價值網絡目標函數(shù)和熵函數(shù)ls(θ)的權重系數(shù)。

10、所述具有分層決策獎勵的集中策略網絡目標函數(shù),表達式為:

11、

12、其中,lp(θ)表示具有分層決策獎勵的集中策略網絡目標函數(shù),θ為集中策略網絡的網絡參數(shù);j表示智能體數(shù)量;t表示離散時間步總數(shù);min表示取最小值函數(shù);ε表示裁剪因子,ξ代表重要性采樣比例;clip()表示裁剪函數(shù),表示智能體j在t時刻的具有分層決策獎勵的優(yōu)勢估計量。

13、所述具有分層決策獎勵的優(yōu)勢估計量,表達式為:

14、

15、其中,l表示優(yōu)勢估計量的估計步長,表示智能體j在t時刻估計步長為l時的具有分層決策獎勵的值函數(shù)估計值誤差;λ為平滑因子;γ∈[0,1]為折扣因子。

16、所述具有分層決策獎勵的值函數(shù)估計值誤差,表達式為:

17、

18、其中,為智能體j在t時刻的分層決策獎勵;為智能體j在t+1時刻,上層狀態(tài)為2st+1時采用舊價值函數(shù)時的價值估計值;為智能體j在t時刻,上層狀態(tài)為2st時采用舊價值函數(shù)時的價值估計值;為智能體j在t時刻對t+1時刻具有分層決策獎勵的預測值。

19、所述具有分層決策獎勵的集中價值網絡目標函數(shù),表達式為:

20、

21、其中,表示具有分層決策獎勵的集中價值網絡目標函數(shù);為集中價值網絡的網絡參數(shù);j表示智能體數(shù)量;t表示離散時間步總數(shù);min表示取最小值函數(shù);clip()表示裁剪函數(shù);為智能體j在t時刻,上層狀態(tài)為2st時的價值函數(shù)值;為智能體j在t時刻對t+1時刻具有分層決策獎勵的預測值;為智能體j在t時刻,上層狀態(tài)為2st時采用舊價值函數(shù)時的價值估計值;ε表示裁剪因子。

22、所述基于ppo的分層協(xié)同決策模型的訓練,包括:初始化所有智能體的底層任務分配決策模塊、上層行為決策模塊;所有智能體與環(huán)境進行交互,生成預設數(shù)量的底層任務分配決策模塊數(shù)據(jù)和上層行為決策模塊數(shù)據(jù),并分別存入經驗池中;依據(jù)當前底層狀態(tài),從經驗池中抽取底層任務分配決策模塊數(shù)據(jù)來確定各智能體是否接受當前任務請求并計算所有智能體底層決策后的預期獎勵,進而得到具有任務的智能體和不具有任務的智能體;不具有任務的智能體不進入上層行為決策模塊,具有任務的智能體進入上層行為決策模塊;依據(jù)具有任務的智能體的當前上層狀態(tài),從經驗池中抽取上層行為決策模塊數(shù)據(jù)來確定各智能體的執(zhí)行動作,進而計算各智能體具有分層決策獎勵的優(yōu)勢函數(shù);依據(jù)各智能體具有分層決策獎勵的優(yōu)勢函數(shù),計算多智能體系統(tǒng)的具有分層決策獎勵的集中策略網絡目標函數(shù);依據(jù)多智能體系統(tǒng)的熵函數(shù)、具有分層決策獎勵的集中策略網絡目標函數(shù)和具有分層決策獎勵的集中價值網絡目標函數(shù),獲得多智能體系統(tǒng)的損失函數(shù);依據(jù)多智能體系統(tǒng)的損失函數(shù),對集中策略網絡和集中價值網絡的參數(shù)進行更新,將更新后的集中價值網絡參數(shù)固定,將使用更新后的集中策略網絡的所有智能體繼續(xù)與環(huán)境進行交互,并生成新的底層任務分配決策模塊數(shù)據(jù)和上層行為決策模塊數(shù)據(jù)存入經驗池,直至達到終止條件,訓練完成。

23、本發(fā)明的有益效果是:

24、本發(fā)明提出的多智能體路徑規(guī)劃的分層協(xié)同深度強化學習的決策方法,旨在解決現(xiàn)有深度強化學習方法在環(huán)境中進行路徑規(guī)劃任務時面臨的挑戰(zhàn),包括與系統(tǒng)任務資源分配的斷聯(lián)性、多智能體協(xié)同困難以及系統(tǒng)非穩(wěn)定性以及造成的系統(tǒng)資源利用率差以及執(zhí)行任務期間的效率低下等問題。以下是本發(fā)明的主要優(yōu)勢:

25、高效的任務資源分配:本發(fā)明充分考慮了真實環(huán)境下環(huán)境中的任務資源分配要求,使得智能體在規(guī)劃路徑之前就能夠獲取任務資源分配信息,避免了資源浪費,提高資源利用率,從而降低了運營成本。

26、穩(wěn)定的系統(tǒng)狀態(tài):本發(fā)明通過引入了集中策略網絡和集中價值網絡,使得每個智能體能夠觀察到其余智能體的狀態(tài)和行為,能夠更加穩(wěn)定地做出決策,避免了系統(tǒng)狀態(tài)的頻繁波動。這一優(yōu)勢使得整個系統(tǒng)在動態(tài)環(huán)境下能夠保持穩(wěn)定的運行,提高了系統(tǒng)的可靠性。

27、減少執(zhí)行時間:本發(fā)明提出了聯(lián)合資源按需分配與路徑規(guī)劃的聯(lián)合決策,使得所有智能體能夠更加高效地執(zhí)行任務,減少任務執(zhí)行時間,提高了整個系統(tǒng)的響應速度。

28、增強系統(tǒng)魯棒性:本發(fā)明的多智能體分層決策機制增強了系統(tǒng)在不穩(wěn)定環(huán)境下的魯棒性。每個智能體能夠根據(jù)局部信息做出穩(wěn)定的決策,降低了環(huán)境變化對系統(tǒng)穩(wěn)定性的影響,提高了系統(tǒng)的可靠性。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1