一種基于深度強(qiáng)化學(xué)習(xí)的多AUV聲光多模協(xié)同搜索方法

文檔序號(hào)：40465520發(fā)布日期：2024-12-27 09:30閱讀：12來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本發(fā)明屬于海洋環(huán)境協(xié)同搜索，具體涉及一種基于深度強(qiáng)化學(xué)習(xí)的多auv聲光多模協(xié)同搜索方法。

背景技術(shù)：

1、水下聲學(xué)通信在海洋探測和多機(jī)器人協(xié)作中被廣泛應(yīng)用，然而其固有的低數(shù)據(jù)速率和高延遲顯著限制了實(shí)時(shí)信息傳輸?shù)哪芰Α＿@種局限性不僅影響了自主水下航行器（auv）的協(xié)同效率，還在緊急情況下使其難以快速響應(yīng)和適應(yīng)變化的環(huán)境。特別是在復(fù)雜的水下環(huán)境中，聲學(xué)信號(hào)易受到噪聲和傳播延遲的影響，導(dǎo)致信息傳輸?shù)牟豢煽啃?，從而影響任?wù)執(zhí)行的安全性和有效性。

2、相比之下，水下無線光通信（uwoc）以其高數(shù)據(jù)傳輸速率和低延遲的優(yōu)勢，成為提升auv協(xié)同工作的理想選擇。uwoc利用光信號(hào)傳輸數(shù)據(jù)，可以實(shí)現(xiàn)更快速、更高效的信息交互，對(duì)實(shí)時(shí)數(shù)據(jù)傳輸尤為重要。然而，uwoc在實(shí)際應(yīng)用中仍面臨短通信距離和水下環(huán)境變化（如水質(zhì)、溫度、雜質(zhì)等）的挑戰(zhàn)。此外，光通信的方向性要求auv之間必須保持精確的對(duì)準(zhǔn)，這對(duì)其靈活性和智能化能力提出了更高的要求。

3、為了應(yīng)對(duì)這些挑戰(zhàn)，可以結(jié)合聲學(xué)與光學(xué)傳輸?shù)膬?yōu)勢。通過多模通信方式，不僅可以提高信息傳輸?shù)目煽啃耘c效率，還能促進(jìn)auv之間的信息共享，從而更有效地利用概率圖所提供的數(shù)據(jù)。這提升了auv在復(fù)雜水下任務(wù)中的協(xié)同能力，使其在動(dòng)態(tài)環(huán)境中能夠更好地評(píng)估和選擇行動(dòng)路徑。深度強(qiáng)化學(xué)習(xí)（drl）作為一種通過與環(huán)境交互應(yīng)對(duì)復(fù)雜非線性問題的有效技術(shù)，通過概率圖與drl結(jié)合是解決多auv聲光多模協(xié)同搜索問題的有效方法。

技術(shù)實(shí)現(xiàn)思路

1、針對(duì)現(xiàn)有技術(shù)中存在的上述問題，本發(fā)明提出了一種基于深度強(qiáng)化學(xué)習(xí)的多auv聲光多模協(xié)同搜索方法，設(shè)計(jì)合理，解決了現(xiàn)有技術(shù)的不足，具有良好的效果。

2、一種基于深度強(qiáng)化學(xué)習(xí)的多auv聲光多模協(xié)同搜索方法，包括如下步驟：

3、步驟1、在任務(wù)區(qū)域中部署多個(gè)auv，形成協(xié)同搜索系統(tǒng)并進(jìn)行初始化，將任務(wù)區(qū)域離散化為多個(gè)網(wǎng)格，初始化聯(lián)合概率圖模型；

4、步驟2、auv根據(jù)當(dāng)前位置和目標(biāo)存在概率規(guī)劃搜索路徑，并執(zhí)行搜索任務(wù)，在auv每次移動(dòng)后利用信息素修正聯(lián)合概率圖模型，從而進(jìn)行聯(lián)合概率圖模型的更新；

5、步驟3、在搜索過程中，當(dāng)auv需要與其他auv共享信息時(shí)，會(huì)發(fā)起光通信請(qǐng)求，尋找作為光通信對(duì)象的目標(biāo)auv，并逐漸接近目標(biāo)auv進(jìn)行光通信數(shù)據(jù)傳輸；

6、步驟4、接收光通信數(shù)據(jù)的目標(biāo)auv將融合來自步驟3中auv的信息，更新自身的聯(lián)合概率圖模型，目標(biāo)auv基于更新后的聯(lián)合概率圖模型重新規(guī)劃搜索路徑；若未搜尋到目標(biāo)，則重復(fù)執(zhí)行步驟2~?4，直到將任務(wù)區(qū)域內(nèi)目標(biāo)搜索完畢。

7、進(jìn)一步地，所述步驟1的具體過程為：

8、將任務(wù)區(qū)域設(shè)定為一個(gè)的矩形區(qū)域，作為多auv協(xié)同搜索的初始工作區(qū)域，在深度為的目標(biāo)區(qū)域內(nèi)部署個(gè)auv，每個(gè)auv裝備聲學(xué)通信傳感器、光學(xué)通信傳感器以及聲納設(shè)備；auv通過聲納作為捕捉目標(biāo)的傳感器，在搜索過程中auv通過聲學(xué)和光學(xué)通信傳感器傳輸信息，個(gè)auv組成一個(gè)協(xié)同搜索系統(tǒng)執(zhí)行搜索任務(wù)；將該任務(wù)區(qū)域離散化成若干個(gè)網(wǎng)格。

9、進(jìn)一步地，所述步驟2中，auv在執(zhí)行搜索過程中，采用聯(lián)合概率圖結(jié)合多智能體深度確定性策略梯度的強(qiáng)化學(xué)習(xí)算法進(jìn)行動(dòng)作決策，具體的決策過程為：

10、auv協(xié)同搜索控制系統(tǒng)采用聲納的測量值以及聲學(xué)、光學(xué)傳感器接收信息作為觀測值，auv的狀態(tài)被定義為，其中表示時(shí)刻auv接受到其他智能體的消息，表示auv維護(hù)的聯(lián)合概率圖信息，在離散時(shí)域上的狀態(tài)函數(shù)表示為：

11、；(1)

12、其中，和為auv在時(shí)刻的橫縱坐標(biāo)，、、為過程噪聲，服從均值為零且協(xié)方差為的高斯分布；和為?auv?在時(shí)刻的沖擊速度和偏航角速度；為auv在時(shí)刻的航向角；為采樣時(shí)間；

13、對(duì)于每個(gè)auv，在搜索過程中根據(jù)當(dāng)前策略及探索噪聲選擇一個(gè)動(dòng)作，此時(shí)策略是通信約束下的搜索策略，其中，表示第個(gè)的觀測值，表示智能體的動(dòng)作；動(dòng)作集是，auv搜索系統(tǒng)依據(jù)當(dāng)前策略從動(dòng)作集中選擇一個(gè)動(dòng)作，選擇的動(dòng)作是在時(shí)刻auv在通信約束下的所有可能的變化之一。

14、進(jìn)一步地，所述步驟2中，auv通過聲納獲取當(dāng)前所處位置對(duì)應(yīng)網(wǎng)格的目標(biāo)存在概率，目標(biāo)存在概率通過信息素修正聯(lián)合概率圖模型表示，表達(dá)式為：

15、；(2)

16、其中，表示聯(lián)合概率，表示由于信息素檢測結(jié)果和反饋而隨時(shí)間間隔的變化量，的值表示在時(shí)刻時(shí)的目標(biāo)存在的概率；

17、的更新公式為：

18、；(3)

19、其中，和分別表示網(wǎng)格中存在目標(biāo)或不存在目標(biāo)；和分別表示為檢測概率和虛警概率，表示在時(shí)刻位置處目標(biāo)存在的概率。

20、進(jìn)一步地，所述步驟2中，auv協(xié)同搜索控制系統(tǒng)在執(zhí)行一步動(dòng)作后，設(shè)置獎(jiǎng)勵(lì)函數(shù)如下：

21、；(4)

22、其中，表示向高概率網(wǎng)格單元移動(dòng)的獎(jiǎng)勵(lì)，表示找到目標(biāo)的獎(jiǎng)勵(lì)，表示碰撞的懲罰，表示選擇光通信目標(biāo)后鼓勵(lì)auv快速靠近光通信目標(biāo)的獎(jiǎng)勵(lì)，而表示光通信結(jié)束后auv之間距離太近的懲罰；通過設(shè)置獎(jiǎng)勵(lì)使得auv在發(fā)送光請(qǐng)求后能夠在搜索約束下快速的靠近光通信目標(biāo)，并在通信結(jié)束后迅速的遠(yuǎn)離通信目標(biāo)，以保證搜索的效率。

23、進(jìn)一步地，所述步驟4中，接收光通信數(shù)據(jù)的目標(biāo)auv將融合來自步驟3中auv的信息，更新自身的聯(lián)合概率圖模型，融合后的概率通過以下公式來計(jì)算：

24、；(5)

25、其中，是融合后的聯(lián)合概率，表示第個(gè)參與融合auv的權(quán)重，表示參與融合auv的數(shù)量；

26、auv集群采用多智能體深度確定性策略梯度的強(qiáng)化學(xué)習(xí)算法進(jìn)行動(dòng)作決策；

27、在auv集群中，每一個(gè)auv維護(hù)自己的actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)，其網(wǎng)絡(luò)參數(shù)分別為和，使用基于actor-critic方法的ctde范式進(jìn)行中心化訓(xùn)練分布式執(zhí)行，在訓(xùn)練時(shí)，每一個(gè)auv的critic部分能夠獲得其他auv的策略信息；

28、第個(gè)auv的critic網(wǎng)絡(luò)參數(shù)通過最小化損失函數(shù)來更新，具體公式如下：

29、；(6)

30、其中，為中樣本的期望值，表示存儲(chǔ)數(shù)據(jù)的經(jīng)驗(yàn)回放池，表示當(dāng)前時(shí)刻的目標(biāo)值；

31、actor網(wǎng)絡(luò)的目標(biāo)是最大化的折扣期望回報(bào)，第個(gè)auv的actor網(wǎng)絡(luò)參數(shù)的更新通過執(zhí)行梯度下降的方法，具體公式為：

32、；(7)

33、其中，表示對(duì)求導(dǎo)，表示優(yōu)化目標(biāo)，經(jīng)驗(yàn)回放池由元組表示，表示期望回報(bào)，是auv的狀態(tài)信息，是關(guān)于執(zhí)行相應(yīng)操作后的下一個(gè)狀態(tài)的信息，是critic網(wǎng)絡(luò)的輸出，表示當(dāng)前狀態(tài)和的動(dòng)作得到的函數(shù)值；

34、軟更新目標(biāo)critic網(wǎng)絡(luò)參數(shù)和目標(biāo)actor網(wǎng)絡(luò)參數(shù)，具體公式如下所示：

35、；(8)

36、其中，表示目標(biāo)critic網(wǎng)絡(luò)參數(shù)，表示目標(biāo)actor網(wǎng)絡(luò)參數(shù)，表示軟更新系數(shù)。

37、進(jìn)一步地，所述步驟4中，由于auv上還裝備有慣性導(dǎo)航系統(tǒng)，根據(jù)該慣性導(dǎo)航系統(tǒng)控制auv的速度從而移動(dòng)，auv下一時(shí)刻移動(dòng)位置表示為：

38、；(9)

39、；(10)

40、；(11)

41、其中，表示三角函數(shù)中的余弦，、分別表示時(shí)刻的橫縱坐標(biāo)，、?和分別表示時(shí)刻的激增速度、搖擺速度和偏航角速度；

42、auv在選擇具體動(dòng)作后，調(diào)整相應(yīng)的速度，并更新狀態(tài)信息，通過更新后的聯(lián)合概率圖信息和不斷更新網(wǎng)絡(luò)參數(shù)，auv能夠逐漸學(xué)習(xí)到更優(yōu)的搜索策略，從而在后續(xù)的搜索過程中更加高效地找到目標(biāo)。

43、本發(fā)明帶來的有益技術(shù)效果：

44、本發(fā)明針對(duì)海洋環(huán)境下的協(xié)同搜索場景，結(jié)合聲學(xué)和光學(xué)通信的互補(bǔ)優(yōu)勢，提出了一種基于深度強(qiáng)化學(xué)習(xí)的多auv聲光多模搜索方法。通過信息素修正概率圖，實(shí)現(xiàn)對(duì)海洋目標(biāo)的快速搜索。具體而言，信息素修正概率圖旨在提高復(fù)雜海洋環(huán)境下auv的搜索效率，利用聲光多模的通信方式增強(qiáng)了在通信受限條件下auv之間的信息共享和概率圖的利用率。

45、本發(fā)明同時(shí)考慮光對(duì)準(zhǔn)、移動(dòng)光通信和通信延遲等關(guān)鍵因素，在此基礎(chǔ)上，提出了一種基于多智能體強(qiáng)化學(xué)習(xí)的多auv聲光多模協(xié)同搜索算法，屬于首次在搜索場景中實(shí)現(xiàn)聲光多模結(jié)合。該算法通過動(dòng)態(tài)調(diào)整auv的搜索策略，優(yōu)化了auv間信息共享和目標(biāo)搜索的效率。應(yīng)用于復(fù)雜海洋環(huán)境時(shí)，能顯著提高搜索成功率和響應(yīng)速度，尤其在通信受限的情況下，表現(xiàn)出更強(qiáng)的魯棒性和適應(yīng)性。該方法為未來海洋探索和監(jiān)測提供了新思路。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：羅漢江,李響,陶航,董鵬燕,董配軍,王青東,陳雪
技術(shù)所有人：山東科技大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測試系統(tǒng)設(shè)計(jì) 2.汽車檢測系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于深度強(qiáng)化學(xué)習(xí)的多AUV聲光多模協(xié)同搜索方法