本發(fā)明屬于海洋環(huán)境協(xié)同搜索,具體涉及一種基于深度強(qiáng)化學(xué)習(xí)的多auv聲光多模協(xié)同搜索方法。
背景技術(shù):
1、水下聲學(xué)通信在海洋探測和多機(jī)器人協(xié)作中被廣泛應(yīng)用,然而其固有的低數(shù)據(jù)速率和高延遲顯著限制了實(shí)時(shí)信息傳輸?shù)哪芰Α_@種局限性不僅影響了自主水下航行器(auv)的協(xié)同效率,還在緊急情況下使其難以快速響應(yīng)和適應(yīng)變化的環(huán)境。特別是在復(fù)雜的水下環(huán)境中,聲學(xué)信號(hào)易受到噪聲和傳播延遲的影響,導(dǎo)致信息傳輸?shù)牟豢煽啃?,從而影響任?wù)執(zhí)行的安全性和有效性。
2、相比之下,水下無線光通信(uwoc)以其高數(shù)據(jù)傳輸速率和低延遲的優(yōu)勢,成為提升auv協(xié)同工作的理想選擇。uwoc利用光信號(hào)傳輸數(shù)據(jù),可以實(shí)現(xiàn)更快速、更高效的信息交互,對(duì)實(shí)時(shí)數(shù)據(jù)傳輸尤為重要。然而,uwoc在實(shí)際應(yīng)用中仍面臨短通信距離和水下環(huán)境變化(如水質(zhì)、溫度、雜質(zhì)等)的挑戰(zhàn)。此外,光通信的方向性要求auv之間必須保持精確的對(duì)準(zhǔn),這對(duì)其靈活性和智能化能力提出了更高的要求。
3、為了應(yīng)對(duì)這些挑戰(zhàn),可以結(jié)合聲學(xué)與光學(xué)傳輸?shù)膬?yōu)勢。通過多模通信方式,不僅可以提高信息傳輸?shù)目煽啃耘c效率,還能促進(jìn)auv之間的信息共享,從而更有效地利用概率圖所提供的數(shù)據(jù)。這提升了auv在復(fù)雜水下任務(wù)中的協(xié)同能力,使其在動(dòng)態(tài)環(huán)境中能夠更好地評(píng)估和選擇行動(dòng)路徑。深度強(qiáng)化學(xué)習(xí)(drl)作為一種通過與環(huán)境交互應(yīng)對(duì)復(fù)雜非線性問題的有效技術(shù),通過概率圖與drl結(jié)合是解決多auv聲光多模協(xié)同搜索問題的有效方法。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)中存在的上述問題,本發(fā)明提出了一種基于深度強(qiáng)化學(xué)習(xí)的多auv聲光多模協(xié)同搜索方法,設(shè)計(jì)合理,解決了現(xiàn)有技術(shù)的不足,具有良好的效果。
2、一種基于深度強(qiáng)化學(xué)習(xí)的多auv聲光多模協(xié)同搜索方法,包括如下步驟:
3、步驟1、在任務(wù)區(qū)域中部署多個(gè)auv,形成協(xié)同搜索系統(tǒng)并進(jìn)行初始化,將任務(wù)區(qū)域離散化為多個(gè)網(wǎng)格,初始化聯(lián)合概率圖模型;
4、步驟2、auv根據(jù)當(dāng)前位置和目標(biāo)存在概率規(guī)劃搜索路徑,并執(zhí)行搜索任務(wù),在auv每次移動(dòng)后利用信息素修正聯(lián)合概率圖模型,從而進(jìn)行聯(lián)合概率圖模型的更新;
5、步驟3、在搜索過程中,當(dāng)auv需要與其他auv共享信息時(shí),會(huì)發(fā)起光通信請(qǐng)求,尋找作為光通信對(duì)象的目標(biāo)auv,并逐漸接近目標(biāo)auv進(jìn)行光通信數(shù)據(jù)傳輸;
6、步驟4、接收光通信數(shù)據(jù)的目標(biāo)auv將融合來自步驟3中auv的信息,更新自身的聯(lián)合概率圖模型,目標(biāo)auv基于更新后的聯(lián)合概率圖模型重新規(guī)劃搜索路徑;若未搜尋到目標(biāo),則重復(fù)執(zhí)行步驟2~?4,直到將任務(wù)區(qū)域內(nèi)目標(biāo)搜索完畢。
7、進(jìn)一步地,所述步驟1的具體過程為:
8、將任務(wù)區(qū)域設(shè)定為一個(gè)的矩形區(qū)域,作為多auv協(xié)同搜索的初始工作區(qū)域,在深度為的目標(biāo)區(qū)域內(nèi)部署個(gè)auv,每個(gè)auv裝備聲學(xué)通信傳感器、光學(xué)通信傳感器以及聲納設(shè)備;auv通過聲納作為捕捉目標(biāo)的傳感器,在搜索過程中auv通過聲學(xué)和光學(xué)通信傳感器傳輸信息,個(gè)auv組成一個(gè)協(xié)同搜索系統(tǒng)執(zhí)行搜索任務(wù);將該任務(wù)區(qū)域離散化成若干個(gè)網(wǎng)格。
9、進(jìn)一步地,所述步驟2中,auv在執(zhí)行搜索過程中,采用聯(lián)合概率圖結(jié)合多智能體深度確定性策略梯度的強(qiáng)化學(xué)習(xí)算法進(jìn)行動(dòng)作決策,具體的決策過程為:
10、auv協(xié)同搜索控制系統(tǒng)采用聲納的測量值以及聲學(xué)、光學(xué)傳感器接收信息作為觀測值,auv的狀態(tài)被定義為,其中表示時(shí)刻auv接受到其他智能體的消息,表示auv維護(hù)的聯(lián)合概率圖信息,在離散時(shí)域上的狀態(tài)函數(shù)表示為:
11、;(1)
12、其中,和為auv在時(shí)刻的橫縱坐標(biāo),、、為過程噪聲,服從均值為零且協(xié)方差為的高斯分布;和為?auv?在時(shí)刻的沖擊速度和偏航角速度;為auv在時(shí)刻的航向角;為采樣時(shí)間;
13、對(duì)于每個(gè)auv,在搜索過程中根據(jù)當(dāng)前策略及探索噪聲選擇一個(gè)動(dòng)作,此時(shí)策略是通信約束下的搜索策略,其中,表示第個(gè)的觀測值,表示智能體的動(dòng)作;動(dòng)作集是,auv搜索系統(tǒng)依據(jù)當(dāng)前策略從動(dòng)作集中選擇一個(gè)動(dòng)作,選擇的動(dòng)作是在時(shí)刻auv在通信約束下的所有可能的變化之一。
14、進(jìn)一步地,所述步驟2中,auv通過聲納獲取當(dāng)前所處位置對(duì)應(yīng)網(wǎng)格的目標(biāo)存在概率,目標(biāo)存在概率通過信息素修正聯(lián)合概率圖模型表示,表達(dá)式為:
15、;(2)
16、其中,表示聯(lián)合概率,表示由于信息素檢測結(jié)果和反饋而隨時(shí)間間隔的變化量,的值表示在時(shí)刻時(shí)的目標(biāo)存在的概率;
17、的更新公式為:
18、;(3)
19、其中,和分別表示網(wǎng)格中存在目標(biāo)或不存在目標(biāo);和分別表示為檢測概率和虛警概率,表示在時(shí)刻位置處目標(biāo)存在的概率。
20、進(jìn)一步地,所述步驟2中,auv協(xié)同搜索控制系統(tǒng)在執(zhí)行一步動(dòng)作后,設(shè)置獎(jiǎng)勵(lì)函數(shù)如下:
21、;(4)
22、其中,表示向高概率網(wǎng)格單元移動(dòng)的獎(jiǎng)勵(lì),表示找到目標(biāo)的獎(jiǎng)勵(lì),表示碰撞的懲罰,表示選擇光通信目標(biāo)后鼓勵(lì)auv快速靠近光通信目標(biāo)的獎(jiǎng)勵(lì),而表示光通信結(jié)束后auv之間距離太近的懲罰;通過設(shè)置獎(jiǎng)勵(lì)使得auv在發(fā)送光請(qǐng)求后能夠在搜索約束下快速的靠近光通信目標(biāo),并在通信結(jié)束后迅速的遠(yuǎn)離通信目標(biāo),以保證搜索的效率。
23、進(jìn)一步地,所述步驟4中,接收光通信數(shù)據(jù)的目標(biāo)auv將融合來自步驟3中auv的信息,更新自身的聯(lián)合概率圖模型,融合后的概率通過以下公式來計(jì)算:
24、;(5)
25、其中,是融合后的聯(lián)合概率,表示第個(gè)參與融合auv的權(quán)重,表示參與融合auv的數(shù)量;
26、auv集群采用多智能體深度確定性策略梯度的強(qiáng)化學(xué)習(xí)算法進(jìn)行動(dòng)作決策;
27、在auv集群中,每一個(gè)auv維護(hù)自己的actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò),其網(wǎng)絡(luò)參數(shù)分別為和,使用基于actor-critic方法的ctde范式進(jìn)行中心化訓(xùn)練分布式執(zhí)行,在訓(xùn)練時(shí),每一個(gè)auv的critic部分能夠獲得其他auv的策略信息;
28、第個(gè)auv的critic網(wǎng)絡(luò)參數(shù)通過最小化損失函數(shù)來更新,具體公式如下:
29、;(6)
30、其中,為中樣本的期望值,表示存儲(chǔ)數(shù)據(jù)的經(jīng)驗(yàn)回放池,表示當(dāng)前時(shí)刻的目標(biāo)值;
31、actor網(wǎng)絡(luò)的目標(biāo)是最大化的折扣期望回報(bào),第個(gè)auv的actor網(wǎng)絡(luò)參數(shù)的更新通過執(zhí)行梯度下降的方法,具體公式為:
32、;(7)
33、其中,表示對(duì)求導(dǎo),表示優(yōu)化目標(biāo),經(jīng)驗(yàn)回放池由元組表示,表示期望回報(bào),是auv的狀態(tài)信息,是關(guān)于執(zhí)行相應(yīng)操作后的下一個(gè)狀態(tài)的信息,是critic網(wǎng)絡(luò)的輸出,表示當(dāng)前狀態(tài)和的動(dòng)作得到的函數(shù)值;
34、軟更新目標(biāo)critic網(wǎng)絡(luò)參數(shù)和目標(biāo)actor網(wǎng)絡(luò)參數(shù),具體公式如下所示:
35、;(8)
36、其中,表示目標(biāo)critic網(wǎng)絡(luò)參數(shù),表示目標(biāo)actor網(wǎng)絡(luò)參數(shù),表示軟更新系數(shù)。
37、進(jìn)一步地,所述步驟4中,由于auv上還裝備有慣性導(dǎo)航系統(tǒng),根據(jù)該慣性導(dǎo)航系統(tǒng)控制auv的速度從而移動(dòng),auv下一時(shí)刻移動(dòng)位置表示為:
38、;(9)
39、;(10)
40、;(11)
41、其中,表示三角函數(shù)中的余弦,、分別表示時(shí)刻的橫縱坐標(biāo),、?和分別表示時(shí)刻的激增速度、搖擺速度和偏航角速度;
42、auv在選擇具體動(dòng)作后,調(diào)整相應(yīng)的速度,并更新狀態(tài)信息,通過更新后的聯(lián)合概率圖信息和不斷更新網(wǎng)絡(luò)參數(shù),auv能夠逐漸學(xué)習(xí)到更優(yōu)的搜索策略,從而在后續(xù)的搜索過程中更加高效地找到目標(biāo)。
43、本發(fā)明帶來的有益技術(shù)效果:
44、本發(fā)明針對(duì)海洋環(huán)境下的協(xié)同搜索場景,結(jié)合聲學(xué)和光學(xué)通信的互補(bǔ)優(yōu)勢,提出了一種基于深度強(qiáng)化學(xué)習(xí)的多auv聲光多模搜索方法。通過信息素修正概率圖,實(shí)現(xiàn)對(duì)海洋目標(biāo)的快速搜索。具體而言,信息素修正概率圖旨在提高復(fù)雜海洋環(huán)境下auv的搜索效率,利用聲光多模的通信方式增強(qiáng)了在通信受限條件下auv之間的信息共享和概率圖的利用率。
45、本發(fā)明同時(shí)考慮光對(duì)準(zhǔn)、移動(dòng)光通信和通信延遲等關(guān)鍵因素,在此基礎(chǔ)上,提出了一種基于多智能體強(qiáng)化學(xué)習(xí)的多auv聲光多模協(xié)同搜索算法,屬于首次在搜索場景中實(shí)現(xiàn)聲光多模結(jié)合。該算法通過動(dòng)態(tài)調(diào)整auv的搜索策略,優(yōu)化了auv間信息共享和目標(biāo)搜索的效率。應(yīng)用于復(fù)雜海洋環(huán)境時(shí),能顯著提高搜索成功率和響應(yīng)速度,尤其在通信受限的情況下,表現(xiàn)出更強(qiáng)的魯棒性和適應(yīng)性。該方法為未來海洋探索和監(jiān)測提供了新思路。