亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于好奇心機(jī)制下的多智能體經(jīng)驗(yàn)探索協(xié)同方法

文檔序號:40388963發(fā)布日期:2024-12-20 12:11閱讀:4來源:國知局
基于好奇心機(jī)制下的多智能體經(jīng)驗(yàn)探索協(xié)同方法

本發(fā)明涉及多智能體深度強(qiáng)化學(xué)習(xí)領(lǐng)域,具體涉及基于好奇心機(jī)制下的多智能體經(jīng)驗(yàn)探索協(xié)同方法。


背景技術(shù):

1、合作型多智能體系統(tǒng)因很多現(xiàn)實(shí)問題都可以很自然地被建模,而受到了廣泛的關(guān)注,諸如交通信號控制、傳感器網(wǎng)絡(luò)和多機(jī)器人等。多智能體深度強(qiáng)化學(xué)習(xí)是解決這些系統(tǒng)學(xué)習(xí)最優(yōu)策略的關(guān)鍵組成部分,通過在環(huán)境中不斷試錯,并在環(huán)境獎勵信號的指導(dǎo)下學(xué)習(xí)最優(yōu)策略,使預(yù)期累積獎勵最大化。盡管取得了顯著進(jìn)展,多智能體深度強(qiáng)化學(xué)習(xí)依然面臨著一個基本的困境,探索與利用的權(quán)衡,即如何在需要協(xié)調(diào)(require?coordinated)和高效探索的復(fù)雜協(xié)調(diào)任務(wù)中,使智能體能利用好現(xiàn)有策略,探索出新的行為,以尋求潛在的更好策略。

2、越有效的策略探索方法能使多智能體在復(fù)雜環(huán)境中越容易的找到最優(yōu)策略。目前傳統(tǒng)方法包括ε-greedy與boltzmann等探索方法,然而,這些方法已不滿足復(fù)雜、高維或獎勵稀疏的環(huán)境的要求,可能會導(dǎo)致次優(yōu)的學(xué)習(xí)結(jié)果。策略的探索在單智能體強(qiáng)化學(xué)習(xí)領(lǐng)域中取得了一些新的進(jìn)展,包括偽計數(shù),好奇心機(jī)制和信息增益。但是這些方法在部分可觀測、非平穩(wěn)的多智能體環(huán)境中往往表現(xiàn)不足,并不能直接應(yīng)用于多智能體深度強(qiáng)化學(xué)習(xí)算法。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是提供基于好奇心機(jī)制下的多智能體經(jīng)驗(yàn)探索協(xié)同方法,旨在解決現(xiàn)有多智能體在尋找最優(yōu)策略時無法滿足復(fù)雜、高維或獎勵稀疏的環(huán)境的要求的問題。

2、為解決上述技術(shù)問題,本發(fā)明提供基于好奇心機(jī)制下的多智能體經(jīng)驗(yàn)探索協(xié)同方法,通過結(jié)合好奇心驅(qū)使的內(nèi)在探索機(jī)制,利用多智能體積累的行為經(jīng)驗(yàn)來指導(dǎo)學(xué)習(xí)過程,促進(jìn)多智能體探索到更明智的協(xié)同策略;具體操作步驟如下:

3、步驟1:構(gòu)建多智能體決策架構(gòu);所述多智能體系統(tǒng)包括但不限于smac平臺作戰(zhàn)單元、多車輛自動駕駛控制系統(tǒng)、兵棋推演對抗系統(tǒng)等具有多個獨(dú)立個體通過協(xié)作以完成共同目標(biāo)性質(zhì)的系統(tǒng);

4、步驟2:構(gòu)建適用于多智能體決策架構(gòu)的經(jīng)驗(yàn)探索組件;

5、步驟3:構(gòu)建適用于多智能體決策架構(gòu)的好奇心機(jī)制;

6、步驟4:構(gòu)建經(jīng)驗(yàn)回放池與狀態(tài)回放池;

7、步驟5:適配多智能體協(xié)作對抗環(huán)境;

8、步驟6:對所述步驟1至5得到的基于好奇心機(jī)制下的多智能體經(jīng)驗(yàn)探索決策架構(gòu)所構(gòu)成的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到基于好奇心機(jī)制下的多智能體經(jīng)驗(yàn)探索協(xié)同策略模型;

9、步驟7:在所述基于好奇心機(jī)制下的多智能體經(jīng)驗(yàn)探索協(xié)同策略模型中,對當(dāng)前對抗場景下的多智能體協(xié)作對抗策略進(jìn)行求解。

10、本發(fā)明的特點(diǎn)還在于,

11、智能體是指能夠自主感知環(huán)境、做出決策并執(zhí)行行動的系統(tǒng),它具備自主性、交互性、反應(yīng)性和適應(yīng)性等基本特征,能夠在復(fù)雜多變的環(huán)境中獨(dú)立完成任務(wù)。智能體的核心在于其具備的學(xué)習(xí)和決策能力。智能體可以是一個坦克,一個步兵,一部手機(jī)等等。

12、步驟1具體包括:

13、步驟1.1:基于多智能體強(qiáng)化學(xué)習(xí)qmix的值網(wǎng)絡(luò)模型,在qmix中每個智能體都有一個本地的值網(wǎng)絡(luò)用于估計智能體i采取某個行動時的收益;

14、其中,θi為智能體i值網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)參數(shù);τi是第i個智能體采取的動作ai與局部觀測信息聯(lián)合組成的新向量;說明值網(wǎng)絡(luò)用于近似價值函數(shù);

15、步驟1.2:構(gòu)建基本qmix的混合網(wǎng)絡(luò)模型,qtot(τ,a,s;θ)用于估計所有智能體的合作行動的收益,s是聯(lián)合觀測值;同時,混合網(wǎng)絡(luò)引入了單調(diào)性約束,即:

16、

17、對n個智能體中的任意智能體i,通過更復(fù)雜的混合單調(diào)網(wǎng)絡(luò)的非線性變化,將智能體的合作行動收益qtot估計為每個智能體值的復(fù)雜非線性組合;

18、混合網(wǎng)絡(luò)是一種前饋神經(jīng)網(wǎng)絡(luò),將每一智能體的值網(wǎng)絡(luò)輸出作為輸入,進(jìn)行單調(diào)混合,得到qtot的值,為加強(qiáng)單調(diào)性約束,混合網(wǎng)絡(luò)的權(quán)重被限制為非負(fù),使混合網(wǎng)絡(luò)能夠任意近似任何單調(diào)函數(shù);

19、所述混合網(wǎng)絡(luò)中設(shè)置四個超網(wǎng)絡(luò),以用于生成混合網(wǎng)絡(luò)每一層的權(quán)值,每個超網(wǎng)絡(luò)由一個單一的線性層組成,并設(shè)置絕對值激活函數(shù),確保混合網(wǎng)絡(luò)中權(quán)值非負(fù);

20、在訓(xùn)練時,最小化損失值l(θ),即:

21、

22、其中,b為批的大小,n為智能體個數(shù),rtotal為重塑后的折扣獎勵,γ為折扣率,θ-是值網(wǎng)絡(luò)的參數(shù),這些參數(shù)周期性地從歷史θ記錄中復(fù)制出來,并在多次迭代中保持不變。

23、步驟2具體如下:

24、步驟2.1:構(gòu)建目標(biāo)網(wǎng)絡(luò),目標(biāo)網(wǎng)絡(luò)作為目標(biāo)值t(s)的生成,使用隨機(jī)初始化并固定的神經(jīng)網(wǎng)絡(luò)參數(shù),能將觀測狀態(tài)均勻的映射到某個特征空間,該特征空間能保證環(huán)境中決策信息被充分地映射與使用,同時生成的目標(biāo)值根據(jù)輸入狀態(tài)是固定的,不需要訓(xùn)練目標(biāo)網(wǎng)絡(luò);

25、其中,表示目標(biāo)網(wǎng)絡(luò)接收所有智能體的聯(lián)合觀測值s,并映射到k維的實(shí)數(shù)域該實(shí)數(shù)域又表示為目標(biāo)值f(s);

26、所述目標(biāo)網(wǎng)絡(luò)由兩層卷積層構(gòu)成,前一個卷積層的卷積核大小為2×2,后一個卷積層的卷積核大小為2×1,接收所有智能體的聯(lián)合觀測值,后接兩層全連接層,輸出目標(biāo)值f(s);

27、步驟2.2:構(gòu)建預(yù)測網(wǎng)絡(luò),預(yù)測網(wǎng)絡(luò)將收集與目標(biāo)網(wǎng)絡(luò)相同的所有智能體聯(lián)合觀測信息并輸出預(yù)測結(jié)果使用與目標(biāo)網(wǎng)絡(luò)相同的網(wǎng)絡(luò)結(jié)構(gòu);

28、其中,表示預(yù)測網(wǎng)絡(luò)接收所有智能體的聯(lián)合觀測值s后輸出的預(yù)測值,ψ預(yù)測網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)參數(shù);

29、對預(yù)測網(wǎng)絡(luò)進(jìn)行訓(xùn)練,對于同一輸入,通過梯度下降方式最小化期望的均方誤差從而更新預(yù)測網(wǎng)絡(luò)的參數(shù)ψ,即:

30、

31、步驟2.3:構(gòu)建內(nèi)部獎勵,通過計算目標(biāo)網(wǎng)絡(luò)與預(yù)測網(wǎng)絡(luò)對于同一輸入的均方誤差得到內(nèi)部獎勵rint,即:

32、

33、步驟2.4:重塑折扣獎獎勵rtotal,在內(nèi)部獎勵rint前加入一個約束變量,使內(nèi)部獎勵在重塑折扣獎勵rtotal的比重隨著訓(xùn)練次數(shù)增加而不斷降低,最終外部獎勵rext逐步發(fā)揮主導(dǎo)作用,使智能體能夠避免短視行為,實(shí)現(xiàn)對整個任務(wù)空間的合理探索;即:

34、rtotal=rext+w·rint(5)

35、其中,w為比重因子,即:

36、w=β·(1-0.25×10-5)step??(6)

37、β為初始權(quán)重大小,設(shè)置為當(dāng)前場景中所能獲得最大折扣獎勵的百分之十,默認(rèn)為2,隨著時間步的增加,w會不斷減??;

38、步驟2.5:重塑折扣獎勵的裁剪,為保證所有設(shè)置的超參數(shù)的適用性與獎勵的一致性,在將內(nèi)部獎勵除以內(nèi)在回報標(biāo)準(zhǔn)差的運(yùn)行估計值進(jìn)行歸一化的基礎(chǔ)上,裁剪內(nèi)部獎勵至的的區(qū)間中,η∈(0,1]是裁剪比率,代表當(dāng)前任務(wù)所能獲得的最小獎勵值,代表當(dāng)前任務(wù)所能獲得的最大獎勵值;那么內(nèi)部獎勵就為:

39、

40、最終的重塑后的折扣獎勵為:

41、

42、步驟3具體如下:

43、步驟3.1:構(gòu)建行為成功矩陣和行為失敗矩陣其中n代表智能體個數(shù),d代表智能體離散動作個數(shù),初始時矩陣值全為1;在某一時刻t,智能體i下達(dá)了其可行動作里的某一條指令j并獲得了即時獎勵rext;若rext>0,那么中對應(yīng)智能體i所下達(dá)的動作j的值就加1,否則中對應(yīng)智能體i所下達(dá)的動作j就加1,即:

44、

45、步驟3.2:構(gòu)建多智能體聯(lián)合動作行為的概率分布滿足貝塔分布beta(α,β),其中α表示當(dāng)前動作的成功次數(shù),β則表示失敗次數(shù),將每一智能體值網(wǎng)絡(luò)的評估值q與貝葉斯方法相結(jié)合來估計策略的后驗(yàn)分布;

46、q值描述著在當(dāng)前狀態(tài)下智能體所認(rèn)為的動作價值,在t時刻,智能體i接收到了局部觀測信息并計算出每一動作價值,那么所有智能體的聯(lián)合價值就為將進(jìn)行歸一化處理,間接轉(zhuǎn)換為每一動作的概率值即

47、

48、其中,表示在t時刻值網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)參數(shù),ot表示在t時刻智能體觀測到的局部狀態(tài)信息;

49、在訓(xùn)練時,假設(shè)每一動作的概率分布都有先驗(yàn)分布beta(1,1)與后驗(yàn)分布beta(α+1,β+1);隨著訓(xùn)練的不斷進(jìn)行,成功矩陣與失敗矩陣內(nèi)的智能體行為的對應(yīng)值不斷累積加1,α+β會逐步變大,貝塔分布將就會變窄,若α>β說明當(dāng)前動作能帶來對抗優(yōu)勢,否則表示當(dāng)前動作會產(chǎn)生負(fù)反饋;

50、步驟3.2:多智能體聯(lián)合動作行為的探索,在訓(xùn)練時t時刻,從后驗(yàn)分布中采樣,得到采樣結(jié)果μt,即:

51、

52、通過選擇μt中每一值最大的動作,即得到智能體的聯(lián)合動作即:

53、

54、步驟4具體如下:

55、步驟4.1:在t回合的多智能體協(xié)作對抗結(jié)束后,將t+1回合開始前t回合的所有智能體聯(lián)合觀測st,t+1回合開始前t回合的局部觀測ot,t+1回合開始前t回合的值網(wǎng)絡(luò)gru狀態(tài)參數(shù)ht,q,每一智能體的聯(lián)合動作所獲得的重塑獎勵t+1回合的所有智能體聯(lián)合觀測st+1與每一智能體的局部觀測ot+1作為一個張量存入經(jīng)驗(yàn)回放池中;將t+1回合開始前t回合的所有智能體聯(lián)合觀測st作為一個張量[st]存入狀態(tài)回放池中;

56、其中,經(jīng)驗(yàn)回放池與狀態(tài)回放池可存放m個張量,m設(shè)置在1e6到1e7之間;

57、步驟4.2:在值網(wǎng)絡(luò)與混合網(wǎng)絡(luò)的每次訓(xùn)練時,將從經(jīng)驗(yàn)回放池中隨機(jī)抽取最小批個張量,根據(jù)混合網(wǎng)絡(luò)的損失值進(jìn)行訓(xùn)練;同樣的,在預(yù)測網(wǎng)絡(luò)的每次訓(xùn)練時,從狀態(tài)回放池中隨機(jī)抽取最小批個張量,根據(jù)期望的均方誤差進(jìn)行訓(xùn)練,最小批的大小為64。

58、步驟5具體如下:

59、步驟5.1:接收每一回合開始多智能體協(xié)作對抗環(huán)境給出的局部觀測與全局觀測,局部觀測作為值網(wǎng)絡(luò)的輸入,全局觀測作為混合網(wǎng)絡(luò)、目標(biāo)網(wǎng)絡(luò)、預(yù)測網(wǎng)絡(luò)的輸入;

60、步驟5.2:值網(wǎng)絡(luò)輸出的動作q值與多智能體協(xié)作對抗環(huán)境中指令的映射。

61、其中,在值網(wǎng)絡(luò)計算動作概率集時,將當(dāng)前狀態(tài)下,多智能體不可行的動作的編號,與所對應(yīng)的值設(shè)置為負(fù)無窮。

62、步驟6具體如下:

63、步驟6.1:初始化超參數(shù)

64、設(shè)置經(jīng)驗(yàn)回放池大小為1e6,設(shè)置最小批為64,設(shè)置神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率為5e-4,設(shè)置gru隱藏層為64,設(shè)置內(nèi)部獎勵與外部獎勵的折扣回報率為0.99,設(shè)置預(yù)測網(wǎng)絡(luò)與目標(biāo)網(wǎng)絡(luò)的輸出維度為128;

65、步驟6.2:根據(jù)當(dāng)前多智能體協(xié)作測試平臺smac對抗場景的智能體個數(shù),局部觀測空間維度,動作空間維度,通過步驟1,設(shè)置值網(wǎng)絡(luò)前端多層感知器的輸入大小,和值網(wǎng)絡(luò)末端多層感知器的輸出大??;通過步驟2,設(shè)置預(yù)測網(wǎng)絡(luò)與目標(biāo)網(wǎng)絡(luò)外端卷積層的輸入大小,初始化目標(biāo)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)參數(shù)并固定。通過步驟3,初始化成功矩陣和失敗矩陣為全1矩陣;

66、步驟6.3:在對抗場景的每一回合的開始,接收局部觀察信息輸入至每一智能體的值網(wǎng)絡(luò)中,計算出該智能體所有動作的q值并將不可行的動作設(shè)置為負(fù)無窮;。隨后,將每一智能體的與全局信息輸入至混合網(wǎng)絡(luò)中計算得出智能體的聯(lián)合q值qtot,根據(jù)步驟3.2將成功矩陣、失敗矩陣和qtot得到多智能體的聯(lián)合動作的后驗(yàn)分布beta(α,β)進(jìn)行采樣,并選擇每一智能體動作的最大值構(gòu)成多智能體的聯(lián)合動作,并指揮紅方與藍(lán)方進(jìn)行對抗;

67、步驟6.4:在對抗場景的每一回合結(jié)束前,接收全局觀測信息與外部獎勵,將全局觀測輸入至目標(biāo)網(wǎng)絡(luò)與預(yù)測網(wǎng)絡(luò)并根據(jù)步驟2.3計算內(nèi)部獎勵,將外部獎勵根據(jù)步驟2.5得到重塑獎勵,同時,根據(jù)步驟3.1更新成功矩陣與失敗矩陣;

68、步驟6.5:經(jīng)驗(yàn)回放池與狀態(tài)回放池分別收集訓(xùn)練數(shù)據(jù)并存儲。

69、步驟6.6:對每個epoch,根據(jù)經(jīng)驗(yàn)回放池的數(shù)據(jù)抽取最小批訓(xùn)練策略網(wǎng)絡(luò)與全局價值網(wǎng)絡(luò);根據(jù)狀態(tài)回放池的數(shù)據(jù)抽取最小批訓(xùn)練預(yù)測網(wǎng)絡(luò);

70、步驟6.7:每經(jīng)過5000個epoch,進(jìn)行32次獨(dú)立的對抗,計算平均勝率,評估當(dāng)前的多智能體的智能性;

71、步驟6.8:多智能體的平均勝率達(dá)到1或epoch總數(shù)達(dá)到1e6,訓(xùn)練完成,保存為基于好奇心機(jī)制下的多智能體經(jīng)驗(yàn)探索協(xié)同模型;

72、步驟7具體如下:

73、根據(jù)對抗場景給出的局部觀測信息,輸入至基于好奇心機(jī)制下的多智能體經(jīng)驗(yàn)探索協(xié)同策略模型的每一智能體的值網(wǎng)絡(luò)中,得到每一智能體的動作q值并將其連同對抗場景給出的全局信息輸入至混合網(wǎng)絡(luò)中,得到聯(lián)合動作q值qtot,每一智能體選擇qtot中q值最大的對應(yīng)動作構(gòu)成聯(lián)合動作,求解出當(dāng)前多智能體協(xié)作對抗策略。

74、本發(fā)明的有益效果是:

75、(1)本發(fā)明基于好奇心機(jī)制下的多智能體經(jīng)驗(yàn)探索協(xié)同方法,以提高智能體平衡探索和利用的能力。通過重塑外部環(huán)境獎勵和內(nèi)在探索機(jī)制,鼓勵多智能體更多地發(fā)現(xiàn)不熟悉的環(huán)境狀態(tài),探索潛在的更優(yōu)策略。同時,多智能體在動作選擇時能利用過去軌跡中動作執(zhí)行結(jié)果的反饋經(jīng)驗(yàn),幫助多智能體根據(jù)環(huán)境動態(tài)的進(jìn)行有經(jīng)驗(yàn)的探索。通過結(jié)合好奇心驅(qū)使的內(nèi)在探索機(jī)制,與利用多智能體積累的行為經(jīng)驗(yàn)來指導(dǎo)學(xué)習(xí)的過程,使多智能體面臨局部最優(yōu)解時能夠更有效地逃離,并收斂到全局最優(yōu)解,促進(jìn)多智能體探索到更明智的策略。

76、(2)本發(fā)明在基礎(chǔ)qmix算法的基礎(chǔ)上,引入了好奇心與經(jīng)驗(yàn)探索機(jī)制,在訓(xùn)練時幫助多智能體重塑獎勵函數(shù),動態(tài)量化環(huán)境狀態(tài)的新穎性,緩解對抗環(huán)境獎勵稀疏性的同時,鼓勵多智能體積極探索“新”狀態(tài),以求探索未知的行動策略,同時,利用已有的成功與失敗經(jīng)驗(yàn)進(jìn)一步探索,探索到合理甚至更優(yōu)的對抗策略。基于好奇心機(jī)制下的多智能體經(jīng)驗(yàn)探索協(xié)同方法提高了多智能體的探索能力,幫助多智能體有經(jīng)驗(yàn)的進(jìn)行策略探索,避免算法過早收斂的同時提高了學(xué)習(xí)的效率。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1