本發(fā)明屬于邊緣網(wǎng)絡(luò),更為具體地講,涉及一種基于多目標(biāo)深度強(qiáng)化學(xué)習(xí)的數(shù)字孿生體部署方法。
背景技術(shù):
1、隨著物聯(lián)網(wǎng)(iot)、下一代移動(dòng)通信(6g)和人工智能(ai)等技術(shù)快速發(fā)展,城市移動(dòng)用戶數(shù)據(jù)和信息呈指數(shù)增長(zhǎng)。移動(dòng)用戶通過(guò)與虛擬空間交互信息來(lái)實(shí)現(xiàn)對(duì)物理空間的監(jiān)測(cè)、預(yù)測(cè)分析以及決策支持,受到研究者們廣泛關(guān)注。數(shù)字孿生(dt)作為一種將虛擬世界和物理世界結(jié)合的變革性技術(shù),被認(rèn)為是解決上述挑戰(zhàn)最有前途的技術(shù)之一。然而,在實(shí)際部署中,數(shù)字孿生對(duì)持續(xù)低延遲和大量計(jì)算資源的需求很難同時(shí)滿足,這給用戶數(shù)字孿生的放置問(wèn)題帶來(lái)了挑戰(zhàn)。
2、近年來(lái),移動(dòng)邊緣計(jì)算(mec)的快速興起為數(shù)字孿生的放置帶來(lái)了新的機(jī)遇。通過(guò)將低延遲和豐富的計(jì)算資源帶到靠近用戶的網(wǎng)絡(luò)邊緣,大大縮短了用戶與邊緣服務(wù)器之間的距離。在數(shù)字孿生和移動(dòng)邊緣計(jì)算的結(jié)合中,mec分布式的邊緣節(jié)點(diǎn),為用戶數(shù)字孿生的放置提供充足資源的同時(shí)能夠有效的維持其持續(xù)低延遲交互。因此,數(shù)字孿生作為6g中最有前途的技術(shù)之一,將被廣泛放置在邊緣網(wǎng)絡(luò)中,旨在減小用戶與其數(shù)字孿生之間的實(shí)時(shí)交互延遲。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于多目標(biāo)深度強(qiáng)化學(xué)習(xí)的數(shù)字孿生體部署方法,設(shè)置多個(gè)優(yōu)化目標(biāo),采用多目標(biāo)深度強(qiáng)化學(xué)習(xí)來(lái)確定數(shù)字孿生體的部署策略,提高數(shù)字孿生邊緣網(wǎng)絡(luò)的合理性和工作性能。
2、為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明基于多目標(biāo)深度強(qiáng)化學(xué)習(xí)的數(shù)字孿生體部署方法包括以下步驟:
3、s1:獲取數(shù)字孿生邊緣網(wǎng)絡(luò)中用戶集合為u={u1,u2,...,un},un表示第n個(gè)用戶,n=1,2,…,n,n表示用戶數(shù)量,智能反射表面集合為i={i1,i2,...,ik},ik表示第k個(gè)智能反射表面,k=1,2,…,k,k表示智能反射表面數(shù)量,邊緣服務(wù)器集合為e={e1,e2,...,em},em表示第m個(gè)邊緣服務(wù)器,m=1,2,…,m,m表示邊緣服務(wù)器數(shù)量;
4、s2:為每個(gè)用戶un設(shè)置一個(gè)多目標(biāo)深度強(qiáng)化學(xué)習(xí)模型,參數(shù)設(shè)置如下:
5、狀態(tài):狀態(tài)s(t)={su1(t),…,sun(t),si1(t),…,sik(t),se1(t),…,sem(t)},其中sun(t)表示用戶un在時(shí)刻t的狀態(tài)信息,包括位置、速度、波束成形矢量,sik(t)表示智能反射表面ik的狀態(tài)信息,包括位置、反射參數(shù),sem(t)表示邊緣服務(wù)器em的狀態(tài)信息,包括位置和總資源量;
6、動(dòng)作:設(shè)置動(dòng)作其中xn,m=1表示用戶un的數(shù)字孿生部署至邊緣服務(wù)器em,否則xn,m=0;
7、獎(jiǎng)勵(lì)函數(shù):獎(jiǎng)勵(lì)函數(shù)r的計(jì)算公式如下:
8、
9、其中,i表示三維單位向量,f=[tsyn(t),eccom(t),-ldos(t)]表示目標(biāo)函數(shù)向量,tsyn(t)表示總體同步延遲,計(jì)算方法如下:
10、計(jì)算智能反射表面輔助下用戶un和邊緣服務(wù)器em之間的信號(hào)傳輸速率rn,m(t):
11、
12、其中,pn,m(t)表示考慮路徑損耗下的用戶un對(duì)邊緣服務(wù)器em的傳輸功率,其計(jì)算公式如下:
13、
14、γκ噪比閾值,d0是參考距離,α是路徑損耗指數(shù),dn,m(t)表示時(shí)刻t時(shí)用戶un和邊緣服務(wù)器em之間的距離;n0表示噪聲功率譜密度,b表示信道帶寬,νn(t)是時(shí)刻t時(shí)用戶un的波束成形矢量,表示智能反射表面輔助下用戶un和邊緣服務(wù)器em的通道矢量:
15、
16、其中,hn,m(t)表示用戶un和邊緣服務(wù)器em之間的信道增益:
17、
18、λα表示路徑衰落因子,εκ表示失真因子,dn,m(t)表示時(shí)刻t時(shí)用戶un和邊緣服務(wù)器em之間的距離;為時(shí)刻t時(shí)用戶un與智能反射表面ik之間的通道增益,dn,k(t)表示時(shí)刻t時(shí)用戶un到智能反射表面ik的距離,表示智能反射表面ik和邊緣服務(wù)器em之間的通道增益,dk,m表示智能反射表面ik到邊緣服務(wù)器em之間的距離,θk表示智能反射表面ik的反射參數(shù);
19、計(jì)算時(shí)刻t時(shí)用戶un傳輸實(shí)時(shí)運(yùn)行數(shù)據(jù)dn到邊緣服務(wù)器em的傳輸延遲
20、
21、其中,|dn|表示實(shí)時(shí)運(yùn)行數(shù)據(jù)dn的大??;
22、計(jì)算時(shí)刻t時(shí)用戶un傳輸實(shí)時(shí)運(yùn)行數(shù)據(jù)dn到邊緣服務(wù)器em上的處理時(shí)間
23、
24、fn,m(t)表示時(shí)刻t時(shí)用戶un消耗邊緣服務(wù)器em的計(jì)算資源;
25、采用如下公式計(jì)算時(shí)刻t時(shí)單位時(shí)間的用戶un的數(shù)字孿生的同步時(shí)延為:
26、
27、δdn表示用戶un單位時(shí)間內(nèi)的傳輸數(shù)據(jù)大??;
28、采用如下公式計(jì)算總體交互延遲tsyn(t):
29、
30、eccom(t)表示總體交互能耗,計(jì)算方法如下:
31、采用如下公式計(jì)算用戶un對(duì)邊緣服務(wù)器em進(jìn)行實(shí)時(shí)交互數(shù)據(jù)的能耗ecn,m(t):
32、
33、然后采用如下公式計(jì)算總體交互能耗eccom(t):
34、
35、ldos(t)表示總體服務(wù)時(shí)長(zhǎng),計(jì)算方法如下:
36、計(jì)算用戶un經(jīng)過(guò)邊緣服務(wù)器em服務(wù)范圍內(nèi)的路徑長(zhǎng)度jn,m(t):
37、
38、表示用戶un在時(shí)刻t的位置坐標(biāo),表示邊緣服務(wù)器em在時(shí)刻t的位置坐標(biāo),rn,m表示以邊緣服務(wù)器em為圓心,半徑為的圓;
39、采用如下公式計(jì)算邊緣服務(wù)器em為用戶un所提供的服務(wù)時(shí)長(zhǎng)
40、
41、其中,表示用戶un的移動(dòng)平均速度;
42、然后采用如下公式計(jì)算總體服務(wù)時(shí)長(zhǎng)ldos(t):
43、
44、表示懲罰項(xiàng),其計(jì)算公式如下:
45、
46、其中,μ表示懲罰系數(shù),ks[g]表示約束項(xiàng)的聚合項(xiàng),其表達(dá)式如下:
47、
48、ρ是預(yù)設(shè)的正常數(shù),gi表示第i個(gè)約束項(xiàng),i=1,2,…,6,gmax表示所有約束項(xiàng)的最大值,每個(gè)約束項(xiàng)表達(dá)式如下:
49、g1:-pn,m(t)≤0
50、g2:pn.m(t)-pmax≤0
51、g3:
52、g4:fn,m(t)-fm≤0
53、g5:
54、g6:
55、其中,pmax表示最大無(wú)線傳輸功率,表示最大延遲,fm表示邊緣服務(wù)器em的總資源量,κ為一個(gè)大于0小于1的常數(shù),an,k為布爾變量,an,k=1時(shí)表示用戶un由智能反射表面ik輔助與邊緣服務(wù)器信息交互,否則an,k=0;
56、s3:構(gòu)建多目標(biāo)深度強(qiáng)化學(xué)習(xí)模型,包括策略網(wǎng)絡(luò)θ和評(píng)價(jià)網(wǎng)絡(luò)q,其中評(píng)價(jià)網(wǎng)絡(luò)q基于深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),將狀態(tài)和偏好向量輸入該深度神經(jīng)網(wǎng)絡(luò),輸出大小為3na的q值向量,na表示動(dòng)作空間的大小,然后訓(xùn)練多目標(biāo)深度強(qiáng)化學(xué)習(xí)模型,具體方法為:
57、s3.1:隨機(jī)初始化策略網(wǎng)絡(luò)θ和評(píng)價(jià)網(wǎng)絡(luò)q的參數(shù),并復(fù)制作為目標(biāo)策略網(wǎng)絡(luò)θ′和目標(biāo)評(píng)價(jià)網(wǎng)絡(luò)q′;
58、s3.2:建立回放緩沖區(qū)d并對(duì)其進(jìn)行初始化;
59、s3.3:將偏好向量w=(w1,w2,w3)的取值空間ω劃分為c個(gè)偏好子空間c=1,2,…,c,wj表示第j個(gè)優(yōu)化目標(biāo)的權(quán)重;
60、s3.4:令訓(xùn)練輪次z=1;
61、s3.5:初始化時(shí)刻t=0,獲取初始狀態(tài)s(0);
62、s3.6:為每個(gè)偏好子空間啟動(dòng)一個(gè)子進(jìn)程用于生成經(jīng)驗(yàn)樣本,具體方法為:
63、從當(dāng)前子空間中采樣一個(gè)偏好向量w=(w1,w2,w3);由策略網(wǎng)絡(luò)θ根據(jù)狀態(tài)s(t)進(jìn)行動(dòng)作選擇得到動(dòng)作a(t),根據(jù)狀態(tài)s(t)和動(dòng)作an(t)得到下一時(shí)刻的狀態(tài)s(t+1)和獎(jiǎng)勵(lì)r(t);將狀態(tài)轉(zhuǎn)移數(shù)據(jù)(s(t),a(t),r(t),w,s(t+1))作為經(jīng)驗(yàn)樣本存儲(chǔ)至回放緩沖區(qū)d中;如果經(jīng)驗(yàn)回放緩存池d中經(jīng)驗(yàn)樣本數(shù)量超出其預(yù)定容量,按照既定規(guī)則刪除多余經(jīng)驗(yàn)樣本;
64、然后從當(dāng)前經(jīng)驗(yàn)回放緩存池d的所有經(jīng)驗(yàn)樣本中隨機(jī)采樣nw個(gè)偏好向量wv,v=1,2,…,nw;然后將nw個(gè)狀態(tài)轉(zhuǎn)移數(shù)據(jù)(s(t),a(t),r(t),wv,s(t+1))作為經(jīng)驗(yàn)樣本存儲(chǔ)至回放緩沖區(qū)d;
65、s3.7:從經(jīng)驗(yàn)回放緩存池d中采樣b個(gè)轉(zhuǎn)換狀態(tài)數(shù)據(jù);
66、s3.8:使用插值器對(duì)b個(gè)轉(zhuǎn)換狀態(tài)數(shù)據(jù)中每個(gè)偏好向量分別進(jìn)行插值,將偏好向量的維度與q值向量的維度對(duì)齊,得到插值后的偏好向量;
67、s3.9:對(duì)于經(jīng)過(guò)偏好向量插值后的b個(gè)轉(zhuǎn)換狀態(tài)數(shù)據(jù),使用目標(biāo)評(píng)價(jià)網(wǎng)絡(luò)q′對(duì)動(dòng)作進(jìn)行估值得到動(dòng)作的價(jià)值yb:
68、
69、其中,γ表示折扣因子,rb表示第b個(gè)轉(zhuǎn)換狀態(tài)數(shù)據(jù)中的獎(jiǎng)勵(lì),表示第b個(gè)轉(zhuǎn)換狀態(tài)數(shù)據(jù)中插值后的偏好向量,ab′、sb′分別表示第b個(gè)轉(zhuǎn)換狀態(tài)數(shù)據(jù)中下一時(shí)刻的動(dòng)作和狀態(tài),q′()表示目標(biāo)評(píng)價(jià)網(wǎng)絡(luò)q′所得到的q值向量,sc()表示求取相似度,上標(biāo)t表示轉(zhuǎn)置;
70、計(jì)算損失函數(shù)l(θ)并對(duì)策略網(wǎng)絡(luò)的參數(shù)進(jìn)行更新;
71、s3.10:判斷是否t<t,t表示預(yù)設(shè)的最大時(shí)間步,如果是,進(jìn)入步驟s3.11,否則進(jìn)入步驟s3.12;
72、s3.11:令t=t+1,返回步驟s3.6;
73、s3.12:計(jì)算評(píng)價(jià)網(wǎng)絡(luò)q的梯度,對(duì)評(píng)價(jià)網(wǎng)絡(luò)的參數(shù)進(jìn)行更新;
74、s3.13:判斷是否z<z,z表示預(yù)設(shè)的最大訓(xùn)練輪次,如果是,進(jìn)入步驟s3.14,否則訓(xùn)練結(jié)束;
75、s3.14:判斷是否z%η=0,η表示目標(biāo)網(wǎng)絡(luò)更新周期,如果是,進(jìn)入步驟s3.15,否則進(jìn)入s3.16;
76、s3.15:更新目標(biāo)網(wǎng)絡(luò)參數(shù):
77、更新目標(biāo)評(píng)價(jià)網(wǎng)絡(luò)和目標(biāo)策略網(wǎng)絡(luò)參數(shù):
78、q′←τq+(1-τ)q′
79、θ′←τθ+(1-τ)θ′
80、其中,τ表示預(yù)設(shè)的權(quán)重。
81、s3.16:令z=z+1,返回步驟s3.5;
82、s4:采集當(dāng)前數(shù)字孿生邊緣網(wǎng)絡(luò)中各個(gè)用戶、各個(gè)智能反射表面和各個(gè)邊緣服務(wù)器的狀態(tài)信息構(gòu)建狀態(tài)s,然后采用步驟s3.3訓(xùn)練好的策略網(wǎng)絡(luò)確定最優(yōu)動(dòng)作a,從而確定每個(gè)用戶的數(shù)字孿生所部署的邊緣服務(wù)器序號(hào),得到數(shù)字孿生部署策略。
83、本發(fā)明基于多目標(biāo)深度強(qiáng)化學(xué)習(xí)的數(shù)字孿生體部署方法,針對(duì)數(shù)字孿生邊緣網(wǎng)絡(luò)進(jìn)行分析,構(gòu)建多目標(biāo)深度強(qiáng)化學(xué)習(xí)模型的狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)函數(shù),在狀態(tài)中引入用戶和智能反射表面的連接關(guān)系,在獎(jiǎng)勵(lì)函數(shù)中引入約束項(xiàng)的懲罰函數(shù),然后對(duì)多目標(biāo)深度強(qiáng)化學(xué)習(xí)模型進(jìn)行設(shè)置和訓(xùn)練,實(shí)時(shí)獲取當(dāng)前數(shù)字孿生邊緣網(wǎng)絡(luò)的狀態(tài)信息,采用訓(xùn)練好的多目標(biāo)深度強(qiáng)化學(xué)習(xí)模型確定各個(gè)數(shù)字孿生體部署的目標(biāo)邊緣服務(wù)器。
84、本發(fā)明具有以下有益效果:
85、1)本發(fā)明所構(gòu)建的數(shù)字孿生邊緣網(wǎng)絡(luò)的模型結(jié)合了用戶數(shù)字孿生、移動(dòng)邊緣計(jì)算和智能反射表面技術(shù)(irs),采用irs技術(shù)優(yōu)化系統(tǒng)的無(wú)線通信環(huán)節(jié),使用邊緣網(wǎng)絡(luò)中分布式的計(jì)算和存儲(chǔ)資源優(yōu)化數(shù)字孿生的維護(hù)環(huán)節(jié);
86、2)本發(fā)明在多目標(biāo)深度強(qiáng)化學(xué)習(xí)模型的獎(jiǎng)勵(lì)函數(shù)設(shè)置中設(shè)置了交互延遲、能耗和服務(wù)時(shí)長(zhǎng)作為優(yōu)化目標(biāo),使最終得到的數(shù)字孿生體部署策略更加合理;
87、3)本發(fā)明在多目標(biāo)深度強(qiáng)化學(xué)習(xí)模型的訓(xùn)練過(guò)程中,采用kreisselmeier-steinhauser(ks)約束聚合方法將多約束聚合為一個(gè)單一約束,進(jìn)一步將單一約束轉(zhuǎn)化為目標(biāo)函數(shù)中的懲罰函數(shù),以實(shí)現(xiàn)無(wú)約束問(wèn)題的轉(zhuǎn)化。