本發(fā)明屬于通信,尤其涉及一種基于用戶體驗(yàn)質(zhì)量的網(wǎng)絡(luò)切片編排方法。
背景技術(shù):
1、網(wǎng)絡(luò)切片的編排是在同一物理網(wǎng)絡(luò)上創(chuàng)建和管理多個虛擬切片的過程,旨在滿足不同業(yè)務(wù)需求并提供定制化服務(wù)。確保每個切片符合其服務(wù)標(biāo)準(zhǔn),以支持諸如物聯(lián)網(wǎng)、高速數(shù)據(jù)和低延遲通信等應(yīng)用,同時(shí)提升資源效率和用戶體驗(yàn)。
2、目前,已經(jīng)有大量學(xué)者對于5g網(wǎng)絡(luò)切片編排策略進(jìn)行了大量研究和分析。在他們的研究中,既有傳統(tǒng)的研究方法,創(chuàng)建一個編排系統(tǒng)或者對編排過程進(jìn)行新劃分等;又有機(jī)器學(xué)習(xí)方法,采用諸如各種深度學(xué)習(xí)網(wǎng)絡(luò)(dqn、lstm、ddpg)來進(jìn)行網(wǎng)絡(luò)切片編排。但這些研究大都側(cè)重于提升用戶服務(wù)質(zhì)量(qos)這一指標(biāo),而相對忽視了用戶體驗(yàn)質(zhì)量(qoe)的重要性。然而,對于5g甚至未來的超5g網(wǎng)絡(luò)環(huán)境,用戶體驗(yàn)質(zhì)量作為一種以用戶感知為中心的評價(jià)指標(biāo),其重要性日益凸顯。與僅從技術(shù)參數(shù)出發(fā)的服務(wù)質(zhì)量不同,用戶體驗(yàn)質(zhì)量更加注重用戶的實(shí)際感受和滿意度,是評價(jià)網(wǎng)絡(luò)服務(wù)優(yōu)越性的更加全面和直觀的標(biāo)準(zhǔn)。因此,未來的網(wǎng)絡(luò)切片編排方案應(yīng)更多地考慮用戶體驗(yàn)質(zhì)量,以真正滿足用戶的需求和期待,推動5g及未來網(wǎng)絡(luò)技術(shù)的發(fā)展與優(yōu)化。為此提出一種基于用戶體驗(yàn)質(zhì)量的網(wǎng)絡(luò)切片編排方法。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于用戶體驗(yàn)質(zhì)量的網(wǎng)絡(luò)切片編排方法,旨在解決上述背景技術(shù)中提出的問題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
3、一種基于用戶體驗(yàn)質(zhì)量的網(wǎng)絡(luò)切片編排方法,所述方法將qos轉(zhuǎn)換為qoe,并將qoe與成本因素相結(jié)合提出相應(yīng)的優(yōu)化目標(biāo),采用vmgmdqn算法進(jìn)行求解;所述vmgmdqn算法的輸入為強(qiáng)化學(xué)習(xí)相關(guān)參數(shù)集ω、最大迭代次數(shù)max_iter和網(wǎng)絡(luò)資源集σ,輸出為最佳映射策略xbest,vmgmdqn算法的具體步驟如下:
4、步驟1、初始化,包括智能體集合初始化、強(qiáng)化學(xué)習(xí)環(huán)境初始化;
5、步驟2、迭代學(xué)習(xí),算法進(jìn)入一個雙層迭代循環(huán),外層循環(huán)控制迭代的輪數(shù),內(nèi)層循環(huán)代表智能體集合中的元素?cái)?shù)目;
6、步驟3、進(jìn)化機(jī)制,包括評分和排序、策略參數(shù)交叉、策略參數(shù)變異、累計(jì)獎勵和新集合生成;
7、步驟4、結(jié)束和輸出:完成所有迭代后,算法結(jié)束,返回最佳映射策略。
8、進(jìn)一步的,所述步驟1的具體過程如下:
9、智能體集合初始化:創(chuàng)建智能體集合agents,每個智能體執(zhí)行一種從vnf到物理網(wǎng)絡(luò)的映射策略;
10、強(qiáng)化學(xué)習(xí)環(huán)境初始化:定義狀態(tài)空間st、動作空間ac和獎勵函數(shù)re。
11、進(jìn)一步的,所述步驟2的具體過程如下:
12、觀察和重置:在每一輪迭代開始時(shí),觀察初始狀態(tài)s,s屬于狀態(tài)集合st;并重置環(huán)境準(zhǔn)備新一輪的映射過程;
13、映射過程:若映射過程未結(jié)束,則采用ε-貪心策略選擇動作a,a屬于動作集合ac;執(zhí)行動作a后獲得新狀態(tài)s'和獎勵r;智能體通過式1與式2計(jì)算執(zhí)行動作的收益期望,并更新當(dāng)前狀態(tài);
14、式1如下:
15、
16、式2如下:
17、
18、其中,π是智能體采取的策略;pro是狀態(tài)轉(zhuǎn)移概率函數(shù),于狀態(tài)s執(zhí)行動作a,進(jìn)入新狀態(tài)s',并產(chǎn)生立即獎勵re(s,a)的這一過渡遵循概率pro(s'∣s,a);vπ為狀態(tài)價(jià)值函數(shù),表示從給定狀態(tài)s開始,遵循策略π的收益;qπ是動作價(jià)值函數(shù),表示在給定狀態(tài)s下采取動作a,并遵循策略π的預(yù)期回報(bào);
19、記錄和評估:記錄智能體j最終獲得的獎勵分?jǐn)?shù)。
20、進(jìn)一步的,所述步驟3的具體過程如下:
21、評分和排序:在特定的迭代間隔,根據(jù)每個智能體的獎勵分?jǐn)?shù)進(jìn)行評分和排序,選出精英集合eagent;
22、策略參數(shù)交叉:隨機(jī)選出eagent中的一對智能體agentc,1,agentc,2,按概率apc交換智能體agentc,1,agentc,2的策略參數(shù);將產(chǎn)生的新智能體加入到新智能體集合newagents中;
23、策略參數(shù)變異:隨機(jī)選出eagent中的一個智能體agentm,以一定概率apm隨機(jī)選擇策略參數(shù)進(jìn)行變異操作,即對選定的參數(shù)應(yīng)用小的隨機(jī)擾動;將產(chǎn)生的新智能體加入到newagents中;
24、累計(jì)獎勵和新集合生成:計(jì)算新智能體集合newagents中各智能體對應(yīng)策略的累計(jì)獎勵newre;根據(jù)newre,以一定概率接受壞的個體并生成新的agents集合。
25、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
26、針對虛擬網(wǎng)絡(luò)功能(vnf)編排過程中常見的網(wǎng)絡(luò)資源利用率低以及用戶體驗(yàn)低下等問題,本發(fā)明以用戶體驗(yàn)質(zhì)量(qoe)為核心,提出了一種網(wǎng)絡(luò)切片編排方法。該方法將傳統(tǒng)的網(wǎng)絡(luò)服務(wù)質(zhì)量(qos)指標(biāo)轉(zhuǎn)換為更直觀的用戶體驗(yàn)指標(biāo)qoe,并將其與成本因素相結(jié)合提出相應(yīng)的優(yōu)化目標(biāo)。隨后,提出了一種進(jìn)化強(qiáng)化學(xué)習(xí)算法(vmgmdqn)來進(jìn)行解決。仿真結(jié)果證明,該方法能有效提升網(wǎng)絡(luò)的總體效益,實(shí)現(xiàn)更合理的vnf映射并極大的提高了用戶體驗(yàn)質(zhì)量。簡而言之,該方法獲得了一個從虛擬節(jié)點(diǎn)到物理節(jié)點(diǎn)的最佳部署方案,既能節(jié)約資源,又能取得較優(yōu)的效果。
1.一種基于用戶體驗(yàn)質(zhì)量的網(wǎng)絡(luò)切片編排方法,其特征在于,所述方法將qos轉(zhuǎn)換為qoe,并將qoe與成本因素相結(jié)合提出相應(yīng)的優(yōu)化目標(biāo),采用vmgmdqn算法進(jìn)行求解;所述vmgmdqn算法的輸入為強(qiáng)化學(xué)習(xí)相關(guān)參數(shù)集ω、最大迭代次數(shù)max_iter和網(wǎng)絡(luò)資源集σ,輸出為最佳映射策略xbest,vmgmdqn算法的具體步驟如下:
2.根據(jù)權(quán)利要求1所述的基于用戶體驗(yàn)質(zhì)量的網(wǎng)絡(luò)切片編排方法,其特征在于,所述步驟1的具體過程如下:
3.根據(jù)權(quán)利要求1所述的基于用戶體驗(yàn)質(zhì)量的網(wǎng)絡(luò)切片編排方法,其特征在于,所述步驟2的具體過程如下:
4.根據(jù)權(quán)利要求1所述的基于用戶體驗(yàn)質(zhì)量的網(wǎng)絡(luò)切片編排方法,其特征在于,所述步驟3的具體過程如下: