專利名稱:基于強(qiáng)化學(xué)習(xí)的異構(gòu)網(wǎng)絡(luò)資源管理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種特別用于異構(gòu)網(wǎng)絡(luò)環(huán)境中的無線資源管理方法,并采用了強(qiáng)化學(xué)習(xí)的控制策略,屬于通信技術(shù)領(lǐng)域。
背景技術(shù):
隨著無線通信技術(shù)的快速發(fā)展,出現(xiàn)了多種無線接入技術(shù)并存的局面,由于這些無線接入系統(tǒng)都是專門針對(duì)某些特定的業(yè)務(wù)類型和用戶群體而設(shè)計(jì)的,所以在網(wǎng)絡(luò)的覆蓋范圍、可用帶寬、資費(fèi)水平、對(duì)用戶移動(dòng)性的支持和服務(wù)質(zhì)量(QoQ保證等方面都存在一定的差異性,這種針對(duì)特定業(yè)務(wù)類型而專門設(shè)計(jì)的無線接入系統(tǒng)己經(jīng)無法再滿足用戶日益復(fù)雜多變的業(yè)務(wù)需求。由于現(xiàn)在的各種無線接入系統(tǒng)在很多區(qū)域內(nèi)都是重疊覆蓋的,因此可以將這些相互重疊的不同類型的無線接入系統(tǒng)智能地融合在一起,共同為用戶提供隨時(shí)隨地的無線接入服務(wù),從而構(gòu)成了一種異構(gòu)無線網(wǎng)絡(luò)(Heterogeneous Wireless Networks, HWN)。所謂異構(gòu)(heterogenoous)其實(shí)是指兩個(gè)無線接入系統(tǒng)采用了不同的無線接入技術(shù),或者是采用相同的無線接入技術(shù)但屬于不同的無線運(yùn)營商。在異構(gòu)無線網(wǎng)絡(luò)中,用戶可以根據(jù)業(yè)務(wù)需要和網(wǎng)絡(luò)狀態(tài)等因素隨時(shí)選擇接入到最合適的那個(gè)無線接入系統(tǒng)中,從而滿足用戶靈活多變的個(gè)性化業(yè)務(wù)需求。另外,通過合理的無線資源管理,可以充分利用異構(gòu)無線網(wǎng)絡(luò)中各種無線接入系統(tǒng)的基礎(chǔ)設(shè)施和頻率資源,充分激發(fā)這些系統(tǒng)的潛能,共同為用戶提供單系統(tǒng)運(yùn)營模式下所無法支持的業(yè)務(wù)和功能,從而在滿足用戶復(fù)雜多變的個(gè)性化業(yè)務(wù)需求的同時(shí)提高無線運(yùn)營商的利潤水平為了實(shí)現(xiàn)異構(gòu)網(wǎng)絡(luò)的真正融合,無線資源管理已經(jīng)成為異構(gòu)網(wǎng)絡(luò)中的關(guān)鍵技術(shù)之一。為此人們針對(duì)異構(gòu)網(wǎng)絡(luò)中的資源管理問題提出了很多方案和算法。強(qiáng)化學(xué)習(xí)(RL)可以從延遲的回報(bào)中獲取最優(yōu)的控制策略,一個(gè)可學(xué)習(xí)的智能體,它可以觀察環(huán)境的狀態(tài)并能做出一組動(dòng)作改變這些狀態(tài),學(xué)習(xí)的任務(wù)是獲得一個(gè)控制策略,以選擇能達(dá)到目的的行為。 RL以其自適應(yīng)性和靈活性,被廣泛的應(yīng)用于機(jī)器人和自動(dòng)控制領(lǐng)域,并被引入到動(dòng)態(tài)頻譜接入中。
發(fā)明內(nèi)容
技術(shù)問題本發(fā)明的目的是提出有一種基于強(qiáng)化學(xué)習(xí)的異構(gòu)網(wǎng)絡(luò)資源管理方法, 針對(duì)異構(gòu)網(wǎng)絡(luò)的多種業(yè)務(wù)需求和多樣呼叫類型,該算法將不同的呼叫類型區(qū)分對(duì)待,對(duì)不同的業(yè)務(wù)類型采取不同的資源分配策略,提出了基于負(fù)載的帶寬自適應(yīng)均衡因子和基于帶寬的利潤函數(shù),并將二者聯(lián)合作為回報(bào)函數(shù)。技術(shù)方案本發(fā)明的基于強(qiáng)化學(xué)習(xí)的異構(gòu)網(wǎng)絡(luò)資源管理方法將強(qiáng)化學(xué)習(xí)用于異構(gòu)網(wǎng)絡(luò)的資源管理中,具體包括以下內(nèi)容a.狀態(tài)空間由可用網(wǎng)絡(luò)數(shù)量、當(dāng)前的網(wǎng)絡(luò)負(fù)載狀況、呼叫類型及業(yè)務(wù)類型組成;b.動(dòng)作空間包括網(wǎng)絡(luò)的選擇以及帶寬的分配,帶寬分配是按照2b個(gè)帶寬單元來分配的,其中b = 0,1,2,......,所以在此用b的取值來定義動(dòng)作空間A :A = {0,1,2,......η · (K+l)-l},其中η就是狀態(tài)空間中的可用網(wǎng)絡(luò)數(shù)量,K表示b的最大取值,K =
max (b),如果當(dāng)前只有一個(gè)網(wǎng)絡(luò)覆蓋,則A= {0,1,2,......K},分別表示當(dāng)前網(wǎng)絡(luò)所能夠
分配的不同帶寬等級(jí)2°個(gè)帶寬單元,21個(gè)帶寬單元,......22個(gè)帶寬單元,如果當(dāng)前有兩
個(gè)網(wǎng)絡(luò)覆蓋,則A = {0,1,2,. . . K,K+l,. . . 2K+1},分別表示不同的網(wǎng)絡(luò)所能分配的不同帶寬等級(jí);c.回報(bào)函數(shù)需要根據(jù)不同的業(yè)務(wù)進(jìn)行定義語音業(yè)務(wù)對(duì)帶寬要求不高,只要Bv。 個(gè)帶寬單元就能滿足其通信需求,不管接入哪個(gè)網(wǎng)絡(luò),只要給它分配的帶寬多于Bv。個(gè)帶寬單元,則回報(bào)就是0,如果給它分配的帶寬是Bv。個(gè)帶寬單元,則就獲取相應(yīng)的回報(bào), Bv。為傳輸語音業(yè)務(wù)所需要的帶寬單元數(shù)目;對(duì)于視頻業(yè)務(wù)和數(shù)據(jù)業(yè)務(wù)就涉及到帶寬需求的問題,用一個(gè)利潤函數(shù)P來和每次分配動(dòng)作相關(guān)聯(lián),則視頻業(yè)務(wù)的回報(bào)函數(shù)定義為
權(quán)利要求
1.一種基于強(qiáng)化學(xué)習(xí)的異構(gòu)網(wǎng)絡(luò)資源管理方法,其特征在于該方法將強(qiáng)化學(xué)習(xí)用于異構(gòu)網(wǎng)絡(luò)的資源管理中,具體包括以下內(nèi)容a.狀態(tài)空間由可用網(wǎng)絡(luò)數(shù)量、當(dāng)前的網(wǎng)絡(luò)負(fù)載狀況、呼叫類型及業(yè)務(wù)類型組成;b.動(dòng)作空間包括網(wǎng)絡(luò)的選擇以及帶寬的分配,帶寬分配是按照2b個(gè)帶寬單元來分配的,其中b = 0,1,2,......,所以在此用b的取值來定義動(dòng)作空間A :A = {0,1,2,......η · (K+l)-l},其中η就是狀態(tài)空間中的可用網(wǎng)絡(luò)數(shù)量,K表示b的最大取值,K =max (b),如果當(dāng)前只有一個(gè)網(wǎng)絡(luò)覆蓋,則A= {0,1,2,......K},分別表示當(dāng)前網(wǎng)絡(luò)所能夠分配的不同帶寬等級(jí)2°個(gè)帶寬單元,21個(gè)帶寬單元,......22個(gè)帶寬單元,如果當(dāng)前有兩個(gè)網(wǎng)絡(luò)覆蓋,則A = {0,1,2,. . . K,K+l,. . . 2K+1},分別表示不同的網(wǎng)絡(luò)所能分配的不同帶寬等級(jí);c.回報(bào)函數(shù)需要根據(jù)不同的業(yè)務(wù)進(jìn)行定義語音業(yè)務(wù)對(duì)帶寬要求不高,只要Bv。個(gè)帶寬單元就能滿足其通信需求,不管接入哪個(gè)網(wǎng)絡(luò),只要給它分配的帶寬多于Bv。個(gè)帶寬單元,則回報(bào)就是0,如果給它分配的帶寬是Bv。個(gè)帶寬單元,則就獲取相應(yīng)的回報(bào), Bv。為傳輸語音業(yè)務(wù)所需要的帶寬單元數(shù)目;對(duì)于視頻業(yè)務(wù)和數(shù)據(jù)業(yè)務(wù)就涉及到帶寬需求的問題,用一個(gè)利潤函數(shù)P來和每次分配動(dòng)作相關(guān)聯(lián),則視頻業(yè)務(wù)的回報(bào)函數(shù)定義為 =B^d<2^<Bm^vd,其中β是權(quán)重系數(shù),G為自適應(yīng)帶寬均衡因子,Β_ν( 為視頻業(yè)務(wù)所需的最小帶寬,Bfflax vd為視頻業(yè)務(wù)所需要的最大帶寬;數(shù)據(jù)業(yè)務(wù)的回報(bào)函數(shù)定義為r =1Ife^da,其中^llin da為數(shù)據(jù)業(yè)務(wù)所需的最小帶寬。
2.如權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的異構(gòu)網(wǎng)絡(luò)資源管理方法,其特征在于所述的利潤函數(shù)P = g-σ · 1,其中g(shù)表示這次分配動(dòng)作相對(duì)于動(dòng)作之前的帶寬收益值,則g = ΔΒ =4_Bf,其中&表示動(dòng)作之后的帶寬表示動(dòng)作之前的帶寬;1表示這次動(dòng)作所付出的代價(jià)值,1 = Bf · τ,其中τ表示切換時(shí)延;σ是時(shí)延敏感系數(shù),σ越大,時(shí)延損失在利潤函數(shù)中占得比重就越大;因此P = g_ σ · 1 = Bb-Bf- σ · Bf · τ。
3.如權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的異構(gòu)網(wǎng)絡(luò)資源管理方法,其特征在于所述的自適應(yīng)帶寬均衡因子G定義為G = (1- η》b,其中b表示本次分配動(dòng)作為該用戶分配了 2b個(gè)帶寬單元,Hi表示所選網(wǎng)絡(luò)i的負(fù)載。
全文摘要
本發(fā)明的基于強(qiáng)化學(xué)習(xí)的異構(gòu)網(wǎng)絡(luò)資源管理方法,針對(duì)異構(gòu)網(wǎng)絡(luò)的多種業(yè)務(wù)需求和多樣呼叫類型,將強(qiáng)化學(xué)習(xí)用于異構(gòu)無線網(wǎng)絡(luò)的資源管理中,將不同的呼叫類型區(qū)分對(duì)待,賦予不同的處理優(yōu)先級(jí),對(duì)不同的業(yè)務(wù)類型采取不同的資源分配策略,給出了基于負(fù)載的帶寬自適應(yīng)均衡因子和基于帶寬的利潤函數(shù),并將二者聯(lián)合作為回報(bào)函數(shù),在盡量滿足各種業(yè)務(wù)帶寬需求的情況下實(shí)現(xiàn)了不同網(wǎng)絡(luò)之間的負(fù)載均衡和同一網(wǎng)絡(luò)內(nèi)的自適應(yīng)帶寬分配,提高了資源利用率。
文檔編號(hào)H04W28/08GK102238631SQ201110236029
公開日2011年11月9日 申請(qǐng)日期2011年8月17日 優(yōu)先權(quán)日2011年8月17日
發(fā)明者朱琦, 趙夙, 趙彥清 申請(qǐng)人:南京郵電大學(xué)