本文涉及移動通信領域,特別地,本發(fā)明是用于第五代(5th-generation)移動通信系統(tǒng)中超密集異構網絡(Ultra Dense Network, UDN)的一種資源分配的方法。
背景技術:
移動網絡如今已進入快速普及階段,與此同時世界各國都在積極地研究5G技術,5G標準也開始嶄露頭角。率先利用感知無線電技術,由網絡自動決定提供的頻段,實現多網融合是5G的一個顯著特點。我國的5G工作也已取得初步成績。5G網絡的主要目標是用戶體驗,要從容量、速率、時延三個方面對網絡進行重新設計、優(yōu)化。同時5G網絡要容納大量的終端設備,因此要通過更高的頻譜復用效率、更多的頻譜資源以及更密集的小區(qū)部署來共同滿足移動業(yè)務流量增長的需求。這使5G網絡面臨了新的挑戰(zhàn)。
由于在傳統(tǒng)的移動通信系統(tǒng)中,網絡部署、運營維護大都依靠人工,需耗費大量人力、物力。因此,才有了自組織網絡(Self-Organization Network, SON)的概念,通過通信網絡的自組織能力實現網絡的部署、維護及優(yōu)化。而在5G系統(tǒng)中有許多低功率節(jié)點的接入,使得網絡結構更復雜,形成超密集異構網絡。由于無線資源的稀缺,使得許多運營商希望在高頻段充分利用頻譜資源,同時在未來的5G系統(tǒng)中采用的是雙層網絡,存在兩種類型的用戶分別是宏用戶與家庭用戶。為了充分利用頻譜資源,雙層網絡共用相同的頻段,但同時也引入了同頻干擾,而現存在的技術又不能很好地解決5G網絡中存在的跨層干擾問題,基于此,本發(fā)明重點研究將自組織網中的自優(yōu)化技術應用于超密集網絡之中以實現資源的自組織分配。
為了實現資源自組織分配,將經典的強化學習Q-Learning算法應用于超密集網絡中。 Q-Learning算法是基于離散的狀態(tài)的,而在本發(fā)明中離散變量是指功率的大小。Q-Learning的選擇行為和行為值函數分別選用不同的策略,通過實時地測量信道參數,動態(tài)地進行資源自組織分配,進而達到抑制干擾的目的。
技術實現要素:
本發(fā)明主要針對超密集自組織網絡中節(jié)能資源分配問題,提出了一種基于Q-Learning算法和超模博弈的資源分配方法。該方法優(yōu)化網絡中的能量利用效率,保障QoS,提高系統(tǒng)容量。
為了解決上述問題,本發(fā)明提供了一種效能優(yōu)化的資源分配方案:
步驟1:初始化學習因子 ,對于每個狀態(tài)s以及每個動作a,初始化評價函數,傳輸策略,猜想,正標量。
步驟2:初始化家庭基站狀態(tài)s,發(fā)射功率P、信干比等。
步驟3:根據傳輸策略,選定當前過程的動作。
步驟4:根據目標接收者的反饋信息檢測當前的信干比,通過識別當前傳輸功率級別和比較當前信干比是否大于門限來確定下一時刻狀態(tài)。
步驟5:如果家庭用戶當前的信干噪比大于閾值,通過回報函數計算回報(回報,即效能函數),否則,將回報置零。
步驟6: 對步驟四中得到的回報值求期望,利用基于猜想的Q更新公式,得到新的Q值,更新評價函數。
步驟7:根據步驟五中得到的Q值,根據貪婪策略,更新用戶的策略。
步驟8:利用猜想更新公式,得到其他家庭基站下一時刻行為的猜想,使用戶進入下一個狀態(tài)。轉入步驟二。
步驟9:終止此次學習過程,每個家庭基站的無線資源分配完成,準備下一次資源調度。
在步驟1中,每個家庭基站只允許一個用戶接入,Q值的設定需要預先的估計。
在步驟3中,策略,即選擇動作的概率,選擇概率最大的動作。
在步驟4中,信干比的計算公式
式中,代表家庭基站到內部用戶的信道增益,家庭基站到其他基站用戶的信道增益。代表宏用戶對家庭基站的干擾。,分別代表該基站與干擾基站的發(fā)射功率,指高斯噪聲。
在步驟5中,每個基站的效能函數是指
式中,指家庭基站k的有效容量,在保證一定時延Qos的要求下,無線信道能夠達到最大的傳輸速率。代表Qos時延參數,越大,時延要求越高。代表家庭基站對用戶的發(fā)射功率。代表通信網絡中所消耗的功率。
上式顯示了子信道呈線性關系,得到每個子信道上的發(fā)射功率與總功率呈線性關系
結合香農公容量公式(式中,指一幀數據傳輸時長,B代表通信帶寬。得到效用函數的具體表達式
步驟6中,Q值的更新公式,
式中,是學習因子,具有衰減特性,,是折扣因子。是指下一個時刻的狀態(tài)。
步驟7中,策略的更新公式
值是溫度正參數,值越大,動作的概率趨近相同。
步驟8中,猜想更新公式
式中,是指前一時刻的猜想。指下一時刻,在當前狀態(tài)和采取當前動作時的策略,指前一時刻的策略。
從技術方法上來看,本方法以最大化每個家庭基站的能效為目標,綜合考慮了超密集自組織網絡中的同層干擾、跨層干擾及QoS時延,采用Q-Learning算法不斷調整家庭基站的發(fā)射功率,最終達到納什均衡,使每個家庭基站的能效得到優(yōu)化。既保障了用戶的QoS時延,又提升了家庭基站的能效,實現了家庭基站網絡的無線資源管理。
下面通過附圖和具體實施方式對本發(fā)明的技術方案進行進一步的闡述。
附圖說明
為了更加清晰的闡述本發(fā)明的實施例和現有的技術方案,下面將本發(fā)明的技術方案說明附圖和現有技術描述中用到的說明附圖做簡單的介紹,顯而易見的,在不付出創(chuàng)造性勞動的前提下,本領域普通技術人員可通過本附圖獲得其他的附圖。
圖1所示為本發(fā)明實施例中包含家庭基站與宏基站的系統(tǒng)架構圖;
圖2所示為本發(fā)明實施例中家庭基站功率分配的流程圖。
具體實施方式
本發(fā)明的主要思想是,通過對通信環(huán)境進行模擬,建立模型,初始化學習因子,猜想,傳輸策略和評價函數Q,檢測當前信道的狀態(tài),狀態(tài)指示參數有信干比、發(fā)射功率、所處狀態(tài)等。根據傳輸策略選擇當前動作,將檢測到的信干比與給定的閾值相比較,若大于閾值,得到一個回報,若小于閾值,得到的回報置為零,利用基于猜想的Q更新公式得到新的Q值,并根據Q值通過貪婪策略獲得下一時刻的策略以及猜想,更新下一時刻狀態(tài),并進入下一個通信狀態(tài),重復上述學習過程。以Q值作為性能評價標準來評估功率分配方案,尋找使超密集小區(qū)網絡中總回報函數最大的功率分配方案。
圖1所示為同時包括家庭基站與宏基站同頻部署的系統(tǒng)架構圖,其包含一個宏基站、多個毫微微基站及其用戶、宏用戶。
步驟101:設置學習過程初始時刻t=0。
步驟102:初始化學習因子 ,對于每個狀態(tài)s以及每個動作a,初始化評價函數 ,傳輸策略,猜想,正標量。
步驟103:初始化家庭基站狀態(tài)s,發(fā)射功率P、信干比等。
步驟104:根據傳輸策略,選擇當前過程的動作。
步驟105:根據目標接收者的反饋信息檢測當前的信干比,通過識別當前傳輸功率級別和比較當前信干比是否大于門限來確定下一時刻狀態(tài)。
步驟106:如果當前信干比大于門限,便通過回報函數計算出一個回報,否則,回報置為零。
步驟107:對步驟四中將得到的所有回報值求期望,利用基于猜想的Q更新公式,得到新的Q值,更新評價函數。
步驟108:由得到的Q值根據貪婪策略的獲得新的傳輸策略。
步驟109:利用猜想更新公式,得對其他家庭基站下一時刻行為的猜想。
步驟110:進入步驟105所確定的下一個狀態(tài),進入下一個時刻t=t+1,并轉入步驟102。
步驟111:終止此次學習過程,每個家庭基站的無線資源分配完成,準備下一次的資源調度。