基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理系統(tǒng)和方法

文檔序號：7655796閱讀：132來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

專利名稱：基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理系統(tǒng)和方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種無線通信技術(shù)領(lǐng)域的無線資源管理系統(tǒng)及方法，尤其涉及一種基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理系統(tǒng)及方法。
背景技術(shù)：
隨著技術(shù)的發(fā)展，多種異構(gòu)無線接入技術(shù)的共存將成為未來B3G 無線通信環(huán)境的一個(gè)重要特征。重疊的網(wǎng)絡(luò)覆蓋、多樣的業(yè)務(wù)需求以必須。'為此，、人們提出了多種^合無線資源管理的;法以iy^更好的系統(tǒng)性能、頻譜效率和用戶體驗(yàn)。端到端重配置技術(shù)的出現(xiàn)，為終端和相關(guān)網(wǎng)元設(shè)備提供了動(dòng)態(tài)選擇、配置無線接入技術(shù)及工作頻率的能力，使得對各種無線資源的聯(lián)合管理更加靈活和可行?？紤]到業(yè)務(wù)需求在空間和時(shí)間上的動(dòng)態(tài)變化及其不規(guī)則性，一個(gè)同時(shí)運(yùn)營多個(gè)無線接入技術(shù)的網(wǎng)絡(luò)運(yùn)營商將很難為其大量的基站和接入點(diǎn)配置最佳的聯(lián) 合無線資源管理策略。為實(shí)現(xiàn)網(wǎng)絡(luò)對資源的自主管理以減少人力參與的規(guī)劃和維護(hù)的成本，需要網(wǎng)絡(luò)具有能根據(jù)實(shí)際運(yùn)行情況不斷修正其控制策略的自主學(xué)習(xí)能力。強(qiáng)化學(xué)習(xí)是一種具有自主學(xué)習(xí)能力的"試錯(cuò)，，的在線學(xué)習(xí)技術(shù)。學(xué) 習(xí)者通過與環(huán)境不斷交互獲得學(xué)習(xí)經(jīng)驗(yàn)，進(jìn)而逐步改進(jìn)其行為策略。強(qiáng)化學(xué)習(xí)以其靈活性和自適應(yīng)性，廣泛應(yīng)用于機(jī)器人和自動(dòng)控制領(lǐng)域，并被引入無線蜂窩網(wǎng)絡(luò)的動(dòng)態(tài)信道分配問題中?，F(xiàn)有技術(shù)中，針對異構(gòu)無線網(wǎng)絡(luò)中的聯(lián)合接納控制與帶寬分配問題，存在的缺點(diǎn)在于模糊推理規(guī)則的定義以及模糊化/去模糊化函數(shù)參數(shù)的選擇很大程度上依靠人工控制，主觀性大，缺乏一定設(shè)計(jì)原則的指導(dǎo)與合理性論證。雖然引入強(qiáng)化學(xué)習(xí)在一定程度上克服了函數(shù)參數(shù)
選擇上的主觀性，但卻沒能對推理規(guī)則進(jìn)行自主、動(dòng)態(tài)地的調(diào)整與控制，算法最終結(jié)果的性能難以保證。若考慮更多的輸入語言變量(比如終端移動(dòng)速度、重配置能力等)，則各種模糊推理規(guī)則的排列組合將以幾何級數(shù)增長，在缺乏有效的設(shè)計(jì)原則指導(dǎo)的情況下，基于查找表的人工定義方式將面臨極大的設(shè)計(jì)復(fù)雜度，實(shí)用性降低。發(fā)明內(nèi)容針對現(xiàn)有技術(shù)中存在的這些缺點(diǎn)，本發(fā)明提出了一種基于強(qiáng)化學(xué) 習(xí)的自主聯(lián)合無線資源管理系統(tǒng)及方法，它適用于異構(gòu)無線環(huán)境中B3G系統(tǒng)進(jìn)行自主聯(lián)合會(huì)話接納控制和帶寬分配。本發(fā)明提出了一種基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理方法，當(dāng)可重配置移動(dòng)終端發(fā)起新會(huì)話請求時(shí)，無線重配置支持功能模塊收集本地?zé)o線資源管理器所提供的各異構(gòu)無線接入網(wǎng)絡(luò)的資源管理信息，根據(jù)各種網(wǎng)絡(luò)性能參數(shù)指標(biāo)采用強(qiáng)化學(xué)習(xí)方法進(jìn)行"試錯(cuò)"交互，依照相應(yīng)的判定準(zhǔn)則，決定是否立即接納新會(huì)話，如果接納，決定接入到哪一個(gè)無線接入網(wǎng)絡(luò)中并分配相應(yīng)的業(yè)務(wù)帶寬，否則拒絕該會(huì)話。然后向重配置管理器上報(bào)聯(lián)合無線資源管理決策信息。通過基于比例公平頻鐠效用的強(qiáng)化信號，無線重配置支持功能模塊能以"試錯(cuò)，，迭代的在線學(xué)習(xí)方式找到優(yōu)化的聯(lián)合無線資源管理策略，在阻塞率和頻鐠效用之間獲得很好的折衷。上述技術(shù)方案中，還包括基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理方法，此方法步驟如下步驟1、參數(shù)初始化，此步驟在所述參數(shù)初始化模塊中進(jìn)行，對強(qiáng)化學(xué)習(xí)方法中所有需要被初始化的參數(shù)進(jìn)行初始化；步驟2、狀態(tài)構(gòu)建，此步驟在所述參數(shù)初始化模塊中進(jìn)行，當(dāng)新會(huì)話到達(dá)時(shí)，所述無線重配置支持功能模塊需要搜集各無線接入網(wǎng)絡(luò) 的覆蓋條件、負(fù)栽信息、到達(dá)會(huì)話的業(yè)務(wù)特征等各種網(wǎng)絡(luò)信息，構(gòu)造出當(dāng)前網(wǎng)絡(luò)狀態(tài)，并將結(jié)果轉(zhuǎn)換為一維參數(shù)向量(網(wǎng)絡(luò)狀態(tài)向量)發(fā) 送給所述神經(jīng)網(wǎng)絡(luò)模塊，同時(shí)緩存在所述訓(xùn)練隊(duì)列模塊中；步驟3、網(wǎng)絡(luò)收益向量的獲得，步驟2所述一維參數(shù)向量經(jīng)過所述神經(jīng)網(wǎng)絡(luò)模塊的運(yùn)算后，在輸出層得到當(dāng)前網(wǎng)絡(luò)狀態(tài)下所有可能動(dòng) 作所對應(yīng)的網(wǎng)絡(luò)收益，并組成網(wǎng)絡(luò)收益向量，所述網(wǎng)絡(luò)收益向量同時(shí) 被發(fā)送到所述動(dòng)作選擇模塊和所述參數(shù)更新模塊；步驟4、動(dòng)作選擇和執(zhí)行，所述動(dòng)作選擇模塊根據(jù)輸入的步驟3 所述網(wǎng)絡(luò)收益向量，采用一定的探索方法，從動(dòng)作集合中選擇一個(gè)動(dòng) 作并執(zhí)行，被執(zhí)行的動(dòng)作被記錄于所述參數(shù)更新模塊；步驟5、獲得回報(bào)，在選擇并執(zhí)行一個(gè)動(dòng)作后，無線網(wǎng)路環(huán)境做出反應(yīng)，無線網(wǎng)絡(luò)環(huán)境狀態(tài)變量有所改變，所述參數(shù)更新模塊收集無線網(wǎng)絡(luò)環(huán)境所做出的反應(yīng)并計(jì)算出所獲得的回報(bào)；步驟6、網(wǎng)絡(luò)收益向量的更新，此步驟在所述參數(shù)更新模塊中進(jìn) 行，新的會(huì)話到達(dá)，就由步驟2和3得到下一網(wǎng)絡(luò)狀態(tài)及其所有的網(wǎng) 絡(luò)收益向量，結(jié)合記錄的動(dòng)作以及相應(yīng)的回報(bào)，更新緩存的網(wǎng)絡(luò)收益向量，并被送入所述訓(xùn)練隊(duì)列模塊中；步驟7、參數(shù)更新，此步驟在參數(shù)更新模塊中進(jìn)行，每輪迭代過程結(jié)束時(shí)，為了滿足強(qiáng)化學(xué)習(xí)的收斂性要求，對所有相關(guān)參數(shù)以一定的規(guī)則進(jìn)行更新；步驟8、神經(jīng)網(wǎng)絡(luò)更新，每次迭代過程將產(chǎn)生一對網(wǎng)絡(luò)狀態(tài)向量和網(wǎng)絡(luò)收益向量，分別作為輸入向量和相應(yīng)的目標(biāo)輸出向量被緩存到所述訓(xùn)練隊(duì)列模塊中，若所述訓(xùn)練隊(duì)列模塊被填滿，所有緩存的網(wǎng)絡(luò) 狀態(tài)向量和網(wǎng)絡(luò)收益向量將被一起送入所述神經(jīng)網(wǎng)絡(luò)進(jìn)行后向傳播運(yùn) 算以調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)值，從而獲得對于網(wǎng)絡(luò)收益的更加精確的函數(shù) 近似。上述技術(shù)方案中，還包括所述強(qiáng)化學(xué)習(xí)方法中的動(dòng)作選擇和執(zhí) 行步驟,具體分為兩步，首先是分配無線接入技術(shù)或者拒絕接入，然后是為接納的會(huì)話分配一定的業(yè)務(wù)帶寬。上述技術(shù)方案中，還包括利用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對強(qiáng)化學(xué)習(xí)中狀態(tài) 空間的泛化。本發(fā)明提出了一種基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理系統(tǒng)
包括可重配置移動(dòng)終端，通過重配置工作在多種無線接入技術(shù)下，用于發(fā)起多種不同業(yè)務(wù)類型的會(huì)話請求，并通過網(wǎng)絡(luò)發(fā)送給本地?zé)o線資源管理器；本地?zé)o線資源管理器，通過網(wǎng)絡(luò)與無線重配置支持功能模塊連接，用于管理某個(gè)無線接入網(wǎng)絡(luò)內(nèi)部的無線資源分配，并將所屬無線接入網(wǎng)絡(luò)的資源管理信息提供給無線重配置支持功能模塊；無線重配置支持功能模塊，通過網(wǎng)絡(luò)與所述本地?zé)o線資源管理器和重配置管理器連接，用于收集所述本地?zé)o線資源管理器所提供的各無線接入網(wǎng)絡(luò)的資源管理信息，根據(jù)各種網(wǎng)絡(luò)性能參數(shù)指標(biāo)采用強(qiáng) 化學(xué)習(xí)方法進(jìn)行"試錯(cuò)，，交互，依照相應(yīng)的判定準(zhǔn)則，決定是否立即接納新會(huì)話，如果接納，決定接入到哪一個(gè)無線接入網(wǎng)絡(luò)中并分配相應(yīng) 的業(yè)務(wù)帶寬，否則拒絕該會(huì)話。并向重配置管理器上報(bào)聯(lián)合無線資源管理決策信息；重配置管理器，位于公共的核心網(wǎng)域或者可信的第三方域，通過網(wǎng)絡(luò)與所述無線重配置支持功能模塊連接，用于向所述無線重配置支持功能模塊發(fā)送運(yùn)營商的管理策略信息。上述技術(shù)方案中，無線重配置支持功能模塊包括參數(shù)初始化模塊，用于對強(qiáng)化學(xué)習(xí)方法中所有需要被初始化的參數(shù)進(jìn)行初始化，構(gòu)造出當(dāng)前網(wǎng)絡(luò)狀態(tài)，并將結(jié)果轉(zhuǎn)換為一維參數(shù)向量 (網(wǎng)絡(luò)狀態(tài)向量)發(fā)送給神經(jīng)網(wǎng)絡(luò)模塊，同時(shí)緩存在訓(xùn)練隊(duì)列模塊中；訓(xùn)練隊(duì)列模塊，用于緩存輸入的網(wǎng)絡(luò)狀態(tài)向量和更新后網(wǎng)絡(luò)收益向量，作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練的輸入和目標(biāo)輸出，當(dāng)訓(xùn)練隊(duì)列模塊裝滿后將網(wǎng)絡(luò)狀態(tài)向量和網(wǎng)絡(luò)收益向量以批處理方式送入神經(jīng)網(wǎng)絡(luò)模塊，完成對神經(jīng)網(wǎng)絡(luò)內(nèi)權(quán)值和偏置的后向傳播訓(xùn)練；神經(jīng)網(wǎng)絡(luò)模塊，用于運(yùn)算由參數(shù)初始化模塊發(fā)送來的一維參數(shù)向量，在輸出層得到當(dāng)前網(wǎng)絡(luò)狀態(tài)下所有可能動(dòng)作所對應(yīng)的網(wǎng)絡(luò)收益，并組成網(wǎng)絡(luò)收益向量，發(fā)送到動(dòng)作選擇模塊和參數(shù)更新模塊；動(dòng)作選擇模塊，用于根據(jù)輸入的網(wǎng)絡(luò)收益向量，采用一定的探索
方法，從動(dòng)作集合中選擇一個(gè)動(dòng)作并執(zhí)行，被執(zhí)行的動(dòng)作被記錄于參數(shù)更新模塊；參數(shù)更新模塊，用于參數(shù)更新和網(wǎng)絡(luò)收益向量的更新，并將更新后的網(wǎng)絡(luò)收益向量送入訓(xùn)練隊(duì)列模塊中。上述技術(shù)方案中，還包括無線環(huán)境模塊，此處提到的無線環(huán)境模塊是對外部無線環(huán)境的一種抽象，它用于接收動(dòng)作選擇模塊中輸出的動(dòng)作信息，并將當(dāng)前網(wǎng)絡(luò)的各種狀態(tài)信息進(jìn)行匯總，并將需要更新的信息輸送給參數(shù)更新模塊，同時(shí)也提供參數(shù)初始化模塊所需要的各種網(wǎng)絡(luò)狀態(tài)信息。上述技術(shù)方案中，還包括系統(tǒng)架構(gòu)可分為分布式控制和集中式控制兩種控制方式。所述分布式控制，指每個(gè)無線接入技術(shù)的本地?zé)o 線資源管理器都與對應(yīng)的一個(gè)無線重配置支持功能模塊連接；所述集中式控制，指所有無線接入技術(shù)的本地?zé)o線資源管理器都與一個(gè)公共的無線重配置支持功能模塊連接。本發(fā)明的基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理系統(tǒng)及方法，適用于異構(gòu)無線環(huán)境中B3G系統(tǒng)進(jìn)行自主聯(lián)合會(huì)話接納控制和帶寬分配。通過基于比例公平頻鐠效用的強(qiáng)化信號，無線重配置支持功能模塊能以"試錯(cuò)，，迭代的在線學(xué)習(xí)方式找到優(yōu)化的聯(lián)合無線資源管理策略，在阻塞率和頻譜效用之間獲得很好的折衷。本發(fā)明使得網(wǎng)絡(luò)具有根據(jù)實(shí)際運(yùn)行情況不斷修正其控制策略的自主學(xué)習(xí)能力，從而實(shí)現(xiàn)網(wǎng) 絡(luò)對資源的自主管理，從而盡量減少了人工參與的規(guī)劃和維護(hù)的成本。此外，本發(fā)明還利用神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)對強(qiáng)化學(xué)習(xí)中狀態(tài)空間的泛化，即采用神經(jīng)網(wǎng)絡(luò)來替代傳統(tǒng)的窮舉式查找表，以克服連續(xù)環(huán)境狀態(tài)空間下的存儲和查找困難，不但極大地節(jié)約了存儲空間，而且降低了設(shè)計(jì)和計(jì)算復(fù)雜度。

圖1為本發(fā)明的異構(gòu)無線環(huán)境的自主聯(lián)合會(huì)話接納控制和帶寬分配方法整體系統(tǒng)架構(gòu)流程圖2為本發(fā)明的異構(gòu)無線環(huán)境下集中式和分布式自主聯(lián)合會(huì)話接納控制和帶寬分配系統(tǒng)架構(gòu)圖；圖3為本發(fā)明無線重配置支持功能模塊中的強(qiáng)化學(xué)習(xí)方法圖；圖4為本發(fā)明基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合會(huì)話接納控制和帶寬分配方法流程圖。
具體實(shí)施方式
下面通過附圖和實(shí)施例，對本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。圖1例示了本發(fā)明的異構(gòu)無線環(huán)境的自主聯(lián)合會(huì)話接納控制和帶寬分配方法整體系統(tǒng)架構(gòu)流程圖，具體流程步驟如下首先，在步驟10中，可配置移動(dòng)終端發(fā)起新會(huì)話請求；其次，在步驟ll中，無線重配置支持功能模塊收集本地?zé)o線資源管理器中所提供的各無線接入網(wǎng)絡(luò)資源管理信息；然后，在步驟12中，無線重配置支持功能模塊根據(jù)各種網(wǎng)絡(luò)性能參數(shù)指標(biāo)采用強(qiáng)化學(xué)習(xí)方法進(jìn)行"試錯(cuò)，，交互；在步驟13中，依照相應(yīng)的判定準(zhǔn)則決定是否接納新會(huì)話。如果接納該新會(huì)話，則如步驟14所示，決定接入到哪個(gè)無線接入網(wǎng)絡(luò)，并分配相應(yīng)的業(yè)務(wù)帶寬，如果依據(jù)判定準(zhǔn)則，不能接納該新會(huì)話，則將拒絕這個(gè)新會(huì)話或?qū)⑦@個(gè)會(huì)話請求重定向到其他有重疊覆蓋的網(wǎng)絡(luò)中；最后，如步驟15所示，將由無線重配置支持功能模塊向重配置管理器上報(bào)聯(lián)合無線資源管理決策信息。圖2例示了本發(fā)明的異構(gòu)無線環(huán)境下集中式和分布式自主聯(lián)合會(huì) 話接納控制和帶寬分配系統(tǒng)架構(gòu)圖，具體各部分功能描述如下首先，根據(jù)本地?zé)o線資源管理器與無線重配置支持功能模塊的對應(yīng)關(guān)系，系統(tǒng)架構(gòu)可分為集中式控制和分布式控制兩種方式如果所有無線接入技術(shù)的本地?zé)o線資源管理器都與一個(gè)公共的無線重配置支持功能模塊連接，則稱為集中式控制方式;如果每個(gè)無線接入技術(shù)的本地?zé)o線資源管理器都與自己專屬的無線重配置支持功能模塊連接，
則稱為分布式控制方式。其次，整個(gè)系統(tǒng)架構(gòu)中包括以下四個(gè)主要模塊可重配置移動(dòng)終端，它可通過重配置工作在多種無線接入技術(shù)下，并可以發(fā)起多種不同業(yè)務(wù)類型的會(huì)話請求。用戶攜帶可重配置終端位于重疊覆蓋區(qū)域時(shí)，可以通過購買任意一種無線接入網(wǎng)絡(luò)的業(yè)務(wù)，享受各種無線應(yīng)用。所述終端接入網(wǎng)絡(luò)時(shí)，能夠自動(dòng)完成軟件安裝與網(wǎng) 絡(luò)設(shè)置。本地?zé)o線資源管理器，負(fù)責(zé)管理某個(gè)無線接入網(wǎng)絡(luò)內(nèi)部的無線資源分配，包括帶寬、信道、碼子等無線資源。無線重配置支持功能模塊，當(dāng)終端向某個(gè)無線接入網(wǎng)絡(luò)發(fā)起會(huì)話請求時(shí)，無線重配置支持功能模塊收集本地?zé)o線資源管理器所提供的各無線接入網(wǎng)絡(luò)的資源管理信息，根據(jù)各種網(wǎng)絡(luò)性能參數(shù)指標(biāo)以及相應(yīng)的判定準(zhǔn)則，決定是否立即接納新會(huì)話或者將其重定向到其它重疊覆蓋的無線接入網(wǎng)絡(luò)中。并向重配置管理器上報(bào)聯(lián)合無線資源管理決策信息。重配置管理器，它是重配置管理平面邏輯模型的一個(gè)完整的物理實(shí)現(xiàn)，被定位在可重配置網(wǎng)絡(luò)層次結(jié)構(gòu)的最高一級，位于公共的核心網(wǎng)域或者可信的第三方域。重配置管理器可以向無線重配置支持功能模塊發(fā)送運(yùn)營商的管理策略信息。其中，重配置管理平面是一個(gè)獨(dú)立于具體網(wǎng)絡(luò)和協(xié)議的邏輯模型，用于規(guī)范所有與重配置相關(guān)的過程和信令。由一系列與具體物理實(shí)現(xiàn)無關(guān)的控制與管理功能實(shí)體組成，是具體網(wǎng)絡(luò)元素的抽象表達(dá)。圖3例示了本發(fā)明無線重配置支持功能模塊中的強(qiáng)化學(xué)習(xí)方法圖，具體各部分模塊的功能描述如下參數(shù)初始化模塊，此模塊主要是對強(qiáng)化學(xué)習(xí)方法中所有需要被初始化的參數(shù)進(jìn)行初始化并包括初始狀態(tài)構(gòu)建過程。當(dāng)新會(huì)話到達(dá)時(shí)，蓋條件、負(fù)栽信息、到達(dá)會(huì)話的業(yè)務(wù)特征等各種網(wǎng)絡(luò)信息，并構(gòu)造出當(dāng)前網(wǎng)絡(luò)狀態(tài)，并將結(jié)果轉(zhuǎn)換為一維參數(shù)向量(網(wǎng)絡(luò)狀態(tài)向量)發(fā)送
給神經(jīng)網(wǎng)絡(luò)模塊，同時(shí)緩存在訓(xùn)練隊(duì)列模塊中。訓(xùn)練隊(duì)列模塊，用于緩存輸入的網(wǎng)絡(luò)狀態(tài)向量和更新后網(wǎng)絡(luò)收益向量，作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練的輸入和目標(biāo)輸出。當(dāng)訓(xùn)練隊(duì)列模塊裝滿后，將網(wǎng)絡(luò)狀態(tài)向量和網(wǎng)絡(luò)收益向量以批處理方式送入神經(jīng)網(wǎng)絡(luò)模塊，完成對神經(jīng)網(wǎng)絡(luò)內(nèi)權(quán)值和偏置的后向傳播訓(xùn)練。神經(jīng)網(wǎng)絡(luò)模塊，由參數(shù)初始化模塊產(chǎn)生的網(wǎng)絡(luò)狀態(tài)向量和由訓(xùn)練隊(duì)列批量輸入的網(wǎng)絡(luò)狀態(tài)向量和網(wǎng)絡(luò)收益向量，分別作為神經(jīng)網(wǎng)絡(luò)模塊的輸入，進(jìn)行后向傳播運(yùn)算以調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)值，從而獲得對于網(wǎng)絡(luò)收益的更加精確的函數(shù)近似。并將網(wǎng)絡(luò)收益結(jié)果送入到參數(shù)更新模塊中更新相應(yīng)的數(shù)據(jù)信息，同時(shí)送到動(dòng)作選擇模塊進(jìn)行動(dòng)作選擇的輸入信息。動(dòng)作選捧模塊，動(dòng)作分為兩步，首先是分配無線接入技術(shù)或者拒絕接入，然后是為接納的會(huì)話分配一定的業(yè)務(wù)帶寬。本發(fā)明將上述兩步合為一步。動(dòng)作選擇模塊根據(jù)從神經(jīng)網(wǎng)絡(luò)模塊中輸入的網(wǎng)絡(luò)收益向量信息，并依據(jù)一定的探索方法，從動(dòng)作集合中選擇一個(gè)動(dòng)作執(zhí)行。被執(zhí)行的動(dòng)作將被記錄于參數(shù)更新模塊中，相應(yīng)的執(zhí)行動(dòng)作被送入到無線環(huán)境模塊中。參數(shù)更新模塊，考慮到為了滿足強(qiáng)化學(xué)習(xí)的收斂性要求，同時(shí)結(jié) 合神經(jīng)網(wǎng)絡(luò)模塊、動(dòng)作選擇模塊和無線環(huán)境模塊的輸入信息，對所有相關(guān)參數(shù)以一定的規(guī)則進(jìn)行更新，并將更新后的數(shù)據(jù)輸入到訓(xùn)練隊(duì)列模塊中。無線環(huán)境模塊，此處提到的無線環(huán)境模塊是對外部無線環(huán)境的一種抽象，無線環(huán)境模塊主要是接收動(dòng)作選擇模塊中輸出的動(dòng)作信息，并將當(dāng)前網(wǎng)絡(luò)的各種狀態(tài)信息進(jìn)行匯總，并將需要更新的信息輸送給參數(shù)更新模塊，同時(shí)也提供參數(shù)初始化模塊所需要的各種網(wǎng)絡(luò)狀態(tài)信息。圖4例示了本發(fā)明基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合會(huì)話接納控制和帶寬分配方法流程圖，具體步驟如下步驟400，首先進(jìn)行參數(shù)初始化。在參數(shù)初始化模塊中，對強(qiáng)化
學(xué)習(xí)方法中所有需要被初始化的參數(shù)進(jìn)行初始化；步驟401,判斷新會(huì)話是否到達(dá)，如果有新會(huì)話到達(dá)，則進(jìn)行狀態(tài)構(gòu)建(如步驟402所示)。如果沒有新會(huì)話到達(dá)，則繼續(xù)等待，進(jìn) 行新會(huì)話是否到達(dá)的判斷；步驟402，進(jìn)行狀態(tài)構(gòu)建過程，并將當(dāng)前的狀態(tài)信息轉(zhuǎn)換成狀態(tài) 向量，送往訓(xùn)練隊(duì)列模塊。當(dāng)新會(huì)話到達(dá)時(shí)，無線重配置支持功能模塊需要搜集各無線接入網(wǎng)絡(luò)的覆蓋狀況、負(fù)栽信息、到達(dá)的會(huì)話業(yè)務(wù) 特征等信息，構(gòu)造出當(dāng)前網(wǎng)絡(luò)狀態(tài)，并將結(jié)果轉(zhuǎn)換為一維參數(shù)向量(網(wǎng) 絡(luò)狀態(tài)向量)送往訓(xùn)練隊(duì)列模塊中；步驟403，將網(wǎng)絡(luò)狀態(tài)向量送入神經(jīng)網(wǎng)絡(luò)模塊，經(jīng)過神經(jīng)網(wǎng)絡(luò)模塊的運(yùn)算后，得到當(dāng)前網(wǎng)絡(luò)狀態(tài)下所有可能動(dòng)作所對應(yīng)的網(wǎng)絡(luò)收益，并組成網(wǎng)絡(luò)收益向量。該網(wǎng)絡(luò)收益向量同時(shí)被發(fā)送到動(dòng)作選擇模塊和參數(shù)更新模塊中；步驟404，更新網(wǎng)絡(luò)收益向量，并將其發(fā)送到訓(xùn)練隊(duì)列模塊；步驟405，動(dòng)作選擇模塊進(jìn)行動(dòng)作選擇，并將執(zhí)行的動(dòng)作記錄至參數(shù)更新模塊中。動(dòng)作分為兩步，首先是分配無線接入技術(shù)或者拒絕接入，然后是為接納的會(huì)話分配一定的業(yè)務(wù)帶寬。本發(fā)明將上述兩步合為一步。動(dòng)作選擇模塊根據(jù)輸入的網(wǎng)絡(luò)收益向量，采用一定的探索方法，從動(dòng)作集合中選擇一個(gè)動(dòng)作并執(zhí)行。被執(zhí)行的動(dòng)作被記錄于參數(shù)更新模塊；步驟406，按照某種方法計(jì)算網(wǎng)絡(luò)所獲得的回報(bào)。回報(bào)是驅(qū)使無線重配置支持功能模塊合理選擇動(dòng)作的直接信號。在選擇并執(zhí)行一個(gè) 動(dòng)作后，根據(jù)某種方法，計(jì)算網(wǎng)絡(luò)所獲得的回報(bào)；步驟407,實(shí)現(xiàn)聯(lián)合會(huì)話接納控制和帶寬分配；步驟408，參數(shù)更新模塊對以上得到的數(shù)據(jù)信息進(jìn)行必要的更新。此步驟在參數(shù)更新模塊中進(jìn)行。每輪迭代結(jié)束時(shí)，為了滿足強(qiáng)化學(xué)習(xí) 的收斂性要求，對所有相關(guān)參數(shù)以一定的規(guī)則進(jìn)行更新；步驟409，判斷訓(xùn)練隊(duì)列是否被填滿。如果訓(xùn)練隊(duì)列已經(jīng)被填滿，則跳轉(zhuǎn)到步驟410 ，將緩存在訓(xùn)練隊(duì)列中的網(wǎng)絡(luò)狀態(tài)向量和網(wǎng)絡(luò)收益
向量一起送入神經(jīng)網(wǎng)絡(luò)，進(jìn)行后向傳播運(yùn)算并利用運(yùn)算結(jié)果調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)值。如果訓(xùn)練隊(duì)列未被填滿，則將跳轉(zhuǎn)到步驟401，判斷新會(huì)話是否到達(dá)；步驟411,判斷迭代的結(jié)束條件是否滿足。如果結(jié)束條件滿足，則結(jié)束迭代過程(如步驟412)。如果結(jié)束條件不滿足，則將跳轉(zhuǎn)到步驟401，繼續(xù)判斷新會(huì)話是否到達(dá)，進(jìn)行新一輪的迭代。最后應(yīng)說明的是，以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非限制，盡管參照較佳實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)說明，本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解，可以對本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換，而不脫離本發(fā)明技術(shù)方案的精神和范圍。
權(quán)利要求
1、一種基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理系統(tǒng)，所述系統(tǒng)包括可重配置移動(dòng)終端，用于發(fā)起多種不同業(yè)務(wù)類型的會(huì)話請求；通過無線網(wǎng)絡(luò)與所述可重配置移動(dòng)終端連接的本地?zé)o線資源管理器，用于接收從所述可重配置移動(dòng)終端發(fā)送的會(huì)話請求，管理無線接入網(wǎng)絡(luò)內(nèi)部的無線資源分配；通過所述網(wǎng)絡(luò)與所述本地?zé)o線資源管理器連接的無線重配置支持功能模塊，用于接收由所述本地?zé)o線資源管理器提供的對應(yīng)無線接入網(wǎng)絡(luò)的資源管理信息，收集所述本地?zé)o線資源管理器所提供的對應(yīng)無線接入網(wǎng)絡(luò)的資源管理信息，根據(jù)各種網(wǎng)絡(luò)性能參數(shù)指標(biāo)采用強(qiáng)化學(xué)習(xí)方法進(jìn)行“試錯(cuò)”交互，依照相應(yīng)的判定準(zhǔn)則，決定是否立即接納新會(huì)話，并在接納時(shí)，決定接入到哪一個(gè)無線接入網(wǎng)絡(luò)中并分配相應(yīng)的業(yè)務(wù)帶寬；通過所述網(wǎng)絡(luò)與所述無線重配置支持功能模塊連接的重配置管理器，位于公共的核心網(wǎng)域或者可信的第三方域，用于接收從無線重配置支持功能模塊上報(bào)的聯(lián)合無線資源管理決策信息，并且向所述無線重配置支持功能模塊發(fā)送運(yùn)營商的管理策略信息。
2、根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理系統(tǒng)，還包括參數(shù)初始化模塊，訓(xùn)練隊(duì)列模塊、神經(jīng)網(wǎng)絡(luò)模塊、動(dòng) 作選擇模塊、以及參數(shù)更新模塊，其中所述參數(shù)初始化模塊與所述訓(xùn)練隊(duì)列模塊、所述神經(jīng)網(wǎng)絡(luò)模塊和無線網(wǎng)絡(luò)環(huán)境連接，用于對強(qiáng)化學(xué)習(xí)方法中所有需要被初始化的參數(shù)進(jìn)行初始化，構(gòu)造出當(dāng)前網(wǎng)絡(luò)狀態(tài)，并將結(jié)果轉(zhuǎn)換為一維參數(shù)向量發(fā)送給神經(jīng)網(wǎng)絡(luò)模塊，同時(shí)緩存在所述訓(xùn)練隊(duì)列模塊中；所述訓(xùn)練隊(duì)列模塊與所述神經(jīng)網(wǎng)絡(luò)模塊和所述參數(shù)更新模塊連接，用于緩存輸入的網(wǎng)絡(luò)狀態(tài)向量和更新后網(wǎng)絡(luò)收益向量，作為神經(jīng) 網(wǎng)絡(luò)訓(xùn)練的輸入和目標(biāo)輸出，當(dāng)訓(xùn)練隊(duì)列模塊裝滿后將網(wǎng)絡(luò)狀態(tài)向量和網(wǎng)絡(luò)收益向量以批處理方式送入神經(jīng)網(wǎng)絡(luò)模塊，完成對神經(jīng)網(wǎng)絡(luò)內(nèi)權(quán)值和偏置的后向傳播訓(xùn)練；所述神經(jīng)網(wǎng)絡(luò)模塊與所述參數(shù)更新模塊和所述動(dòng)作選擇模塊連接，用于運(yùn)算由所述參數(shù)初始化模塊發(fā)送來的一維參數(shù)向量，在輸出層得到當(dāng)前網(wǎng)絡(luò)狀態(tài)下所有可能動(dòng)作所對應(yīng)的網(wǎng)絡(luò)收益，并組成網(wǎng)絡(luò) 收益向量，發(fā)送到所述動(dòng)作選擇模塊和所述參數(shù)更新模塊；所述動(dòng)作選擇模塊與所述參數(shù)更新模塊和所述無線網(wǎng)絡(luò)環(huán)境連接，用于根據(jù)輸入的網(wǎng)絡(luò)收益向量，采用一定的探索方法，從動(dòng)作集合中選擇一個(gè)動(dòng)作并執(zhí)行，被執(zhí)行的動(dòng)作被記錄于所述參數(shù)更新模塊；所述參數(shù)更新模塊與所述無線網(wǎng)絡(luò)環(huán)境連接，用于參數(shù)更新和網(wǎng) 絡(luò)收益向量的更新，并將更新后的網(wǎng)絡(luò)收益向量送入所述訓(xùn)練隊(duì)列模塊中。
3、根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理系統(tǒng)，其中所述動(dòng)作選擇模塊輸出的動(dòng)作信息傳遞給無線環(huán)境模塊，同時(shí)所述參數(shù)更新模塊需要獲得由無線環(huán)境模塊提供的更新信息，并且所述參數(shù)初始化模塊需要根據(jù)無線環(huán)境模塊提供的網(wǎng)絡(luò)狀態(tài)信息進(jìn) 行初始化過程。
4、根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理系統(tǒng)，其中所述系統(tǒng)內(nèi)存在的無線接入網(wǎng)絡(luò)屬于同一運(yùn)營商，并且所述無線接入網(wǎng)絡(luò)的覆蓋范圍、業(yè)務(wù)能力、小區(qū)容量各不相同。
5、根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理系統(tǒng)，其中所述系統(tǒng)利用分布式控制和集中式控制兩種方式進(jìn)行控制，在所述分布式控制方式中，每個(gè)無線接入技術(shù)的本地?zé)o線資源管理器都與對應(yīng)的一個(gè)無線重配置支持功能模塊連接；在所述集中式控制中，所有無線接入技術(shù)的本地?zé)o線資源管理器都與一個(gè)公共的無線重配置支持功能模塊連接。
6、根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理系統(tǒng)，其中所述可重配置移動(dòng)終端接入網(wǎng)絡(luò)時(shí)，自動(dòng)完成軟件安裝與網(wǎng)絡(luò)設(shè)置。
7、根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理系統(tǒng)，其中所述可重配置移動(dòng)終端為具有重配置功能和移動(dòng)通信功能的個(gè)人掌上電腦、移動(dòng)計(jì)算機(jī)或手機(jī)。
8、一種在自主聯(lián)合無線資源管理系統(tǒng)中的基于強(qiáng)化學(xué)習(xí)的自主聯(lián) 合無線資源管理方法，所述系統(tǒng)包括可重配置移動(dòng)終端、通過無線網(wǎng) 絡(luò)與所述可重配置移動(dòng)終端連接的本地?zé)o線資源管理器、通過所述網(wǎng) 絡(luò)與所述本地?zé)o線資源管理器連接的無線重配置支持功能模塊、通過所述網(wǎng)絡(luò)與所述無線重配置支持功能模塊連接的重配置管理器，所述方法包括所述可重配置移動(dòng)終端發(fā)起多種不同業(yè)務(wù)類型的會(huì)話請求；所述本地?zé)o線資源管理器接收從所述可重配置移動(dòng)終端發(fā)送的會(huì)話請求，管理無線接入網(wǎng)絡(luò)內(nèi)部的無線資源分配；所述無線重配置支持功能模塊接收由所述本地?zé)o線資源管理器提供的對應(yīng)無線接入網(wǎng)絡(luò)的資源管理信息，收集所述本地?zé)o線資源管理器所提供的對應(yīng)無線接入網(wǎng)絡(luò)的資源管理信息，根據(jù)各種網(wǎng)絡(luò)性能參數(shù)指標(biāo)采用強(qiáng)化學(xué)習(xí)方法進(jìn)行"試錯(cuò)，，交互，依照相應(yīng)的判定準(zhǔn)則，決定是否立即接納新會(huì)話，并在接納時(shí)，決定接入到哪一個(gè)無線接入網(wǎng) 絡(luò)中并分配相應(yīng)的業(yè)務(wù)帶寬；所述重配置管理器位于公共的核心網(wǎng)域或者可信的第三方域，接收從無線重配置支持功能模塊上報(bào)的聯(lián)合無線資源管理決策信息，并且向所述無線重配置支持功能模塊發(fā)送運(yùn)營商的管理策略信息.
9、根據(jù)權(quán)利要求8所述的自主聯(lián)合無線資源管理方法，其中所述系統(tǒng)還包括參數(shù)初始化模塊，訓(xùn)練隊(duì)列模塊、神經(jīng)網(wǎng)絡(luò)模塊、動(dòng)作選捧模塊、以及參數(shù)更新模塊，所述學(xué)習(xí)方法包括以下步驟(1) 在所述參數(shù)初始化模塊中對強(qiáng)化學(xué)習(xí)方法中所有需要被初始化的參數(shù)進(jìn)行初始化；(2) 當(dāng)新會(huì)話到達(dá)時(shí)，所述無線重配置支持功能模塊需要搜集各無線接入網(wǎng)絡(luò)的覆蓋條件、負(fù)載信息、到達(dá)會(huì)話的業(yè)務(wù)特征等各種網(wǎng) 絡(luò)信息，構(gòu)造出當(dāng)前網(wǎng)絡(luò)狀態(tài)，并將結(jié)果轉(zhuǎn)換為一維參數(shù)向量網(wǎng)絡(luò)狀態(tài)向量發(fā)送給所述神經(jīng)網(wǎng)絡(luò)模塊，同時(shí)緩存在所述訓(xùn)練隊(duì)列模塊中；(3) 步驟(2)中的所述一維參數(shù)向量經(jīng)過所述神經(jīng)網(wǎng)絡(luò)模塊的運(yùn)算后，在輸出層得到當(dāng)前網(wǎng)絡(luò)狀態(tài)下所有可能動(dòng)作所對應(yīng)的網(wǎng)絡(luò)收益，并組成網(wǎng)絡(luò)收益向量，所述網(wǎng)絡(luò)收益向量同時(shí)被發(fā)送到所述動(dòng)作選擇模塊和所述參數(shù)更新模塊；(4 )所述動(dòng)作選擇模塊根據(jù)輸入的步驟;(3 )所述網(wǎng)絡(luò)收益向量，采用一定的探索方法，從動(dòng)作集合中選擇一個(gè)動(dòng)作并執(zhí)行，被執(zhí)行的動(dòng)作被記錄于所述參數(shù)更新模塊；(5) 在選擇并執(zhí)行一個(gè)動(dòng)作后，無線網(wǎng)路環(huán)境做出反應(yīng)，無線網(wǎng) 絡(luò)環(huán)境狀態(tài)變量有所改變，所述參數(shù)更新模塊收集無線網(wǎng)絡(luò)環(huán)境所做出的反應(yīng)并計(jì)算出所獲得的回報(bào)；(6) 在所述參數(shù)更新模塊中進(jìn)行，新的會(huì)話到達(dá)，就由步驟(2) 和(3)得到下一網(wǎng)絡(luò)狀態(tài)及其所有的網(wǎng)絡(luò)收益向量，結(jié)合記錄的動(dòng)作以及相應(yīng)的回報(bào)，更新緩存的網(wǎng)絡(luò)收益向量，并被送入所述訓(xùn)練隊(duì)列模塊中；(7) 在參數(shù)更新模塊中，每輪迭代過程結(jié)束時(shí)，為了滿足強(qiáng)化學(xué) 習(xí)的收斂性要求，對所有相關(guān)參數(shù)以一定的規(guī)則進(jìn)行更新；(8) 每次迭代過程將產(chǎn)生一對網(wǎng)絡(luò)狀態(tài)向量和網(wǎng)絡(luò)收益向量，分別作為輸入向量和相應(yīng)的目標(biāo)輸出向量被緩存到所述訓(xùn)練隊(duì)列模塊中，若所述訓(xùn)練隊(duì)列模塊被填滿，所有緩存的網(wǎng)絡(luò)狀態(tài)向量和網(wǎng)絡(luò)收益向量將被一起送入所述神經(jīng)網(wǎng)絡(luò)進(jìn)行后向傳播運(yùn)算以調(diào)整神經(jīng)網(wǎng)絡(luò) 的權(quán)值，從而獲得對于網(wǎng)絡(luò)收益的更加精確的函數(shù)近似。
10、根據(jù)權(quán)利要求9所述的自主聯(lián)合無線資源管理方法，其中步驟(4)還包括步驟分配無線接入技術(shù)或者拒絕接入，為接納的會(huì)話分配一定的業(yè)務(wù) 帶寬。
11、根據(jù)權(quán)利要求9所述的自主聯(lián)合無線資源管理方法，其中在步驟(5)中，回報(bào)具體為由所述參數(shù)更新模塊采用相應(yīng)算法對無線網(wǎng) 絡(luò)環(huán)境因動(dòng)作而做出的反應(yīng)進(jìn)行計(jì)算得到的。
12、根據(jù)權(quán)利要求9所述的自主聯(lián)合無線資源管理方法，其中所述步驟(7)或(8)中迭代過程為步驟(2) - (7)的過程。
13、根據(jù)權(quán)利要求9所述的自主聯(lián)合無線資源管理方法，其中利用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對強(qiáng)化學(xué)習(xí)中狀態(tài)空間的泛化。
全文摘要
本發(fā)明公開了一種基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理系統(tǒng)及方法，當(dāng)可重配置移動(dòng)終端發(fā)起新會(huì)話請求時(shí)，無線重配置支持功能模塊收集本地?zé)o線資源管理器所提供的各異構(gòu)無線接入網(wǎng)絡(luò)的資源管理信息，根據(jù)各種網(wǎng)絡(luò)性能參數(shù)指標(biāo)采用強(qiáng)化學(xué)習(xí)方法進(jìn)行“試錯(cuò)”交互，依照相應(yīng)的判定準(zhǔn)則，決定是否立即接納新會(huì)話，如果接納，決定接入到哪一個(gè)無線接入網(wǎng)絡(luò)中并分配相應(yīng)的業(yè)務(wù)帶寬，否則拒絕該會(huì)話。然后向重配置管理器上報(bào)聯(lián)合無線資源管理決策信息。通過基于比例公平頻譜效用的強(qiáng)化信號，無線重配置支持功能模塊能以“試錯(cuò)”迭代的在線學(xué)習(xí)方式找到優(yōu)化的聯(lián)合無線資源管理策略，在阻塞率和頻譜效用之間獲得很好的折衷。
文檔編號H04L12/28GK101132363SQ20071012018
公開日2008年2月27日申請日期2007年8月10日優(yōu)先權(quán)日2007年8月10日
發(fā)明者馮志勇, 平張, 張永靖, 憲曾, 圓薛, 黎文邊申請人:北京郵電大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馮志勇;張平;張永靖;黎文邊;曾憲;薛圓
技術(shù)所有人：北京郵電大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號時(shí)頻分析理論與測試系統(tǒng)設(shè)計(jì) 2.汽車檢測系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理系統(tǒng)和方法