專利名稱:基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種無線通信技術(shù)領(lǐng)域的無線資源管理系統(tǒng)及方法, 尤其涉及一種基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理系統(tǒng)及方法。
背景技術(shù):
隨著技術(shù)的發(fā)展,多種異構(gòu)無線接入技術(shù)的共存將成為未來B3G 無線通信環(huán)境的一個(gè)重要特征。重疊的網(wǎng)絡(luò)覆蓋、多樣的業(yè)務(wù)需求以必須。'為此,、人們提出了多種^合無線資源管理的;法以iy^更好的系統(tǒng)性能、頻譜效率和用戶體驗(yàn)。端到端重配置技術(shù)的出現(xiàn),為終端 和相關(guān)網(wǎng)元設(shè)備提供了動(dòng)態(tài)選擇、配置無線接入技術(shù)及工作頻率的能 力,使得對各種無線資源的聯(lián)合管理更加靈活和可行??紤]到業(yè)務(wù)需 求在空間和時(shí)間上的動(dòng)態(tài)變化及其不規(guī)則性, 一個(gè)同時(shí)運(yùn)營多個(gè)無線 接入技術(shù)的網(wǎng)絡(luò)運(yùn)營商將很難為其大量的基站和接入點(diǎn)配置最佳的聯(lián) 合無線資源管理策略。為實(shí)現(xiàn)網(wǎng)絡(luò)對資源的自主管理以減少人力參與 的規(guī)劃和維護(hù)的成本,需要網(wǎng)絡(luò)具有能根據(jù)實(shí)際運(yùn)行情況不斷修正其 控制策略的自主學(xué)習(xí)能力。強(qiáng)化學(xué)習(xí)是一種具有自主學(xué)習(xí)能力的"試錯(cuò),,的在線學(xué)習(xí)技術(shù)。學(xué) 習(xí)者通過與環(huán)境不斷交互獲得學(xué)習(xí)經(jīng)驗(yàn),進(jìn)而逐步改進(jìn)其行為策略。 強(qiáng)化學(xué)習(xí)以其靈活性和自適應(yīng)性,廣泛應(yīng)用于機(jī)器人和自動(dòng)控制領(lǐng)域, 并被引入無線蜂窩網(wǎng)絡(luò)的動(dòng)態(tài)信道分配問題中?,F(xiàn)有技術(shù)中,針對異構(gòu)無線網(wǎng)絡(luò)中的聯(lián)合接納控制與帶寬分配問 題,存在的缺點(diǎn)在于模糊推理規(guī)則的定義以及模糊化/去模糊化函數(shù)參 數(shù)的選擇很大程度上依靠人工控制,主觀性大,缺乏一定設(shè)計(jì)原則的 指導(dǎo)與合理性論證。雖然引入強(qiáng)化學(xué)習(xí)在一定程度上克服了函數(shù)參數(shù)
選擇上的主觀性,但卻沒能對推理規(guī)則進(jìn)行自主、動(dòng)態(tài)地的調(diào)整與控 制,算法最終結(jié)果的性能難以保證。若考慮更多的輸入語言變量(比 如終端移動(dòng)速度、重配置能力等),則各種模糊推理規(guī)則的排列組合 將以幾何級數(shù)增長,在缺乏有效的設(shè)計(jì)原則指導(dǎo)的情況下,基于查找 表的人工定義方式將面臨極大的設(shè)計(jì)復(fù)雜度,實(shí)用性降低。發(fā)明內(nèi)容針對現(xiàn)有技術(shù)中存在的這些缺點(diǎn),本發(fā)明提出了一種基于強(qiáng)化學(xué) 習(xí)的自主聯(lián)合無線資源管理系統(tǒng)及方法,它適用于異構(gòu)無線環(huán)境中B3G系統(tǒng)進(jìn)行自主聯(lián)合會(huì)話接納控制和帶寬分配。本發(fā)明提出了 一種基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理方法, 當(dāng)可重配置移動(dòng)終端發(fā)起新會(huì)話請求時(shí),無線重配置支持功能模塊收 集本地?zé)o線資源管理器所提供的各異構(gòu)無線接入網(wǎng)絡(luò)的資源管理信 息,根據(jù)各種網(wǎng)絡(luò)性能參數(shù)指標(biāo)采用強(qiáng)化學(xué)習(xí)方法進(jìn)行"試錯(cuò)"交互, 依照相應(yīng)的判定準(zhǔn)則,決定是否立即接納新會(huì)話,如果接納,決定接 入到哪一個(gè)無線接入網(wǎng)絡(luò)中并分配相應(yīng)的業(yè)務(wù)帶寬,否則拒絕該會(huì)話。 然后向重配置管理器上報(bào)聯(lián)合無線資源管理決策信息。通過基于比例 公平頻鐠效用的強(qiáng)化信號,無線重配置支持功能模塊能以"試錯(cuò),,迭代 的在線學(xué)習(xí)方式找到優(yōu)化的聯(lián)合無線資源管理策略,在阻塞率和頻鐠 效用之間獲得很好的折衷。上述技術(shù)方案中,還包括基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理 方法,此方法步驟如下步驟1、參數(shù)初始化,此步驟在所述參數(shù)初始化模塊中進(jìn)行,對 強(qiáng)化學(xué)習(xí)方法中所有需要被初始化的參數(shù)進(jìn)行初始化;步驟2、狀態(tài)構(gòu)建,此步驟在所述參數(shù)初始化模塊中進(jìn)行,當(dāng)新 會(huì)話到達(dá)時(shí),所述無線重配置支持功能模塊需要搜集各無線接入網(wǎng)絡(luò) 的覆蓋條件、負(fù)栽信息、到達(dá)會(huì)話的業(yè)務(wù)特征等各種網(wǎng)絡(luò)信息,構(gòu)造 出當(dāng)前網(wǎng)絡(luò)狀態(tài),并將結(jié)果轉(zhuǎn)換為一維參數(shù)向量(網(wǎng)絡(luò)狀態(tài)向量)發(fā) 送給所述神經(jīng)網(wǎng)絡(luò)模塊,同時(shí)緩存在所述訓(xùn)練隊(duì)列模塊中;步驟3、網(wǎng)絡(luò)收益向量的獲得,步驟2所述一維參數(shù)向量經(jīng)過所 述神經(jīng)網(wǎng)絡(luò)模塊的運(yùn)算后,在輸出層得到當(dāng)前網(wǎng)絡(luò)狀態(tài)下所有可能動(dòng) 作所對應(yīng)的網(wǎng)絡(luò)收益,并組成網(wǎng)絡(luò)收益向量,所述網(wǎng)絡(luò)收益向量同時(shí) 被發(fā)送到所述動(dòng)作選擇模塊和所述參數(shù)更新模塊;步驟4、動(dòng)作選擇和執(zhí)行,所述動(dòng)作選擇模塊根據(jù)輸入的步驟3 所述網(wǎng)絡(luò)收益向量,采用一定的探索方法,從動(dòng)作集合中選擇一個(gè)動(dòng) 作并執(zhí)行,被執(zhí)行的動(dòng)作被記錄于所述參數(shù)更新模塊;步驟5、獲得回報(bào),在選擇并執(zhí)行一個(gè)動(dòng)作后,無線網(wǎng)路環(huán)境做 出反應(yīng),無線網(wǎng)絡(luò)環(huán)境狀態(tài)變量有所改變,所述參數(shù)更新模塊收集無 線網(wǎng)絡(luò)環(huán)境所做出的反應(yīng)并計(jì)算出所獲得的回報(bào);步驟6、網(wǎng)絡(luò)收益向量的更新,此步驟在所述參數(shù)更新模塊中進(jìn) 行,新的會(huì)話到達(dá),就由步驟2和3得到下一網(wǎng)絡(luò)狀態(tài)及其所有的網(wǎng) 絡(luò)收益向量,結(jié)合記錄的動(dòng)作以及相應(yīng)的回報(bào),更新緩存的網(wǎng)絡(luò)收益 向量,并被送入所述訓(xùn)練隊(duì)列模塊中;步驟7、參數(shù)更新,此步驟在參數(shù)更新模塊中進(jìn)行,每輪迭代過 程結(jié)束時(shí),為了滿足強(qiáng)化學(xué)習(xí)的收斂性要求,對所有相關(guān)參數(shù)以一定 的規(guī)則進(jìn)行更新;步驟8、神經(jīng)網(wǎng)絡(luò)更新,每次迭代過程將產(chǎn)生一對網(wǎng)絡(luò)狀態(tài)向量 和網(wǎng)絡(luò)收益向量,分別作為輸入向量和相應(yīng)的目標(biāo)輸出向量被緩存到 所述訓(xùn)練隊(duì)列模塊中,若所述訓(xùn)練隊(duì)列模塊被填滿,所有緩存的網(wǎng)絡(luò) 狀態(tài)向量和網(wǎng)絡(luò)收益向量將被一起送入所述神經(jīng)網(wǎng)絡(luò)進(jìn)行后向傳播運(yùn) 算以調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)值,從而獲得對于網(wǎng)絡(luò)收益的更加精確的函數(shù) 近似。上述技術(shù)方案中,還包括所述強(qiáng)化學(xué)習(xí)方法中的動(dòng)作選擇和執(zhí) 行步驟,具體分為兩步,首先是分配無線接入技術(shù)或者拒絕接入,然 后是為接納的會(huì)話分配一定的業(yè)務(wù)帶寬。上述技術(shù)方案中,還包括利用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對強(qiáng)化學(xué)習(xí)中狀態(tài) 空間的泛化。本發(fā)明提出了 一種基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理系統(tǒng)
包括可重配置移動(dòng)終端,通過重配置工作在多種無線接入技術(shù)下,用 于發(fā)起多種不同業(yè)務(wù)類型的會(huì)話請求,并通過網(wǎng)絡(luò)發(fā)送給本地?zé)o線 資源管理器;本地?zé)o線資源管理器,通過網(wǎng)絡(luò)與無線重配置支持功能模塊連接, 用于管理某個(gè)無線接入網(wǎng)絡(luò)內(nèi)部的無線資源分配,并將所屬無線接 入網(wǎng)絡(luò)的資源管理信息提供給無線重配置支持功能模塊;無線重配置支持功能模塊,通過網(wǎng)絡(luò)與所述本地?zé)o線資源管理器 和重配置管理器連接,用于收集所述本地?zé)o線資源管理器所提供的 各無線接入網(wǎng)絡(luò)的資源管理信息,根據(jù)各種網(wǎng)絡(luò)性能參數(shù)指標(biāo)采用強(qiáng) 化學(xué)習(xí)方法進(jìn)行"試錯(cuò),,交互,依照相應(yīng)的判定準(zhǔn)則,決定是否立即接 納新會(huì)話,如果接納,決定接入到哪一個(gè)無線接入網(wǎng)絡(luò)中并分配相應(yīng) 的業(yè)務(wù)帶寬,否則拒絕該會(huì)話。并向重配置管理器上報(bào)聯(lián)合無線資源 管理決策信息;重配置管理器,位于公共的核心網(wǎng)域或者可信的第三方域,通過 網(wǎng)絡(luò)與所述無線重配置支持功能模塊連接,用于向所述無線重配置 支持功能模塊發(fā)送運(yùn)營商的管理策略信息。上述技術(shù)方案中,無線重配置支持功能模塊包括參數(shù)初始化模塊,用于對強(qiáng)化學(xué)習(xí)方法中所有需要被初始化的參 數(shù)進(jìn)行初始化,構(gòu)造出當(dāng)前網(wǎng)絡(luò)狀態(tài),并將結(jié)果轉(zhuǎn)換為一維參數(shù)向量 (網(wǎng)絡(luò)狀態(tài)向量)發(fā)送給神經(jīng)網(wǎng)絡(luò)模塊,同時(shí)緩存在訓(xùn)練隊(duì)列模塊中;訓(xùn)練隊(duì)列模塊,用于緩存輸入的網(wǎng)絡(luò)狀態(tài)向量和更新后網(wǎng)絡(luò)收益 向量,作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練的輸入和目標(biāo)輸出,當(dāng)訓(xùn)練隊(duì)列模塊裝滿后 將網(wǎng)絡(luò)狀態(tài)向量和網(wǎng)絡(luò)收益向量以批處理方式送入神經(jīng)網(wǎng)絡(luò)模塊,完 成對神經(jīng)網(wǎng)絡(luò)內(nèi)權(quán)值和偏置的后向傳播訓(xùn)練;神經(jīng)網(wǎng)絡(luò)模塊,用于運(yùn)算由參數(shù)初始化模塊發(fā)送來的一維參數(shù)向 量,在輸出層得到當(dāng)前網(wǎng)絡(luò)狀態(tài)下所有可能動(dòng)作所對應(yīng)的網(wǎng)絡(luò)收益, 并組成網(wǎng)絡(luò)收益向量,發(fā)送到動(dòng)作選擇模塊和參數(shù)更新模塊;動(dòng)作選擇模塊,用于根據(jù)輸入的網(wǎng)絡(luò)收益向量,采用一定的探索
方法,從動(dòng)作集合中選擇一個(gè)動(dòng)作并執(zhí)行,被執(zhí)行的動(dòng)作被記錄于參數(shù)更新模塊;參數(shù)更新模塊,用于參數(shù)更新和網(wǎng)絡(luò)收益向量的更新,并將更新 后的網(wǎng)絡(luò)收益向量送入訓(xùn)練隊(duì)列模塊中。上述技術(shù)方案中,還包括無線環(huán)境模塊,此處提到的無線環(huán)境 模塊是對外部無線環(huán)境的一種抽象,它用于接收動(dòng)作選擇模塊中輸出 的動(dòng)作信息,并將當(dāng)前網(wǎng)絡(luò)的各種狀態(tài)信息進(jìn)行匯總,并將需要更新 的信息輸送給參數(shù)更新模塊,同時(shí)也提供參數(shù)初始化模塊所需要的各 種網(wǎng)絡(luò)狀態(tài)信息。上述技術(shù)方案中,還包括系統(tǒng)架構(gòu)可分為分布式控制和集中式 控制兩種控制方式。所述分布式控制,指每個(gè)無線接入技術(shù)的本地?zé)o 線資源管理器都與對應(yīng)的一個(gè)無線重配置支持功能模塊連接;所述集 中式控制,指所有無線接入技術(shù)的本地?zé)o線資源管理器都與一個(gè)公共 的無線重配置支持功能模塊連接。本發(fā)明的基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理系統(tǒng)及方法,適 用于異構(gòu)無線環(huán)境中B3G系統(tǒng)進(jìn)行自主聯(lián)合會(huì)話接納控制和帶寬分 配。通過基于比例公平頻鐠效用的強(qiáng)化信號,無線重配置支持功能模 塊能以"試錯(cuò),,迭代的在線學(xué)習(xí)方式找到優(yōu)化的聯(lián)合無線資源管理策 略,在阻塞率和頻譜效用之間獲得很好的折衷。本發(fā)明使得網(wǎng)絡(luò)具有 根據(jù)實(shí)際運(yùn)行情況不斷修正其控制策略的自主學(xué)習(xí)能力,從而實(shí)現(xiàn)網(wǎng) 絡(luò)對資源的自主管理,從而盡量減少了人工參與的規(guī)劃和維護(hù)的成本。此外,本發(fā)明還利用神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)對強(qiáng)化學(xué)習(xí)中狀態(tài)空間的泛 化,即采用神經(jīng)網(wǎng)絡(luò)來替代傳統(tǒng)的窮舉式查找表,以克服連續(xù)環(huán)境狀 態(tài)空間下的存儲和查找困難,不但極大地節(jié)約了存儲空間,而且降低 了設(shè)計(jì)和計(jì)算復(fù)雜度。
圖1為本發(fā)明的異構(gòu)無線環(huán)境的自主聯(lián)合會(huì)話接納控制和帶寬分 配方法整體系統(tǒng)架構(gòu)流程圖2為本發(fā)明的異構(gòu)無線環(huán)境下集中式和分布式自主聯(lián)合會(huì)話接納控制和帶寬分配系統(tǒng)架構(gòu)圖;圖3為本發(fā)明無線重配置支持功能模塊中的強(qiáng)化學(xué)習(xí)方法圖; 圖4為本發(fā)明基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合會(huì)話接納控制和帶寬分配方法流程圖。
具體實(shí)施方式
下面通過附圖和實(shí)施例,對本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。圖1例示了本發(fā)明的異構(gòu)無線環(huán)境的自主聯(lián)合會(huì)話接納控制和帶 寬分配方法整體系統(tǒng)架構(gòu)流程圖,具體流程步驟如下首先,在步驟10中,可配置移動(dòng)終端發(fā)起新會(huì)話請求;其次,在步驟ll中,無線重配置支持功能模塊收集本地?zé)o線資源 管理器中所提供的各無線接入網(wǎng)絡(luò)資源管理信息;然后,在步驟12中,無線重配置支持功能模塊根據(jù)各種網(wǎng)絡(luò)性能 參數(shù)指標(biāo)采用強(qiáng)化學(xué)習(xí)方法進(jìn)行"試錯(cuò),,交互;在步驟13中,依照相應(yīng)的判定準(zhǔn)則決定是否接納新會(huì)話。如果接 納該新會(huì)話,則如步驟14所示,決定接入到哪個(gè)無線接入網(wǎng)絡(luò),并分 配相應(yīng)的業(yè)務(wù)帶寬,如果依據(jù)判定準(zhǔn)則,不能接納該新會(huì)話,則將拒 絕這個(gè)新會(huì)話或?qū)⑦@個(gè)會(huì)話請求重定向到其他有重疊覆蓋的網(wǎng)絡(luò)中;最后,如步驟15所示,將由無線重配置支持功能模塊向重配置管 理器上報(bào)聯(lián)合無線資源管理決策信息。圖2例示了本發(fā)明的異構(gòu)無線環(huán)境下集中式和分布式自主聯(lián)合會(huì) 話接納控制和帶寬分配系統(tǒng)架構(gòu)圖,具體各部分功能描述如下首先,根據(jù)本地?zé)o線資源管理器與無線重配置支持功能模塊的對 應(yīng)關(guān)系,系統(tǒng)架構(gòu)可分為集中式控制和分布式控制兩種方式如果所 有無線接入技術(shù)的本地?zé)o線資源管理器都與一個(gè)公共的無線重配置支 持功能模塊連接,則稱為集中式控制方式;如果每個(gè)無線接入技術(shù)的 本地?zé)o線資源管理器都與自己專屬的無線重配置支持功能模塊連接,
則稱為分布式控制方式。其次,整個(gè)系統(tǒng)架構(gòu)中包括以下四個(gè)主要模塊可重配置移動(dòng)終端,它可通過重配置工作在多種無線接入技術(shù)下, 并可以發(fā)起多種不同業(yè)務(wù)類型的會(huì)話請求。用戶攜帶可重配置終端位 于重疊覆蓋區(qū)域時(shí),可以通過購買任意一種無線接入網(wǎng)絡(luò)的業(yè)務(wù),享 受各種無線應(yīng)用。所述終端接入網(wǎng)絡(luò)時(shí),能夠自動(dòng)完成軟件安裝與網(wǎng) 絡(luò)設(shè)置。本地?zé)o線資源管理器,負(fù)責(zé)管理某個(gè)無線接入網(wǎng)絡(luò)內(nèi)部的無線資 源分配,包括帶寬、信道、碼子等無線資源。無線重配置支持功能模塊,當(dāng)終端向某個(gè)無線接入網(wǎng)絡(luò)發(fā)起會(huì)話 請求時(shí),無線重配置支持功能模塊收集本地?zé)o線資源管理器所提供的 各無線接入網(wǎng)絡(luò)的資源管理信息,根據(jù)各種網(wǎng)絡(luò)性能參數(shù)指標(biāo)以及相 應(yīng)的判定準(zhǔn)則,決定是否立即接納新會(huì)話或者將其重定向到其它重疊 覆蓋的無線接入網(wǎng)絡(luò)中。并向重配置管理器上報(bào)聯(lián)合無線資源管理決 策信息。重配置管理器,它是重配置管理平面邏輯模型的一個(gè)完整的物理 實(shí)現(xiàn),被定位在可重配置網(wǎng)絡(luò)層次結(jié)構(gòu)的最高一級,位于公共的核心 網(wǎng)域或者可信的第三方域。重配置管理器可以向無線重配置支持功能 模塊發(fā)送運(yùn)營商的管理策略信息。其中,重配置管理平面是一個(gè)獨(dú)立 于具體網(wǎng)絡(luò)和協(xié)議的邏輯模型,用于規(guī)范所有與重配置相關(guān)的過程和 信令。由一系列與具體物理實(shí)現(xiàn)無關(guān)的控制與管理功能實(shí)體組成,是 具體網(wǎng)絡(luò)元素的抽象表達(dá)。圖3例示了本發(fā)明無線重配置支持功能模塊中的強(qiáng)化學(xué)習(xí)方法 圖,具體各部分模塊的功能描述如下參數(shù)初始化模塊,此模塊主要是對強(qiáng)化學(xué)習(xí)方法中所有需要被初 始化的參數(shù)進(jìn)行初始化并包括初始狀態(tài)構(gòu)建過程。當(dāng)新會(huì)話到達(dá)時(shí),蓋條件、負(fù)栽信息、到達(dá)會(huì)話的業(yè)務(wù)特征等各種網(wǎng)絡(luò)信息,并構(gòu)造出 當(dāng)前網(wǎng)絡(luò)狀態(tài),并將結(jié)果轉(zhuǎn)換為一維參數(shù)向量(網(wǎng)絡(luò)狀態(tài)向量)發(fā)送
給神經(jīng)網(wǎng)絡(luò)模塊,同時(shí)緩存在訓(xùn)練隊(duì)列模塊中。訓(xùn)練隊(duì)列模塊,用于緩存輸入的網(wǎng)絡(luò)狀態(tài)向量和更新后網(wǎng)絡(luò)收益 向量,作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練的輸入和目標(biāo)輸出。當(dāng)訓(xùn)練隊(duì)列模塊裝滿后, 將網(wǎng)絡(luò)狀態(tài)向量和網(wǎng)絡(luò)收益向量以批處理方式送入神經(jīng)網(wǎng)絡(luò)模塊,完 成對神經(jīng)網(wǎng)絡(luò)內(nèi)權(quán)值和偏置的后向傳播訓(xùn)練。神經(jīng)網(wǎng)絡(luò)模塊,由參數(shù)初始化模塊產(chǎn)生的網(wǎng)絡(luò)狀態(tài)向量和由訓(xùn)練 隊(duì)列批量輸入的網(wǎng)絡(luò)狀態(tài)向量和網(wǎng)絡(luò)收益向量,分別作為神經(jīng)網(wǎng)絡(luò)模 塊的輸入,進(jìn)行后向傳播運(yùn)算以調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)值,從而獲得對于 網(wǎng)絡(luò)收益的更加精確的函數(shù)近似。并將網(wǎng)絡(luò)收益結(jié)果送入到參數(shù)更新 模塊中更新相應(yīng)的數(shù)據(jù)信息,同時(shí)送到動(dòng)作選擇模塊進(jìn)行動(dòng)作選擇的 輸入信息。動(dòng)作選捧模塊,動(dòng)作分為兩步,首先是分配無線接入技術(shù)或者拒 絕接入,然后是為接納的會(huì)話分配一定的業(yè)務(wù)帶寬。本發(fā)明將上述兩 步合為一步。動(dòng)作選擇模塊根據(jù)從神經(jīng)網(wǎng)絡(luò)模塊中輸入的網(wǎng)絡(luò)收益向 量信息,并依據(jù)一定的探索方法,從動(dòng)作集合中選擇一個(gè)動(dòng)作執(zhí)行。 被執(zhí)行的動(dòng)作將被記錄于參數(shù)更新模塊中,相應(yīng)的執(zhí)行動(dòng)作被送入到 無線環(huán)境模塊中。參數(shù)更新模塊,考慮到為了滿足強(qiáng)化學(xué)習(xí)的收斂性要求,同時(shí)結(jié) 合神經(jīng)網(wǎng)絡(luò)模塊、動(dòng)作選擇模塊和無線環(huán)境模塊的輸入信息,對所有 相關(guān)參數(shù)以 一定的規(guī)則進(jìn)行更新,并將更新后的數(shù)據(jù)輸入到訓(xùn)練隊(duì)列 模塊中。無線環(huán)境模塊,此處提到的無線環(huán)境模塊是對外部無線環(huán)境的一 種抽象,無線環(huán)境模塊主要是接收動(dòng)作選擇模塊中輸出的動(dòng)作信息, 并將當(dāng)前網(wǎng)絡(luò)的各種狀態(tài)信息進(jìn)行匯總,并將需要更新的信息輸送給 參數(shù)更新模塊,同時(shí)也提供參數(shù)初始化模塊所需要的各種網(wǎng)絡(luò)狀態(tài)信 息。圖4例示了本發(fā)明基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合會(huì)話接納控制和帶寬 分配方法流程圖,具體步驟如下步驟400,首先進(jìn)行參數(shù)初始化。在參數(shù)初始化模塊中,對強(qiáng)化
學(xué)習(xí)方法中所有需要被初始化的參數(shù)進(jìn)行初始化;步驟401,判斷新會(huì)話是否到達(dá),如果有新會(huì)話到達(dá),則進(jìn)行狀 態(tài)構(gòu)建(如步驟402所示)。如果沒有新會(huì)話到達(dá),則繼續(xù)等待,進(jìn) 行新會(huì)話是否到達(dá)的判斷;步驟402,進(jìn)行狀態(tài)構(gòu)建過程,并將當(dāng)前的狀態(tài)信息轉(zhuǎn)換成狀態(tài) 向量,送往訓(xùn)練隊(duì)列模塊。當(dāng)新會(huì)話到達(dá)時(shí),無線重配置支持功能模 塊需要搜集各無線接入網(wǎng)絡(luò)的覆蓋狀況、負(fù)栽信息、到達(dá)的會(huì)話業(yè)務(wù) 特征等信息,構(gòu)造出當(dāng)前網(wǎng)絡(luò)狀態(tài),并將結(jié)果轉(zhuǎn)換為一維參數(shù)向量(網(wǎng) 絡(luò)狀態(tài)向量)送往訓(xùn)練隊(duì)列模塊中;步驟403,將網(wǎng)絡(luò)狀態(tài)向量送入神經(jīng)網(wǎng)絡(luò)模塊,經(jīng)過神經(jīng)網(wǎng)絡(luò)模 塊的運(yùn)算后,得到當(dāng)前網(wǎng)絡(luò)狀態(tài)下所有可能動(dòng)作所對應(yīng)的網(wǎng)絡(luò)收益, 并組成網(wǎng)絡(luò)收益向量。該網(wǎng)絡(luò)收益向量同時(shí)被發(fā)送到動(dòng)作選擇模塊和 參數(shù)更新模塊中;步驟404,更新網(wǎng)絡(luò)收益向量,并將其發(fā)送到訓(xùn)練隊(duì)列模塊;步驟405,動(dòng)作選擇模塊進(jìn)行動(dòng)作選擇,并將執(zhí)行的動(dòng)作記錄至 參數(shù)更新模塊中。動(dòng)作分為兩步,首先是分配無線接入技術(shù)或者拒絕 接入,然后是為接納的會(huì)話分配一定的業(yè)務(wù)帶寬。本發(fā)明將上述兩步 合為一步。動(dòng)作選擇模塊根據(jù)輸入的網(wǎng)絡(luò)收益向量,采用一定的探索 方法,從動(dòng)作集合中選擇一個(gè)動(dòng)作并執(zhí)行。被執(zhí)行的動(dòng)作被記錄于參 數(shù)更新模塊;步驟406,按照某種方法計(jì)算網(wǎng)絡(luò)所獲得的回報(bào)。回報(bào)是驅(qū)使無 線重配置支持功能模塊合理選擇動(dòng)作的直接信號。在選擇并執(zhí)行一個(gè) 動(dòng)作后,根據(jù)某種方法,計(jì)算網(wǎng)絡(luò)所獲得的回報(bào);步驟407,實(shí)現(xiàn)聯(lián)合會(huì)話接納控制和帶寬分配;步驟408,參數(shù)更新模塊對以上得到的數(shù)據(jù)信息進(jìn)行必要的更新。 此步驟在參數(shù)更新模塊中進(jìn)行。每輪迭代結(jié)束時(shí),為了滿足強(qiáng)化學(xué)習(xí) 的收斂性要求,對所有相關(guān)參數(shù)以一定的規(guī)則進(jìn)行更新;步驟409,判斷訓(xùn)練隊(duì)列是否被填滿。如果訓(xùn)練隊(duì)列已經(jīng)被填滿, 則跳轉(zhuǎn)到步驟410 ,將緩存在訓(xùn)練隊(duì)列中的網(wǎng)絡(luò)狀態(tài)向量和網(wǎng)絡(luò)收益
向量一起送入神經(jīng)網(wǎng)絡(luò),進(jìn)行后向傳播運(yùn)算并利用運(yùn)算結(jié)果調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)值。如果訓(xùn)練隊(duì)列未被填滿,則將跳轉(zhuǎn)到步驟401,判斷新 會(huì)話是否到達(dá);步驟411,判斷迭代的結(jié)束條件是否滿足。如果結(jié)束條件滿足, 則結(jié)束迭代過程(如步驟412)。如果結(jié)束條件不滿足,則將跳轉(zhuǎn)到 步驟401,繼續(xù)判斷新會(huì)話是否到達(dá),進(jìn)行新一輪的迭代。最后應(yīng)說明的是,以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非 限制,盡管參照較佳實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)說明,本領(lǐng)域的普通 技術(shù)人員應(yīng)當(dāng)理解,可以對本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換, 而不脫離本發(fā)明技術(shù)方案的精神和范圍。
權(quán)利要求
1、一種基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理系統(tǒng),所述系統(tǒng)包括可重配置移動(dòng)終端,用于發(fā)起多種不同業(yè)務(wù)類型的會(huì)話請求;通過無線網(wǎng)絡(luò)與所述可重配置移動(dòng)終端連接的本地?zé)o線資源管理器,用于接收從所述可重配置移動(dòng)終端發(fā)送的會(huì)話請求,管理無線接入網(wǎng)絡(luò)內(nèi)部的無線資源分配;通過所述網(wǎng)絡(luò)與所述本地?zé)o線資源管理器連接的無線重配置支持功能模塊,用于接收由所述本地?zé)o線資源管理器提供的對應(yīng)無線接入網(wǎng)絡(luò)的資源管理信息,收集所述本地?zé)o線資源管理器所提供的對應(yīng)無線接入網(wǎng)絡(luò)的資源管理信息,根據(jù)各種網(wǎng)絡(luò)性能參數(shù)指標(biāo)采用強(qiáng)化學(xué)習(xí)方法進(jìn)行“試錯(cuò)”交互,依照相應(yīng)的判定準(zhǔn)則,決定是否立即接納新會(huì)話,并在接納時(shí),決定接入到哪一個(gè)無線接入網(wǎng)絡(luò)中并分配相應(yīng)的業(yè)務(wù)帶寬;通過所述網(wǎng)絡(luò)與所述無線重配置支持功能模塊連接的重配置管理器,位于公共的核心網(wǎng)域或者可信的第三方域,用于接收從無線重配置支持功能模塊上報(bào)的聯(lián)合無線資源管理決策信息,并且向所述無線重配置支持功能模塊發(fā)送運(yùn)營商的管理策略信息。
2、 根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理 系統(tǒng),還包括參數(shù)初始化模塊,訓(xùn)練隊(duì)列模塊、神經(jīng)網(wǎng)絡(luò)模塊、動(dòng) 作選擇模塊、以及參數(shù)更新模塊,其中所述參數(shù)初始化模塊與所述訓(xùn)練隊(duì)列模塊、所述神經(jīng)網(wǎng)絡(luò)模 塊和無線網(wǎng)絡(luò)環(huán)境連接,用于對強(qiáng)化學(xué)習(xí)方法中所有需要被初始化的 參數(shù)進(jìn)行初始化,構(gòu)造出當(dāng)前網(wǎng)絡(luò)狀態(tài),并將結(jié)果轉(zhuǎn)換為一維參數(shù)向 量發(fā)送給神經(jīng)網(wǎng)絡(luò)模塊,同時(shí)緩存在所述訓(xùn)練隊(duì)列模塊中;所述訓(xùn)練隊(duì)列模塊與所述神經(jīng)網(wǎng)絡(luò)模塊和所述參數(shù)更新模塊連 接,用于緩存輸入的網(wǎng)絡(luò)狀態(tài)向量和更新后網(wǎng)絡(luò)收益向量,作為神經(jīng) 網(wǎng)絡(luò)訓(xùn)練的輸入和目標(biāo)輸出,當(dāng)訓(xùn)練隊(duì)列模塊裝滿后將網(wǎng)絡(luò)狀態(tài)向量 和網(wǎng)絡(luò)收益向量以批處理方式送入神經(jīng)網(wǎng)絡(luò)模塊,完成對神經(jīng)網(wǎng)絡(luò)內(nèi)權(quán)值和偏置的后向傳播訓(xùn)練;所述神經(jīng)網(wǎng)絡(luò)模塊與所述參數(shù)更新模塊和所述動(dòng)作選擇模塊連 接,用于運(yùn)算由所述參數(shù)初始化模塊發(fā)送來的一維參數(shù)向量,在輸出 層得到當(dāng)前網(wǎng)絡(luò)狀態(tài)下所有可能動(dòng)作所對應(yīng)的網(wǎng)絡(luò)收益,并組成網(wǎng)絡(luò) 收益向量,發(fā)送到所述動(dòng)作選擇模塊和所述參數(shù)更新模塊;所述動(dòng)作選擇模塊與所述參數(shù)更新模塊和所述無線網(wǎng)絡(luò)環(huán)境連 接,用于根據(jù)輸入的網(wǎng)絡(luò)收益向量,采用一定的探索方法,從動(dòng)作集 合中選擇一個(gè)動(dòng)作并執(zhí)行,被執(zhí)行的動(dòng)作被記錄于所述參數(shù)更新模塊;所述參數(shù)更新模塊與所述無線網(wǎng)絡(luò)環(huán)境連接,用于參數(shù)更新和網(wǎng) 絡(luò)收益向量的更新,并將更新后的網(wǎng)絡(luò)收益向量送入所述訓(xùn)練隊(duì)列模 塊中。
3、 根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理 系統(tǒng),其中所述動(dòng)作選擇模塊輸出的動(dòng)作信息傳遞給無線環(huán)境模塊, 同時(shí)所述參數(shù)更新模塊需要獲得由無線環(huán)境模塊提供的更新信息,并 且所述參數(shù)初始化模塊需要根據(jù)無線環(huán)境模塊提供的網(wǎng)絡(luò)狀態(tài)信息進(jìn) 行初始化過程。
4、 根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理 系統(tǒng),其中所述系統(tǒng)內(nèi)存在的無線接入網(wǎng)絡(luò)屬于同一運(yùn)營商,并且所 述無線接入網(wǎng)絡(luò)的覆蓋范圍、業(yè)務(wù)能力、小區(qū)容量各不相同。
5、 根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理 系統(tǒng),其中所述系統(tǒng)利用分布式控制和集中式控制兩種方式進(jìn)行控制, 在所述分布式控制方式中,每個(gè)無線接入技術(shù)的本地?zé)o線資源管理器 都與對應(yīng)的一個(gè)無線重配置支持功能模塊連接;在所述集中式控制中, 所有無線接入技術(shù)的本地?zé)o線資源管理器都與一個(gè)公共的無線重配置支持功能模塊連接。
6、 根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理 系統(tǒng),其中所述可重配置移動(dòng)終端接入網(wǎng)絡(luò)時(shí),自動(dòng)完成軟件安裝與 網(wǎng)絡(luò)設(shè)置。
7、 根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理 系統(tǒng),其中所述可重配置移動(dòng)終端為具有重配置功能和移動(dòng)通信功能 的個(gè)人掌上電腦、移動(dòng)計(jì)算機(jī)或手機(jī)。
8、 一種在自主聯(lián)合無線資源管理系統(tǒng)中的基于強(qiáng)化學(xué)習(xí)的自主聯(lián) 合無線資源管理方法,所述系統(tǒng)包括可重配置移動(dòng)終端、通過無線網(wǎng) 絡(luò)與所述可重配置移動(dòng)終端連接的本地?zé)o線資源管理器、通過所述網(wǎng) 絡(luò)與所述本地?zé)o線資源管理器連接的無線重配置支持功能模塊、通過 所述網(wǎng)絡(luò)與所述無線重配置支持功能模塊連接的重配置管理器,所述 方法包括所述可重配置移動(dòng)終端發(fā)起多種不同業(yè)務(wù)類型的會(huì)話請求; 所述本地?zé)o線資源管理器接收從所述可重配置移動(dòng)終端發(fā)送的會(huì)話請求,管理無線接入網(wǎng)絡(luò)內(nèi)部的無線資源分配;所述無線重配置支持功能模塊接收由所述本地?zé)o線資源管理器提 供的對應(yīng)無線接入網(wǎng)絡(luò)的資源管理信息,收集所述本地?zé)o線資源管理 器所提供的對應(yīng)無線接入網(wǎng)絡(luò)的資源管理信息,根據(jù)各種網(wǎng)絡(luò)性能參 數(shù)指標(biāo)采用強(qiáng)化學(xué)習(xí)方法進(jìn)行"試錯(cuò),,交互,依照相應(yīng)的判定準(zhǔn)則,決 定是否立即接納新會(huì)話,并在接納時(shí),決定接入到哪一個(gè)無線接入網(wǎng) 絡(luò)中并分配相應(yīng)的業(yè)務(wù)帶寬;所述重配置管理器位于公共的核心網(wǎng)域或者可信的第三方域,接 收從無線重配置支持功能模塊上報(bào)的聯(lián)合無線資源管理決策信息,并 且向所述無線重配置支持功能模塊發(fā)送運(yùn)營商的管理策略信息.
9、根據(jù)權(quán)利要求8所述的自主聯(lián)合無線資源管理方法,其中所述 系統(tǒng)還包括參數(shù)初始化模塊,訓(xùn)練隊(duì)列模塊、神經(jīng)網(wǎng)絡(luò)模塊、動(dòng)作 選捧模塊、以及參數(shù)更新模塊,所述學(xué)習(xí)方法包括以下步驟(1) 在所述參數(shù)初始化模塊中對強(qiáng)化學(xué)習(xí)方法中所有需要被初始 化的參數(shù)進(jìn)行初始化;(2) 當(dāng)新會(huì)話到達(dá)時(shí),所述無線重配置支持功能模塊需要搜集各 無線接入網(wǎng)絡(luò)的覆蓋條件、負(fù)載信息、到達(dá)會(huì)話的業(yè)務(wù)特征等各種網(wǎng) 絡(luò)信息,構(gòu)造出當(dāng)前網(wǎng)絡(luò)狀態(tài),并將結(jié)果轉(zhuǎn)換為一維參數(shù)向量網(wǎng)絡(luò)狀 態(tài)向量發(fā)送給所述神經(jīng)網(wǎng)絡(luò)模塊,同時(shí)緩存在所述訓(xùn)練隊(duì)列模塊中;(3) 步驟(2)中的所述一維參數(shù)向量經(jīng)過所述神經(jīng)網(wǎng)絡(luò)模塊的 運(yùn)算后,在輸出層得到當(dāng)前網(wǎng)絡(luò)狀態(tài)下所有可能動(dòng)作所對應(yīng)的網(wǎng)絡(luò)收 益,并組成網(wǎng)絡(luò)收益向量,所述網(wǎng)絡(luò)收益向量同時(shí)被發(fā)送到所述動(dòng)作 選擇模塊和所述參數(shù)更新模塊;(4 )所述動(dòng)作選擇模塊根據(jù)輸入的步驟;(3 )所述網(wǎng)絡(luò)收益向量, 采用一定的探索方法,從動(dòng)作集合中選擇一個(gè)動(dòng)作并執(zhí)行,被執(zhí)行的 動(dòng)作被記錄于所述參數(shù)更新模塊;(5) 在選擇并執(zhí)行一個(gè)動(dòng)作后,無線網(wǎng)路環(huán)境做出反應(yīng),無線網(wǎng) 絡(luò)環(huán)境狀態(tài)變量有所改變,所述參數(shù)更新模塊收集無線網(wǎng)絡(luò)環(huán)境所做 出的反應(yīng)并計(jì)算出所獲得的回報(bào);(6) 在所述參數(shù)更新模塊中進(jìn)行,新的會(huì)話到達(dá),就由步驟(2) 和(3)得到下一網(wǎng)絡(luò)狀態(tài)及其所有的網(wǎng)絡(luò)收益向量,結(jié)合記錄的動(dòng)作 以及相應(yīng)的回報(bào),更新緩存的網(wǎng)絡(luò)收益向量,并被送入所述訓(xùn)練隊(duì)列 模塊中;(7) 在參數(shù)更新模塊中,每輪迭代過程結(jié)束時(shí),為了滿足強(qiáng)化學(xué) 習(xí)的收斂性要求,對所有相關(guān)參數(shù)以一定的規(guī)則進(jìn)行更新;(8) 每次迭代過程將產(chǎn)生一對網(wǎng)絡(luò)狀態(tài)向量和網(wǎng)絡(luò)收益向量,分 別作為輸入向量和相應(yīng)的目標(biāo)輸出向量被緩存到所述訓(xùn)練隊(duì)列模塊 中,若所述訓(xùn)練隊(duì)列模塊被填滿,所有緩存的網(wǎng)絡(luò)狀態(tài)向量和網(wǎng)絡(luò)收 益向量將被一起送入所述神經(jīng)網(wǎng)絡(luò)進(jìn)行后向傳播運(yùn)算以調(diào)整神經(jīng)網(wǎng)絡(luò) 的權(quán)值,從而獲得對于網(wǎng)絡(luò)收益的更加精確的函數(shù)近似。
10、 根據(jù)權(quán)利要求9所述的自主聯(lián)合無線資源管理方法,其中步 驟(4)還包括步驟分配無線接入技術(shù)或者拒絕接入,為接納的會(huì)話分配一定的業(yè)務(wù) 帶寬。
11、 根據(jù)權(quán)利要求9所述的自主聯(lián)合無線資源管理方法,其中在 步驟(5)中,回報(bào)具體為由所述參數(shù)更新模塊采用相應(yīng)算法對無線網(wǎng) 絡(luò)環(huán)境因動(dòng)作而做出的反應(yīng)進(jìn)行計(jì)算得到的。
12、 根據(jù)權(quán)利要求9所述的自主聯(lián)合無線資源管理方法,其中所 述步驟(7)或(8)中迭代過程為步驟(2) - (7)的過程。
13、 根據(jù)權(quán)利要求9所述的自主聯(lián)合無線資源管理方法,其中利 用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對強(qiáng)化學(xué)習(xí)中狀態(tài)空間的泛化。
全文摘要
本發(fā)明公開了一種基于強(qiáng)化學(xué)習(xí)的自主聯(lián)合無線資源管理系統(tǒng)及方法,當(dāng)可重配置移動(dòng)終端發(fā)起新會(huì)話請求時(shí),無線重配置支持功能模塊收集本地?zé)o線資源管理器所提供的各異構(gòu)無線接入網(wǎng)絡(luò)的資源管理信息,根據(jù)各種網(wǎng)絡(luò)性能參數(shù)指標(biāo)采用強(qiáng)化學(xué)習(xí)方法進(jìn)行“試錯(cuò)”交互,依照相應(yīng)的判定準(zhǔn)則,決定是否立即接納新會(huì)話,如果接納,決定接入到哪一個(gè)無線接入網(wǎng)絡(luò)中并分配相應(yīng)的業(yè)務(wù)帶寬,否則拒絕該會(huì)話。然后向重配置管理器上報(bào)聯(lián)合無線資源管理決策信息。通過基于比例公平頻譜效用的強(qiáng)化信號,無線重配置支持功能模塊能以“試錯(cuò)”迭代的在線學(xué)習(xí)方式找到優(yōu)化的聯(lián)合無線資源管理策略,在阻塞率和頻譜效用之間獲得很好的折衷。
文檔編號H04L12/28GK101132363SQ20071012018
公開日2008年2月27日 申請日期2007年8月10日 優(yōu)先權(quán)日2007年8月10日
發(fā)明者馮志勇, 平 張, 張永靖, 憲 曾, 圓 薛, 黎文邊 申請人:北京郵電大學(xué)