本發(fā)明屬于無線通信,尤其是一種使用深度強化學習獲得去蜂窩mmimo系統(tǒng)中無人機能量收發(fā)和軌跡設計的優(yōu)化方法。
背景技術:
1、近年來,隨著便攜設備、設備間通信以及物聯網應用的迅速發(fā)展,對無線通信服務和無線數據流量的需求不斷增加。去蜂窩大規(guī)模多輸入多輸出(cf-mmimo)系統(tǒng)因其出色的頻譜利用與空間復用能力,在支持無線網絡實現更高數據速率與更廣泛連接方面展現出巨大潛力。同時,無人機作為移動接入點(ap)因其高機動性和靈活性,在通信和任務執(zhí)行中扮演著越來越重要的角色。然而,uav在執(zhí)行復雜任務時,由于能量受限,其續(xù)航能力成為制約其廣泛應用的關鍵因素。盡管存在電池更換或智能電池容量管理等臨時策略,但這些方法成本高且可能不實用。為此,研究者開始探索通過無線電力傳輸(wpt)技術為uav提供能量補給,以延長其續(xù)航時間和執(zhí)行任務的能力。
2、在uav飛行過程中,其軌跡優(yōu)化對于提高通信質量和能量效率至關重要。傳統(tǒng)方法通常難以處理復雜的非線性優(yōu)化問題,如uav的飛行軌跡、充放電時隙和波束成形配置的聯合優(yōu)化。因此,引入深度強化學習(drl)技術,特別是深度q網絡(dqn),為解決這些問題提供了新的途徑。dqn通過結合深度神經網絡的強大擬合能力和q學習算法的決策能力,能夠有效地處理高維狀態(tài)空間和動作空間問題,并學習到復雜環(huán)境下的最優(yōu)策略。然而,目前的dqn算法仍然存在著處理復雜多目標優(yōu)化問題時效率低下的局限,特別是在無人機軌跡優(yōu)化與能量管理的結合上,缺乏有效的解決方案。
技術實現思路
1、發(fā)明目的:提供一種去蜂窩mmimo系統(tǒng)中無人機能量收發(fā)和軌跡設計的優(yōu)化方法,以解決現有技術中目前的dqn算法仍然存在著處理復雜多目標優(yōu)化問題時效率低下的局限,特別是在無人機軌跡優(yōu)化與能量管理的結合上,缺乏有效的解決方案的問題。
2、技術方案:
3、一種去蜂窩mmimo系統(tǒng)中無人機能量收發(fā)和軌跡設計的優(yōu)化方法,包括如下步驟:
4、s1:建立cf-mmimo系統(tǒng)模型,所述cf-mmimo系統(tǒng)模型包括l個ap、一個能量收集的uav以及k個移動用戶,所述uav具有通信、接收和存儲供電的作用;
5、s2:定義優(yōu)化目標函數,以最大化系統(tǒng)的吞吐量,在保證所述uva續(xù)航的同時確保不同所述移動用戶之間的通信公平性,優(yōu)化目標函數包括公平性指數和用戶通信總速率的聯合函數,所述公平性指數用于衡量所述uav為不同的所述移動用戶提供通信服務時的公平性,同時考慮在所述uav的整個飛行時間內所有所述移動用戶的通信總速率,以確保系統(tǒng)的整體通信效率;
6、s3:選擇基于通信輔助的dqn算法模型解決優(yōu)化問題,獲得最佳uav能量收發(fā)和軌跡分配的方案,在所述dqn算法模型中,所述dqn包括兩個神經網絡,通過隨機初始化網絡的權重和偏差,并使用經驗回放優(yōu)化學習過程,所述神經網絡代理所述uav在每個時隙中貫穿狀態(tài)、選擇狀態(tài)并獲得獎勵更,新位置并調整策略以滿足約束條件。
7、在進一步的實施例中,在所述s1中,所述l個ap包括空中ap和地面ap,在所述cf-mmimo系統(tǒng)模型中,所述uav配備收發(fā)器和能量接收器,所述uav作為所述空中ap為所述移動用于提供通信服務,接收所述地面ap廣播的射頻能量,將所述射頻能量存儲于充電電池中,充電電池確保uav在服務過程中的續(xù)航能力。
8、在進一步的實施例中,在所述s2中,基于所述uav續(xù)航能力的約束,對每個時隙中的所述uav的能量收集時間比例因子、所述uav與各所述移動用戶通信時間占比、所述uav的軌跡和所述uav用于數據傳輸的協同波束成形矢量進行聯合優(yōu)化。
9、在進一步的實施例中,在所述s2中,用于衡量所述uav為不同所述移動用戶提供通信服務時的公平性的公平性指數為且考慮在所述uav的整個飛行時間t內所有所述移動用戶的通信總速率為以確保系統(tǒng)的整體通信效率,本發(fā)明的優(yōu)化目標函數旨在同時提升系統(tǒng)的吞吐量和移動用戶間的通信公平性,在保證uav服務電量的約束下實現系統(tǒng)性能的整體優(yōu)化;
10、因此將優(yōu)化目標函數f定義為公平性指數和用戶通信總速率的聯合函數表示如下:
11、
12、其中,μ為fn在目標函數中的比例調節(jié)因子。
13、在進一步的實施例中,在所述s2中,通過聯合優(yōu)化資源分配變量,每個時隙中的所述uav能量收集時間比例因子為τe[n],所述uav與各所述移動用戶通信時間占比為τuk[n],所述uav的軌跡為qu[n],所述uav用于數據傳輸的協同波束成形矢量為wuk[n],因此優(yōu)化目標問題表示如下:
14、
15、其中,vmax是uav的最大速率,q0分別表示uav的初始起點,約束c1表示每個時隙uav累計能耗不能超過uav現有能量,c2表示每個時隙中uav完成能量搜集以及支持移動用戶通信時間之和不能超過一個時隙的持續(xù)時間,c3、c4給出了在最大飛行速率vmax下uav位置變化的約束。
16、在進一步的實施例中,在所述s3中,兩個所述神經網絡分別為策略網絡和目標網絡,所述策略網絡用于根據環(huán)境選擇動作,用作代理的決策,所述目標網絡用于計算策略更新前后的策略數值之比。
17、在進一步的實施例中,在所述s3中,將uav作為一系列離散時間實例中與系統(tǒng)環(huán)境交互的代理,在每個時隙n,uav觀察到狀態(tài)su(n),采取行動au(n),針對當前狀態(tài)su(n)所輸出的動作au(n),環(huán)境的反饋視為獎勵函數,即獲得獎勵ru(n),以此類推,在第n+1時隙轉移到新狀態(tài)su(n+1),相應元素設置如下:
18、狀態(tài)空間su(n):在時隙n中,所述策略網絡收集狀態(tài)信息,所述狀態(tài)信息包括uav的位置、uav電池能量以及當前時隙,即所述uav的狀態(tài)空間的描述的表示如下:
19、su[n]=(qu[n];eu[n];n)
20、其中,eu[n]表示時隙n處uav的能量狀態(tài),由n-1時隙uav的剩余能量決定;
21、動作空間au(n):對于代理uav,動作包括調整的飛行軌跡,發(fā)射波束形成矢量、充電時間比例以及為用戶服務的時間比例,即所述uav的動作空間描述的表示如下:
22、an=(qu[n];wu1[n],...,wuk[n];τe[n];τu1[n],...,τuk[n])
23、獎勵ru(n):在第n個時隙中,計算獎勵函數為:
24、
25、在進一步的實施例中,所述uav利用具有一定容量的回放存儲器du來存儲<su(t),au(t),ru(t),su(t+1)>的樣本。
26、本發(fā)明的有益效果:在滿足uav能量限制和充放電時隙約束下最大化系統(tǒng)的吞吐量,提高uav的續(xù)航能力,同時保證移動用戶的通信公平性,具體如下:
27、(1)本發(fā)明針對cf-mmimo系統(tǒng)中uav的能量收發(fā)和軌跡優(yōu)化問題,提出了基于wpt的uav能量收發(fā)和軌跡設計的優(yōu)化方法,在uav整個飛行時間內最大化所有移動用戶總速率,通過合理的資源分配和調度策略,確保了每個用戶的通信性能;
28、(2)綜合考慮無人機的能量消耗和收集和通信需求,通過聯合優(yōu)化uav飛行軌跡、充放電時隙以及波束成形配置,以提高移動用戶的通信公平性和uav的續(xù)航能力,通過聯合優(yōu)化uav在每個時隙中的能量收集時間比例因子、通信時間占比、飛行軌跡以及數據傳輸的協同波束成形矢量,本發(fā)明能夠高效地管理uav的能量使用,當uav電量不足時,地面的接入點啟動wpt機制,為低空飛行的uav提供所需的能量,而顯著提升了uav的續(xù)航能力,考慮了不同移動用戶之間的通信公平性,通過合理的資源分配和調度策略,確保了每個用戶都能獲得相對公平的服務質量;
29、(3)為降低樣本復雜性和提高學習效率,本發(fā)明采用基于通信輔助的dqn算法,使得uav能夠作為智能代理,實現了對uav飛行軌跡和能量管理的智能優(yōu)化,在動態(tài)變化的環(huán)境中自主決策,靈活調整策略,這種智能決策機制使得系統(tǒng)能夠自適應地應對各種復雜場景,提高了系統(tǒng)的魯棒性和靈活性,從而最大化其續(xù)航時間并提升系統(tǒng)的整體通信性能。