一種迭代步長可變的多步q學(xué)習(xí)自適應(yīng)算法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于雷達(dá)信號(hào)處理領(lǐng)域,提出了一種迭代步長可變的多步Q學(xué)習(xí)自適應(yīng)算 法。
【背景技術(shù)】
[0002] 認(rèn)知雷達(dá)是一種能夠根據(jù)回波信號(hào)認(rèn)識(shí)環(huán)境狀態(tài)的雷達(dá)。它通過對(duì)回波信號(hào)的 分析,提取出環(huán)境信息并動(dòng)態(tài)地改變發(fā)射波形,以達(dá)到更高的目標(biāo)分辨力(包括距離、速度 等)。而寬帶認(rèn)知雷達(dá)則是在認(rèn)知雷達(dá)的基礎(chǔ)上采用了更高的帶寬發(fā)射波形,這樣,可以使 雷達(dá)具有更高的距離分辨力和超近程的探測(cè)能力。由于寬帶認(rèn)知雷達(dá)的帶寬大,數(shù)據(jù)更新 快,這對(duì)波形動(dòng)態(tài)變化的速度也有了更高的要求。而提高自適應(yīng)算法的計(jì)算速度則是在提 高寬帶認(rèn)知雷達(dá)的認(rèn)知能力,所以研宄寬帶認(rèn)知雷達(dá)的自適應(yīng)波形選擇算法有著重要的意 義。
[0003] 在眾多的自適應(yīng)算法中有一部分已經(jīng)成熟的,并被廣泛應(yīng)用的例子,如價(jià)值迭代 算法、策略迭代算法,Q-Learning算法以及多步Q-Learning算法。傳統(tǒng)的Q學(xué)習(xí)算法采用 一步算法,預(yù)見能力不強(qiáng),對(duì)環(huán)境適應(yīng)能力不強(qiáng)。針對(duì)這種問題,相關(guān)研宄提出了增量式步 長Q學(xué)習(xí)算法,但這種算法再后來的實(shí)際應(yīng)用中出現(xiàn)了運(yùn)算復(fù)雜度高,更新速度慢的情況。 于是,為了平衡預(yù)見能力和預(yù)算復(fù)雜度的問題,有人提出采用有限多步信息進(jìn)行更新的思 想,即多步Q學(xué)習(xí)算法,它利用K步信息更新當(dāng)前的Q值,具有多步預(yù)見能力,同時(shí)能降低算 法復(fù)雜度。但是,這種算法步長恒定,無法根據(jù)環(huán)境變化調(diào)整步長,如果遇到環(huán)境急劇的變 化,那么該算法的適應(yīng)性將變?nèi)酢?br>
【發(fā)明內(nèi)容】
[0004] 本發(fā)明針對(duì)【背景技術(shù)】存在的運(yùn)算量大和預(yù)見能力不強(qiáng)的缺點(diǎn),提出了一種改進(jìn)的 Q學(xué)習(xí)算法。本發(fā)明提出將步長的大小設(shè)置為環(huán)境的函數(shù),根據(jù)環(huán)境的變化程度來決定步長 的大小,當(dāng)環(huán)境急劇變化的時(shí)候,采用更多步的信息來更新當(dāng)前Q值,提高預(yù)見能力;同時(shí), 當(dāng)環(huán)境變化很細(xì)微時(shí),采用較少步的信息來更新Q值,減少算法復(fù)雜度。
[0005] 本發(fā)明所采用技術(shù)方案為:一種迭代步長可變的多步Q學(xué)習(xí)自適應(yīng)算法,包括以 下步驟:
[0006] 步驟1 :初始化所有的(s,u),其中sGS,uGA(u),S表示狀態(tài)集合,s表示集合 中一個(gè)狀態(tài);u為系統(tǒng)選擇波形,A(U)為波形集合;令Q(s,u) = 0,k= 0,k表示迭代次數(shù), 設(shè)定最大迭代次數(shù)Kmax(t),以及更新公式:Kmax(t+l) =yKmax(t),0 <y< 2,初始值為1 ;
[0007] 步驟2:雷達(dá)環(huán)境學(xué)習(xí),令當(dāng)前狀態(tài)為st,雷達(dá)發(fā)射波形集合中不同的波形, 并記錄不同波形所產(chǎn)生的Q值,通過比較確定Q值最大的對(duì)應(yīng)波形u,即:Y(ut) =arg maxQk(st,ut);
[0008] 步驟3 :利用更新公式更新Q值:
[0009] Qk+1 (st,ut) = (I-ak+1)Qk (st,ut) +ak+1 [Rt (st+11st,ut) +AmaxQk (st+1,ut+1)]
【主權(quán)項(xiàng)】
1. 一種迭代步長可變的多步Q學(xué)習(xí)自適應(yīng)算法,包括W下步驟: 步驟1 ;初始化所有的(S,U),其中SGS,UGA(u),S表示狀態(tài)集合,S表示集合中一 個(gè)狀態(tài);U為系統(tǒng)選擇波形,A(u)為波形集合;令Q(s,u) = 0,k= 0,k表示迭代次數(shù),設(shè)定 最大迭代次數(shù)Kmax(t),化及更新公式;Kmax(t+1) =UKmax(t),0<y<2,初始值為1; 步驟2 ;雷達(dá)環(huán)境學(xué)習(xí),令當(dāng)前狀態(tài)為St,雷達(dá)發(fā)射波形集合中不同的波形,并記錄不同 波形所產(chǎn)生的Q值,通過比較確定Q值最大的對(duì)應(yīng)波形U,即;Y(Ut) =argmax妒(S。; 步驟3;利用更新公式更新Q值:
其中,St代表t時(shí)刻狀態(tài),Ut代表t時(shí)刻發(fā)射波形,Rt(StJst,i〇為t時(shí) 亥Ij、環(huán)境狀態(tài)為St、發(fā)射波形為Ut的情況下狀態(tài)變換到Sw產(chǎn)生的報(bào)酬函數(shù),A為設(shè)定折扣 因子; 步驟4 ;確定下一狀態(tài),根據(jù)狀態(tài)轉(zhuǎn)移矩陣A,測(cè)量概率矩陣B,確定下一狀態(tài)sw; A" =7^^,I為對(duì)角矩陣; 步驟5 ;計(jì)算狀態(tài)變化范數(shù)0 =I|sw-stlI,設(shè)定y值變動(dòng)的最低口限值1和y值變 動(dòng)的最高口限值h;當(dāng)0 < 1時(shí),y值減0. 1,并降低1、使1 = 0. 61 ;當(dāng)0 >h時(shí),y值 加0. 1,并提高h(yuǎn)、使h= 1. 2h;否則,y值不變; 步驟6;k值加1,當(dāng)1^<1(。"(*),根據(jù)公式Km"(t+1) =uKm"(t),更新最大迭代次數(shù); 令st=SW,跳至步驟2 ;否則,停止迭代,跳至步驟7 ; 步驟7 ;對(duì)于每一個(gè)狀態(tài)SGS,選擇d(St)GargmaxQ(St,Ut)得到最優(yōu)策略。
【專利摘要】本發(fā)明屬于雷達(dá)信號(hào)處理領(lǐng)域,提出一種迭代步長可變的多步Q學(xué)習(xí)自適應(yīng)算法,用以解決現(xiàn)有Q學(xué)習(xí)算法環(huán)境適應(yīng)性差,與急劇變化環(huán)境無法工作的問題。本發(fā)明提出將步長(最大迭代次數(shù))的大小設(shè)置為環(huán)境的函數(shù),根據(jù)環(huán)境的變化程度來決定步長的大??;因此,本發(fā)明能夠迅速地適應(yīng)環(huán)境,當(dāng)環(huán)境急劇變化的時(shí)候,采用更多步的信息來更新當(dāng)前Q值,有效提高算法預(yù)見能力;同時(shí),當(dāng)環(huán)境變化很細(xì)微時(shí),采用較少步的信息來更新Q值,有效減少算法復(fù)雜度;有效提高算法環(huán)境適應(yīng)能力。
【IPC分類】G06F19-00
【公開號(hào)】CN104794359
【申請(qǐng)?zhí)枴緾N201510212647
【發(fā)明人】賀知明, 萬海川, 高振, 楊慶, 肖雪冬
【申請(qǐng)人】電子科技大學(xué)
【公開日】2015年7月22日
【申請(qǐng)日】2015年4月29日