一種迭代步長可變的多步q學(xué)習(xí)自適應(yīng)算法

文檔序號(hào)：8473192閱讀：681來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種迭代步長可變的多步q學(xué)習(xí)自適應(yīng)算法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于雷達(dá)信號(hào)處理領(lǐng)域，提出了一種迭代步長可變的多步Q學(xué)習(xí)自適應(yīng)算法。
【背景技術(shù)】
[0002] 認(rèn)知雷達(dá)是一種能夠根據(jù)回波信號(hào)認(rèn)識(shí)環(huán)境狀態(tài)的雷達(dá)。它通過對(duì)回波信號(hào)的分析，提取出環(huán)境信息并動(dòng)態(tài)地改變發(fā)射波形，以達(dá)到更高的目標(biāo)分辨力（包括距離、速度等）。而寬帶認(rèn)知雷達(dá)則是在認(rèn)知雷達(dá)的基礎(chǔ)上采用了更高的帶寬發(fā)射波形，這樣，可以使雷達(dá)具有更高的距離分辨力和超近程的探測(cè)能力。由于寬帶認(rèn)知雷達(dá)的帶寬大，數(shù)據(jù)更新快，這對(duì)波形動(dòng)態(tài)變化的速度也有了更高的要求。而提高自適應(yīng)算法的計(jì)算速度則是在提高寬帶認(rèn)知雷達(dá)的認(rèn)知能力，所以研宄寬帶認(rèn)知雷達(dá)的自適應(yīng)波形選擇算法有著重要的意義。
[0003] 在眾多的自適應(yīng)算法中有一部分已經(jīng)成熟的，并被廣泛應(yīng)用的例子，如價(jià)值迭代算法、策略迭代算法，Q-Learning算法以及多步Q-Learning算法。傳統(tǒng)的Q學(xué)習(xí)算法采用一步算法，預(yù)見能力不強(qiáng)，對(duì)環(huán)境適應(yīng)能力不強(qiáng)。針對(duì)這種問題，相關(guān)研宄提出了增量式步長Q學(xué)習(xí)算法，但這種算法再后來的實(shí)際應(yīng)用中出現(xiàn)了運(yùn)算復(fù)雜度高，更新速度慢的情況。于是，為了平衡預(yù)見能力和預(yù)算復(fù)雜度的問題，有人提出采用有限多步信息進(jìn)行更新的思想，即多步Q學(xué)習(xí)算法，它利用K步信息更新當(dāng)前的Q值，具有多步預(yù)見能力，同時(shí)能降低算法復(fù)雜度。但是，這種算法步長恒定，無法根據(jù)環(huán)境變化調(diào)整步長，如果遇到環(huán)境急劇的變化，那么該算法的適應(yīng)性將變?nèi)酢?br>
【發(fā)明內(nèi)容】

[0004] 本發(fā)明針對(duì)【背景技術(shù)】存在的運(yùn)算量大和預(yù)見能力不強(qiáng)的缺點(diǎn)，提出了一種改進(jìn)的 Q學(xué)習(xí)算法。本發(fā)明提出將步長的大小設(shè)置為環(huán)境的函數(shù)，根據(jù)環(huán)境的變化程度來決定步長的大小，當(dāng)環(huán)境急劇變化的時(shí)候，采用更多步的信息來更新當(dāng)前Q值，提高預(yù)見能力；同時(shí)，當(dāng)環(huán)境變化很細(xì)微時(shí)，采用較少步的信息來更新Q值，減少算法復(fù)雜度。
[0005] 本發(fā)明所采用技術(shù)方案為：一種迭代步長可變的多步Q學(xué)習(xí)自適應(yīng)算法，包括以下步驟：
[0006] 步驟1 :初始化所有的（s，u)，其中sGS，uGA(u)，S表示狀態(tài)集合，s表示集合中一個(gè)狀態(tài)；u為系統(tǒng)選擇波形，A(U)為波形集合；令Q(s，u) = 0，k= 0，k表示迭代次數(shù)，設(shè)定最大迭代次數(shù)Kmax(t)，以及更新公式：Kmax(t+l) =yKmax(t)，0 <y< 2,初始值為1 ;
[0007] 步驟2:雷達(dá)環(huán)境學(xué)習(xí)，令當(dāng)前狀態(tài)為st，雷達(dá)發(fā)射波形集合中不同的波形，并記錄不同波形所產(chǎn)生的Q值，通過比較確定Q值最大的對(duì)應(yīng)波形u，即：Y(ut) =arg maxQk(st,ut)；
[0008] 步驟3 :利用更新公式更新Q值：
[0009] Qk+1 (st,ut) = (I-ak+1)Qk (st,ut) +ak+1 [Rt (st+11st,ut) +AmaxQk (st+1,ut+1)]
【主權(quán)項(xiàng)】
1. 一種迭代步長可變的多步Q學(xué)習(xí)自適應(yīng)算法，包括W下步驟：步驟1 ;初始化所有的（S，U)，其中SGS，UGA(u)，S表示狀態(tài)集合，S表示集合中一個(gè)狀態(tài)；U為系統(tǒng)選擇波形，A(u)為波形集合；令Q(s，u) = 0，k= 0，k表示迭代次數(shù)，設(shè)定最大迭代次數(shù)Kmax(t)，化及更新公式；Kmax(t+1) =UKmax(t)，0<y<2,初始值為1; 步驟2 ;雷達(dá)環(huán)境學(xué)習(xí)，令當(dāng)前狀態(tài)為St，雷達(dá)發(fā)射波形集合中不同的波形，并記錄不同波形所產(chǎn)生的Q值，通過比較確定Q值最大的對(duì)應(yīng)波形U，即；Y(Ut) =argmax妒(S。; 步驟3;利用更新公式更新Q值：
其中，St代表t時(shí)刻狀態(tài)，Ut代表t時(shí)刻發(fā)射波形，Rt(StJst，i〇為t時(shí) 亥Ij、環(huán)境狀態(tài)為St、發(fā)射波形為Ut的情況下狀態(tài)變換到Sw產(chǎn)生的報(bào)酬函數(shù)，A為設(shè)定折扣因子；步驟4 ;確定下一狀態(tài)，根據(jù)狀態(tài)轉(zhuǎn)移矩陣A，測(cè)量概率矩陣B，確定下一狀態(tài)sw; A" =7^^，I為對(duì)角矩陣；步驟5 ;計(jì)算狀態(tài)變化范數(shù)0 =I|sw-stlI，設(shè)定y值變動(dòng)的最低口限值1和y值變動(dòng)的最高口限值h;當(dāng)0 < 1時(shí)，y值減0. 1，并降低1、使1 = 0. 61 ;當(dāng)0 >h時(shí)，y值加0. 1，并提高h(yuǎn)、使h= 1. 2h;否則，y值不變；步驟6;k值加1，當(dāng)1^<1(。"(*)，根據(jù)公式Km"(t+1) =uKm"(t)，更新最大迭代次數(shù)；令st=SW，跳至步驟2 ;否則，停止迭代，跳至步驟7 ; 步驟7 ;對(duì)于每一個(gè)狀態(tài)SGS，選擇d(St)GargmaxQ(St，Ut)得到最優(yōu)策略。
【專利摘要】本發(fā)明屬于雷達(dá)信號(hào)處理領(lǐng)域，提出一種迭代步長可變的多步Q學(xué)習(xí)自適應(yīng)算法，用以解決現(xiàn)有Q學(xué)習(xí)算法環(huán)境適應(yīng)性差，與急劇變化環(huán)境無法工作的問題。本發(fā)明提出將步長(最大迭代次數(shù))的大小設(shè)置為環(huán)境的函數(shù)，根據(jù)環(huán)境的變化程度來決定步長的大??；因此，本發(fā)明能夠迅速地適應(yīng)環(huán)境，當(dāng)環(huán)境急劇變化的時(shí)候，采用更多步的信息來更新當(dāng)前Q值，有效提高算法預(yù)見能力；同時(shí)，當(dāng)環(huán)境變化很細(xì)微時(shí)，采用較少步的信息來更新Q值，有效減少算法復(fù)雜度；有效提高算法環(huán)境適應(yīng)能力。
【IPC分類】G06F19-00
【公開號(hào)】CN104794359
【申請(qǐng)?zhí)枴緾N201510212647
【發(fā)明人】賀知明, 萬海川, 高振, 楊慶, 肖雪冬
【申請(qǐng)人】電子科技大學(xué)
【公開日】2015年7月22日
【申請(qǐng)日】2015年4月29日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：賀知明;萬海川;高振;楊慶;肖雪冬;
技術(shù)所有人：電子科技大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種迭代步長可變的多步q學(xué)習(xí)自適應(yīng)算法