專利名稱:基于免疫耐受機制的強化學(xué)習(xí)算法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于免疫耐受機制的強化學(xué)習(xí)算法。
背景技術(shù):
強化學(xué)習(xí)是一類介于監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)之間的機器學(xué)習(xí)算法,源于行為心理學(xué),從80年代發(fā)展起來,目前被廣泛地應(yīng)用于游戲比賽、控制系統(tǒng)、調(diào)度管理、機器人領(lǐng)域中,是機器學(xué)習(xí)研究領(lǐng)域的熱點。強化學(xué)習(xí)可以在未知模型的條件下,根據(jù)確定性或非確定性回報對環(huán)境進行學(xué)習(xí)。比較典型的強化學(xué)習(xí)算法有=Sarsa學(xué)習(xí)算法、Q學(xué)習(xí)算法、TD(A)學(xué)習(xí)算法。其中,TD(A)學(xué)習(xí)算法包括表格型TD ( λ )和基于值函數(shù)逼近的TD ( λ )。在Sarsa學(xué)習(xí)算法、Q學(xué)習(xí)算法、表格型TDU)中,需要使用大量的存儲空間對學(xué)習(xí)知識進行存儲,而當環(huán)境空間非常大或者連續(xù)時,很有可能引發(fā)維數(shù)災(zāi)難。因此,基于值函數(shù)逼近的TDU)越來越受到關(guān)注,但是該算法易陷入局部極值并且不是收斂的。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于免疫耐受機制的強化學(xué)習(xí)算法,克服TD( λ )的易陷入局部極值和發(fā)散的問題。為了達到以上目的,本發(fā)明的技術(shù)方案如下:首先,設(shè)計TDU)的基函數(shù)向量及權(quán)值向量;然后,根據(jù)浮點數(shù)對權(quán)值向量進行編碼,當系統(tǒng)與真實環(huán)境的誤差大于一定閾值時,看成是人工免疫系統(tǒng)中的初次應(yīng)答,初次碰到該環(huán)境,使用免疫耐受機制進行優(yōu)化,并使用記憶體即抗體,對環(huán)境知識進行記憶;接著根據(jù)當前系統(tǒng)參數(shù)選擇最優(yōu)策略,根據(jù)環(huán)境的回饋獎賞值r來更新系統(tǒng)參數(shù),繼續(xù)下一次迭代;當系統(tǒng)與真實環(huán)境的誤差小于該閾值時,則認為遇到了相似環(huán)境,將之看成是人工免疫系統(tǒng)中的二次應(yīng)答,直接根據(jù)系統(tǒng)參數(shù),由系統(tǒng)判斷動作選擇,選擇最優(yōu)策略。本發(fā)明的特點還在于:具體步驟如下,步驟1:初始化參數(shù);設(shè)置種群規(guī)模,折算率,修正參數(shù),免疫概率,變異概率,學(xué)習(xí)率米用如下公式;
權(quán)利要求
1.基于免疫耐受機制的強化學(xué)習(xí)算法,其特征在于: 首先,設(shè)計TDU)的基函數(shù)向量及權(quán)值向量; 然后,根據(jù)浮點數(shù)對權(quán)值向量進行編碼,當系統(tǒng)與真實環(huán)境的誤差大于一定閾值時,看成是人工免疫系統(tǒng)中的初次應(yīng)答,初次碰到該環(huán)境,使用免疫耐受機制進行優(yōu)化,并使用記憶體即抗體,對環(huán)境知識進行記憶;接著根據(jù)當前系統(tǒng)參數(shù)選擇最優(yōu)策略,根據(jù)環(huán)境的回饋獎賞值r來更新系統(tǒng)參數(shù),繼續(xù)下一次迭代;當系統(tǒng)與真實環(huán)境的誤差小于該閾值時,則認為遇到了相似環(huán)境,將之看成是人工免疫系統(tǒng)中的二次應(yīng)答,直接根據(jù)系統(tǒng)參數(shù),由系統(tǒng)判斷動作選擇,選擇最優(yōu)策略。
2.如權(quán)利要求1所述的基于免疫耐受機制的強化學(xué)習(xí)算法,其特征在于:具體步驟如下, 步驟1:初始化參數(shù);設(shè)置種群規(guī)模,折算率,修正參數(shù),免疫概率,變異概率,學(xué)習(xí)率采用如下公式;
3.如權(quán)利要求2所 述的基于免疫耐受機制的強化學(xué)習(xí)算法,其特征在于:步驟6中,具體操作如下, 1)取初始個體,設(shè)置popu=l; 2)若隨機數(shù)rand〈免疫 概率Pm,并且該個體不是最優(yōu)個體,跳轉(zhuǎn)到3),否則跳轉(zhuǎn)到4); 3)將最優(yōu)個體整體看成疫苗,分別對該個體的每個基因位進行疫苗注射;如果該基因位共有η位,則用疫苗對每一個基因位分別進行替換,得到η個被疫苗注射后的個體;從該η個個體中選擇最優(yōu)個體,如果該個體優(yōu)于原始個體,則替換原始個體;否則,保持原始個體不變; 4)取下一個個體,popu=popu+l; 如果popu〈種群規(guī)模N,則跳轉(zhuǎn)到2),否則結(jié)束步驟6,進入步驟7。
4.如權(quán)利要求2所述的基于免疫耐受機制的強化學(xué)習(xí)算法,其特征在于:步驟7中,具體操作如下, 1)取初始個體,設(shè)置popu=l; 2)若隨機數(shù)rand〈變異概率pv,則跳轉(zhuǎn)到3),否則跳轉(zhuǎn)到4); 3)在隨機基因位進行高斯變異操作,即在該位的權(quán)值加上一個高斯分布值,如下公式所示, 評population (^rand)評population (^rand)+N ( P,O ) 其中,w_ulatimU表示的是種群中某一個體的隨機基因位irand的權(quán)值; 4)取下一個個體,popu=popu+l; 5)如果popu〈種群規(guī)模N,則跳轉(zhuǎn)到2),否則結(jié)束步驟7,進入步驟8。
全文摘要
基于免疫耐受機制的強化學(xué)習(xí)算法,首先,設(shè)計TD(λ)的基函數(shù)向量及權(quán)值向量;然后,根據(jù)浮點數(shù)對權(quán)值向量進行編碼,當系統(tǒng)與真實環(huán)境的誤差大于一定閾值時,看成是人工免疫系統(tǒng)中的初次應(yīng)答,初次碰到該環(huán)境,使用免疫耐受機制進行優(yōu)化,并使用記憶體即抗體,對環(huán)境知識進行記憶;接著根據(jù)當前系統(tǒng)參數(shù)選擇最優(yōu)策略,根據(jù)環(huán)境的回饋獎賞值r來更新系統(tǒng)參數(shù),繼續(xù)下一次迭代;當系統(tǒng)與真實環(huán)境的誤差小于該閾值時,則認為遇到了相似環(huán)境,將之看成是人工免疫系統(tǒng)中的二次應(yīng)答,直接根據(jù)系統(tǒng)參數(shù),由系統(tǒng)判斷動作選擇,選擇最優(yōu)策略。
文檔編號G06N3/08GK103218655SQ20131007350
公開日2013年7月24日 申請日期2013年3月7日 優(yōu)先權(quán)日2013年3月7日
發(fā)明者王磊, 黑新宏, 金海燕, 林葉, 王玉 申請人:西安理工大學(xué)