(^,..(1,)+0: R1 +/max^(v(_.,,i/)-^.v μ,) (8) L a 1 J
[0035] 公式⑶中a e [0, 1]是學(xué)習(xí)率,控制學(xué)習(xí)速度;St, 別為機(jī)器人當(dāng)前的狀態(tài) (文中是機(jī)器人的位置)和選擇的動作值;γ e [0, 1]是折扣因子。由式(1)可知要更新 的Q值是由原來的Q值和下一個狀態(tài)的Q值共同決定,Q值數(shù)據(jù)傳遞具有一定的滯后性。假 設(shè)有任意相連的81、82、83三種狀態(tài),狀態(tài)81要獲得狀態(tài) 83的〇值反饋需要2次重復(fù)訓(xùn)練循 環(huán),為改善數(shù)據(jù)傳遞滯后性采用基于"回溯"思想的Q值更新策略。
[0036] 數(shù)值更新過程如下:
[0037]
C9)
[0038] 第一步訓(xùn)練s。一 s 1
[0039] 第二步訓(xùn)練 s。一 s s 2
[0040] 第二步訓(xùn)練 S。一 S S 2- S 3
[0041] .........
[0042] 第 η 步訓(xùn)練 s。一 s s 2-......- s η s η
[0043] 由以上數(shù)據(jù)更新過程可知,后續(xù)動作產(chǎn)生的影響可快速反饋給當(dāng)前的狀態(tài),一定 程度上改善了 Q學(xué)習(xí)過程中數(shù)據(jù)傳遞的滯后性。
[0044] 采用本發(fā)明方法我們實(shí)現(xiàn)了對移動機(jī)器人的路徑規(guī)劃并進(jìn)行了仿真,結(jié)果如圖5 所示,機(jī)器人從起始點(diǎn)找到了到終點(diǎn)的可行路徑。系統(tǒng)收斂前機(jī)器人在環(huán)境中盲目行走,對 周圍環(huán)境沒有一定的判別能力,任意行走。如圖6,圖中前驅(qū)狀態(tài)和后繼狀態(tài)是機(jī)器人在環(huán) 境中的坐標(biāo),動作值分為1、2、3、4、5,分別代表機(jī)器人向右走、向上走、向左走、向下走、停在 原地。經(jīng)算法演繹,系統(tǒng)收斂后,機(jī)器人對周圍環(huán)境有了一定判斷能力,能直接找到一條從 起點(diǎn)到終點(diǎn)的可行路徑,如圖7和圖8所示。圖8中縱坐標(biāo)表示每次從起點(diǎn)走到終點(diǎn)的步 數(shù),橫坐標(biāo)表示迭代次數(shù)。此次仿真驗(yàn)證了本發(fā)明方法的有效性。
【主權(quán)項(xiàng)】
1. 一種深度自動編碼器與Q學(xué)習(xí)算法相結(jié)合的移動機(jī)器人路徑規(guī)劃方法,其特征在 于:該方法包括深度自動編碼器部分,BP神經(jīng)網(wǎng)絡(luò)部分,強(qiáng)化學(xué)習(xí)部分;深度自動編碼器部 分主要采用深度自動編碼器處理機(jī)器人所處環(huán)境的圖像,獲得圖像數(shù)據(jù)的特征,為后續(xù)實(shí) 現(xiàn)對環(huán)境的認(rèn)知打下基礎(chǔ);輸入圖像數(shù)據(jù),通過一層層網(wǎng)絡(luò)提取圖像特征,最終得到可以 代表圖像的最主要的特征;每層網(wǎng)絡(luò)提取圖像特征的過程,其思想是堆疊多個層(S 1, S2,… ,sn),令每一層的輸出等于輸入;輸入經(jīng)過編碼器產(chǎn)生一個輸出,這個輸出經(jīng)過解碼器解碼 后是原輸入信號的復(fù)現(xiàn);以重建的輸入與原輸入的差最小為原則調(diào)節(jié)參數(shù),參數(shù)調(diào)節(jié)好后 去掉解碼器,即得到一個隱藏層,固定此層參數(shù),將此層的輸出作為下一層的輸入訓(xùn)練下一 層;本方法中在深度自動編碼器加入了稀疏限制 '其中&是 隱層神經(jīng)元的數(shù)目;P是稀疏參數(shù),通常被設(shè)為一個很小的接近于〇的值;P ,表示某一層 網(wǎng)絡(luò)節(jié)點(diǎn)輸出值的平均值(j = 1、2、3 . . . Sl,&為某一層網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù));加入稀疏限 制可保證當(dāng)隱含層神經(jīng)元的數(shù)量很大時,自動編碼器依然能發(fā)現(xiàn)輸入數(shù)據(jù)的結(jié)構(gòu)性特征; BP神經(jīng)網(wǎng)絡(luò)部分主要實(shí)現(xiàn)獎勵值與圖像特征數(shù)據(jù)的擬合,實(shí)現(xiàn)深度自動編碼器與強(qiáng)化 學(xué)習(xí)的結(jié)合;BP神經(jīng)網(wǎng)絡(luò)主要包括三個部分:輸入部、訓(xùn)練部、輸出部;輸入部接收外來的 輸入樣本X,由訓(xùn)練部進(jìn)行網(wǎng)絡(luò)的權(quán)系數(shù)W調(diào)整,然后由輸出部輸出結(jié)果;在這個過程中,期 望的輸出信號可以作為教師信號輸入,由該教師信號與實(shí)際輸出進(jìn)行比較,產(chǎn)生的誤差去 控制修改權(quán)系數(shù)W ; 通過深度自動編碼器提取圖像特征,再將提取的特征經(jīng)BP神經(jīng)網(wǎng)絡(luò)擬合可實(shí)現(xiàn)對環(huán) 境的認(rèn)知; 強(qiáng)化學(xué)習(xí)部分基于以上網(wǎng)絡(luò)的輸出結(jié)果實(shí)現(xiàn)機(jī)器人的路徑規(guī)劃,本方法采用的是強(qiáng)化 學(xué)習(xí)中的Q學(xué)習(xí)算法;Q學(xué)習(xí)算法通過與環(huán)境交互學(xué)習(xí),在行動-評價(jià)的環(huán)境中獲得知識, 改進(jìn)行動方案以適應(yīng)環(huán)境達(dá)到預(yù)想目的;強(qiáng)化學(xué)習(xí)框圖中,agent感知周圍環(huán)境狀態(tài),根據(jù) Q學(xué)習(xí)算法選擇相應(yīng)的動作,agent執(zhí)行完動作后會作用于環(huán)境使環(huán)境發(fā)生改變,同時返回 一個獎賞信號給agent ;機(jī)器人通過與環(huán)境的交互實(shí)現(xiàn)自主學(xué)習(xí),最終找到從起始點(diǎn)到達(dá) 終點(diǎn)的可行路徑。2. 根據(jù)權(quán)利要求1所述的一種深度自動編碼器與Q學(xué)習(xí)算法相結(jié)合的移動機(jī)器人路徑 規(guī)劃方法,其特征在于:深度自動編碼器處理機(jī)器人所處環(huán)境信息即機(jī)器人所處環(huán)境的圖 像,獲取圖像特征數(shù)據(jù);所得環(huán)境特征數(shù)據(jù)通過BP神經(jīng)網(wǎng)絡(luò)的擬合得到機(jī)器人所處位置, 實(shí)現(xiàn)對周圍環(huán)境的認(rèn)知,進(jìn)而得到相應(yīng)的獎勵值R ;Q學(xué)習(xí)算法通過獎勵值R改變相應(yīng)的Q 值,Q學(xué)習(xí)算法再根據(jù)Q值選擇移動機(jī)器人要執(zhí)行的動作,使機(jī)器人所處的位置發(fā)生變化, 從而其周圍環(huán)境變化,實(shí)現(xiàn)與環(huán)境交互; 其中深度自動編碼器每一層網(wǎng)絡(luò)的參數(shù)更新過程中,其每層參數(shù)更新規(guī)則如公式(1) 到(7)所示:公式a)、⑵中hw,b(x)是各網(wǎng)絡(luò)節(jié)點(diǎn)的輸出;f (z)是輸出函數(shù);為1層的節(jié)點(diǎn)j 與1+1層的節(jié)點(diǎn)i之間的連接權(quán)重;表示與1+1層與的節(jié)點(diǎn)i連接的偏置;x(1)是輸入, 我們輸入一幅圖像,先通過(1)、(2)式得到此圖像的特征值,即輸出f (Z);公式(3)、(4)、 (5)中J(W,b)是損失函數(shù),在J(W,b)中hw,b(x)的輸入X是得到的原圖像的特征值,解碼器 解碼得到復(fù)現(xiàn)的原圖像,y(1)是期望的輸出,即原輸入圖像,我們的目標(biāo)是最小化關(guān)于w和b 的函數(shù)J(W,b) ;KL(P Il P ,)是稀疏性限制,上文已介紹;公式(6)、(7)中分別為W,b的更 新公式,a是O到1之間的參數(shù);通過調(diào)節(jié)W,b的值,使深度編碼器的最終輸出經(jīng)過反解碼 后最能代表原圖像,得到最能代表原圖像的特征值;本發(fā)明采用梯度下降法與Rprop方法 更改各層參數(shù)值; Q-Iearning算法常采用數(shù)值迭代來逼近最優(yōu)值,其更新規(guī)則如公式(8):公式(8)中a G [〇, 1]是學(xué)習(xí)率,控制學(xué)習(xí)速度;St,at分別為機(jī)器人當(dāng)前的狀態(tài)(文 中是機(jī)器人的位置)和選擇的動作值;Y G [〇, 1]是折扣因子;由式(1)可知要更新的Q 值是由原來的Q值和下一個狀態(tài)的Q值共同決定,Q值數(shù)據(jù)傳遞具有一定的滯后性;若有任 意相連的s 2、83二種狀態(tài),狀態(tài)s i要獲得狀態(tài)s 3的Q值反饋需要2次重復(fù)訓(xùn)練循環(huán),為 改善數(shù)據(jù)傳遞滯后性采用基于"回溯"思想的Q值更新策略; 數(shù)值更新過程如下:第一步訓(xùn)練S。一Si第二步訓(xùn)練S。一SS2 第二步訓(xùn)練S。一SS2-S3 第n步訓(xùn)練s0- s廣s 2-......- s n廣s n 由以上數(shù)據(jù)更新過程可知,后續(xù)動作產(chǎn)生的影響可快速反饋給當(dāng)前的狀態(tài),一定程度 上改善了 Q學(xué)習(xí)過程中數(shù)據(jù)傳遞的滯后性。
【專利摘要】一種深度自動編碼器與Q學(xué)習(xí)算法相結(jié)合的移動機(jī)器人路徑規(guī)劃方法,該方法包括深度自動編碼器部分,BP神經(jīng)網(wǎng)絡(luò)部分,強(qiáng)化學(xué)習(xí)部分。深度自動編碼器部分主要采用深度自動編碼器處理機(jī)器人所處環(huán)境的圖像,獲得圖像數(shù)據(jù)的特征,為后續(xù)實(shí)現(xiàn)對環(huán)境的認(rèn)知打下基礎(chǔ)。BP神經(jīng)網(wǎng)絡(luò)部分主要實(shí)現(xiàn)獎勵值與圖像特征數(shù)據(jù)的擬合,實(shí)現(xiàn)深度自動編碼器與強(qiáng)化學(xué)習(xí)的結(jié)合。Q學(xué)習(xí)算法通過與環(huán)境交互學(xué)習(xí),在行動-評價(jià)的環(huán)境中獲得知識,改進(jìn)行動方案以適應(yīng)環(huán)境達(dá)到預(yù)想目的。機(jī)器人通過與環(huán)境的交互實(shí)現(xiàn)自主學(xué)習(xí),最終找到從起始點(diǎn)到達(dá)終點(diǎn)的可行路徑。本發(fā)明提高了系統(tǒng)處理圖像的能力,通過深度自動編碼器與BP神經(jīng)網(wǎng)絡(luò)結(jié)合可實(shí)現(xiàn)對環(huán)境的認(rèn)知。
【IPC分類】G05D1/02, G06N3/02
【公開號】CN105137967
【申請?zhí)枴緾N201510420223
【發(fā)明人】于乃功, 默凡凡, 阮曉鋼
【申請人】北京工業(yè)大學(xué)
【公開日】2015年12月9日
【申請日】2015年7月16日