本發(fā)明涉及一種大范圍監(jiān)控領(lǐng)域,具體涉及一種基于深度帶權(quán)雙q學(xué)習(xí)的大范圍監(jiān)控方法及監(jiān)控機器人。
背景技術(shù):
在我們平時的生活中,監(jiān)控系統(tǒng)已經(jīng)無處不在,例如:交通路口的紅綠燈監(jiān)控、住宅小區(qū)里的安全監(jiān)控等。監(jiān)控系統(tǒng)結(jié)合多媒體技術(shù)、計算機網(wǎng)絡(luò)、工業(yè)控制以及人工智能等多方面的知識,可用于安全防范、信息獲取和調(diào)度指揮等方面,還可為生產(chǎn)流程,遠程教育提供多種服務(wù)。但在一些需要完成具體任務(wù)的大范圍環(huán)境中,例如尋找并追蹤監(jiān)控不明物體,目前的監(jiān)控系統(tǒng)還不能完全布控。原因在于:一方面由于監(jiān)控攝像頭的固有缺陷,例如監(jiān)控范圍,信息容量有限等問題;另一方面需要考慮布控的成本,大范圍布控需要多攝像頭、多地的同步監(jiān)控,布控難,成本高。綜上所述,如何對大范圍的環(huán)境進行監(jiān)控已經(jīng)成為一項急需解決的問題。
現(xiàn)有的監(jiān)控系統(tǒng)存在如下缺陷:①有線模擬視頻信號的傳輸距離有限。當(dāng)傳輸距大于1km時,信號容易產(chǎn)生衰耗、畸變、群延等問題,圖像質(zhì)量將嚴重下降。②監(jiān)控系統(tǒng)大多以錄像的形式保存信息,但這種方法的容量有限,且需定期上傳或替換存儲介質(zhì),不能實現(xiàn)自動化監(jiān)控。③多攝像頭的監(jiān)控往往成本過高,同時現(xiàn)有的監(jiān)控攝像頭還未考慮多設(shè)備同步的問題。
技術(shù)實現(xiàn)要素:
本發(fā)明的發(fā)明目的是提供一種基于深度帶權(quán)雙q學(xué)習(xí)的大范圍監(jiān)控方法,不但解決了因監(jiān)控范圍過大導(dǎo)致監(jiān)控系統(tǒng)無法完全布控的難題,而且解決了攝像頭容量有限的問題。同時通過深度估值網(wǎng)絡(luò),直接對圖像信息進行特征提取,自行判斷是否有不明物體出現(xiàn)在監(jiān)視范圍內(nèi),其中特征并直接與q值表關(guān)聯(lián),省去了多臺攝像頭同步的問題,降低了成本。
為實現(xiàn)上述發(fā)明目的,本發(fā)明提供以下的技術(shù)方案:一種基于深度帶權(quán)雙q學(xué)習(xí)的大范圍監(jiān)控方法,包括如下步驟:
s1、提供一大范圍空間和一機器人,所述機器人在所述大范圍空間中,在工作狀態(tài)下,通過雙q學(xué)習(xí)方法從當(dāng)前狀態(tài)到達目標狀態(tài),所述機器人的q值表包括qa表和qb表,q值通過深度估值網(wǎng)絡(luò)參數(shù)θ進行計算,其中,
qa值的更新公式如下:
δ=r(s,a)+γ[βaqa(s′,a*;θ)+(1-βa)qb(s′,a*;θ)]-qa(s,a;θ);
qa←qa(s,a;θ)+α(s,a)δ;
qb值的更新公式如下:
δ=r(s,a)+γ[βbqb(s′,a*;θ)+(1-βb)qa(s′,a*;θ)]-qb(s,a;θ);
qb←qb(s,a;θ)+α(s,a)δ;
其中,βa,βb表示權(quán)重;s′表示下一狀態(tài);a*表示下一狀態(tài)的最優(yōu)動作;al表示下一狀態(tài)的最差動作;c為自由參數(shù),c≥0;δ表示時間差分;r表示獎賞值;γ表示目標折扣,0≤γ≤1;s表示當(dāng)前狀態(tài),a表示當(dāng)前動作;α表示學(xué)習(xí)率,α在區(qū)間(0,1)內(nèi);θ表示深度估值網(wǎng)絡(luò)參數(shù);
工作狀態(tài)時,所述大范圍空間中有不明物體;
目標狀態(tài)時,所述不明物體在所述機器人的監(jiān)控范圍內(nèi);
s2、所述機器人設(shè)置其初始狀態(tài)為當(dāng)前狀態(tài)s;
s3、所述機器人檢測并判斷當(dāng)前狀態(tài)s是否為工作狀態(tài),如否,進入s4,如是,進入s5;
s4、所述機器人待機后到達下一狀態(tài)s′,進入s11;
s5、所述機器人通過深度估值網(wǎng)絡(luò)檢測并判斷當(dāng)前狀態(tài)s是否為目標狀態(tài),如否,進入s6,如是,進入s7;
s6、所述機器人選擇并執(zhí)行當(dāng)前動作a后到達下一狀態(tài)s′,進入s8;
s7、所述機器人選擇并執(zhí)行當(dāng)前動作a后到達下一狀態(tài)s′并監(jiān)控所述不明物體,進入s8;
s8、所述機器人根據(jù)下一狀態(tài)s′得到獎賞值r,進入s9;
s9、所述機器人等概率的選擇更新qa值或qb值并進行更新,進入s10
s10、所述機器人判斷其q值表是否收斂,如否,進入s11,如是,進入s12;
s11、所述機器人重置下一狀態(tài)s′為當(dāng)前狀態(tài)s,回到s3;
s12、所述機器人制定最優(yōu)監(jiān)控策略,進入s13;
s13、所述機器人重置下一狀態(tài)s′為當(dāng)前狀態(tài)s,進入s14;
s14、所述機器人檢測并判斷當(dāng)前狀態(tài)s是否為工作狀態(tài),如否,進入s15,如是,進入s16;
s15、所述機器人待機后到達下一狀態(tài)s′,返回s13;
s16、所述機器人檢測并判斷當(dāng)前狀態(tài)s是否為目標狀態(tài),如否,進入s17,如是,進入s18;
s17、所述機器人根據(jù)所述最優(yōu)監(jiān)控策略到達下一狀態(tài)s′,回到s13;
s18、所述機器人選擇并執(zhí)行當(dāng)前動作a后到達下一狀態(tài)s′并監(jiān)控所述不明物體,回到s13。
其中,在同一大范圍空間中,所述機器人僅初次選擇并執(zhí)行當(dāng)前動作a前初始化其q值、學(xué)習(xí)率α、目標折扣γ、深度估值網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù)θ、動作選擇方式以及權(quán)重β。
深度帶權(quán)雙q方法利用深度估值網(wǎng)絡(luò),輸入視頻圖像等狀態(tài)信息和環(huán)境給予的反饋信號(如獎賞等),先通過可提取空間結(jié)構(gòu)信息的卷積層神經(jīng)網(wǎng)絡(luò)來抽取圖像中重要目標的特征信息,再通過全連接層的非線性變換來做分類或回歸,最終在輸出層產(chǎn)生每個動作的q值。該網(wǎng)絡(luò)通過網(wǎng)絡(luò)參數(shù)θ,將獎賞值和誤差項縮小至有限范圍內(nèi),保證了q值處于合理的范圍內(nèi),并提高了該方法的穩(wěn)定性。該網(wǎng)絡(luò)對傳統(tǒng)的q學(xué)習(xí)算法進行了多處改進,其中包括:(1)在訓(xùn)練過程中利用經(jīng)驗回放機制,將得到的狀態(tài)轉(zhuǎn)移樣本存放至記憶單元中,訓(xùn)練時從樣本池中隨機選擇一小批樣本對網(wǎng)絡(luò)參數(shù)θ進行更新,增加了可利用的樣本量,降低了樣本間的關(guān)聯(lián)性,提高了算法的穩(wěn)定性。(2)除了使用深度網(wǎng)絡(luò)表示當(dāng)前q值外,還另外使用一個網(wǎng)絡(luò)來產(chǎn)生目標q值,使用當(dāng)前q值和目標q值的線性組合來選擇動作,并通過最小化當(dāng)前q值和目標q值之間的均方誤差來更新網(wǎng)絡(luò)參數(shù)θ。引入該網(wǎng)絡(luò)后,在一段時間內(nèi)目標q值保持不變,可以減少值波動對訓(xùn)練過程的影響,提升算法的穩(wěn)定性。
上述技術(shù)方案中,所述大范圍空間劃分為若干子空間,所述機器人選擇并執(zhí)行當(dāng)前動作a后,靜止于當(dāng)前子空間或移動至與當(dāng)前子空間相鄰的子空間,每個所述子空間不大于所述機器人的監(jiān)控范圍。
上述技術(shù)方案中,所述機器人檢測當(dāng)前狀態(tài)s時,通過其傳感器獲知所述不明物體的大概位置loci和所述機器人的精確位置loca,記作s=<loci,loca>。
上述技術(shù)方案中,所述機器人通過其攝像頭獲取圖像信息,通過深度估值網(wǎng)絡(luò)進行特征提取和分類,自行判斷是否有不明物體在監(jiān)控范圍內(nèi),若有則通過其報警器進行報警。
上述技術(shù)方案中,所述機器人通過
上述技術(shù)方案中,所述機器人選擇當(dāng)前動作a時,有較大概率選擇最大q值所代表的動作,較小概率選擇其他任意動作。
上述技術(shù)方案中,所述獎賞值r的設(shè)置如下:
其中,loca為機器人的精確位置,loci為不明物體的大概位置,即當(dāng)不明物體在機器人的監(jiān)控范圍內(nèi)時給予正獎賞,而機器人未觀測到不明物體時給予負獎賞。
上述技術(shù)方案中,所述機器人不斷更新其學(xué)習(xí)率α,
本發(fā)明還提供另外一個技術(shù)方案:一種基于深度帶權(quán)雙q學(xué)習(xí)的大范圍監(jiān)控機器人,所述機器人的q值表包括qa表和qb表,q值通過深度估值網(wǎng)絡(luò)參數(shù)θ進行計算,其中,
qa值的更新公式如下:
δ=r(s,a)+γ[βaqa(s′,a*;θ)+(1-βa)qb(s′,a*;θ)]-qa(s,a;θ);
qa←qa(s,a;θ)+α(s,a)δ;
qb值的更新公式如下:
δ=r(s,a)+γ[βbqb(s′,a*;θ)+(1-βb)qa(s′,a*;θ)]-qb(s,a;θ);
qb←qb(s,a;θ)+α(s,a)δ;
其中,βa,βb表示權(quán)重;s′表示下一狀態(tài);a*表示下一狀態(tài)的最優(yōu)動作;al表示下一狀態(tài)的最差動作;c為自由參數(shù),c≥0;δ表示時間差分;r表示獎賞值;γ表示目標折扣,0≤γ≤1;s表示當(dāng)前狀態(tài),a表示當(dāng)前動作;α表示學(xué)習(xí)率,α在區(qū)間(0,1)內(nèi);θ表示深度估值網(wǎng)絡(luò)參數(shù);
所述機器人還設(shè)有實時檢測其自身精確位置和不明物體大概位置的傳感器和監(jiān)控所述不明物體的攝像頭,所述傳感器和所述攝像頭分別電連接所述機器人的主控芯片。
上述技術(shù)方案中,所述機器人還設(shè)有報警器,所述報警器電連接所述機器人的主控芯片。
由于上述技術(shù)方案運用,本發(fā)明與現(xiàn)有技術(shù)相比具有以下優(yōu)點:
(1)本發(fā)明公開的基于深度帶權(quán)雙q學(xué)習(xí)的大范圍監(jiān)控方法,能夠很好地應(yīng)對機器人在大范圍空間中運動方式不受控的目標(不明物體)的移動跟蹤問題,深度帶權(quán)雙q學(xué)習(xí)方法通過對感知到的狀態(tài)的判斷,計算該狀態(tài)下的風(fēng)險q值,隨后根據(jù)該風(fēng)險q值來指導(dǎo)機器人選擇動作進行移動,實現(xiàn)在無法知道目標(不明物體)的意圖,難以對目標(不明物體)的行為進行判斷的情況下監(jiān)控大范圍區(qū)域的目的。深度帶權(quán)雙q學(xué)習(xí)方法是一種在q學(xué)習(xí)方法和雙q學(xué)習(xí)方法之間的折衷方法,來指導(dǎo)agent的下一步行動。原始的q學(xué)習(xí)方法可用于大范圍空間問題,卻不能應(yīng)對目標運動方式不受控的情況,而雙q學(xué)習(xí)方法雖然有效地解決了運動方式不受控的目標監(jiān)控問題,但未能夠在大范圍情景中應(yīng)用,而深度帶權(quán)雙q學(xué)習(xí)方法能夠很好地應(yīng)對大范圍環(huán)境中的實時監(jiān)控難題。在使用深度帶權(quán)雙q學(xué)習(xí)方法實時監(jiān)控時,需要對q值表進行更新,q值表分為qa表和qb表,每次行動后,各有50%的概率對其中一個表的值進行更新。若需更新qa表中的值,則從qa中選擇所有可能的下一狀態(tài)中擁有最大q值的動作,再利用該動作在qa表和qb表中的值進行更新。qa表和qb表利用的比例由權(quán)值β決定。β的計算考慮了不明物體的狀態(tài)、機器人的狀態(tài)和當(dāng)前動作,在傳統(tǒng)的q學(xué)習(xí)方法和雙q學(xué)習(xí)方法之間做了折衷。方法通過不斷減少目標估計值與當(dāng)前估計值之差δ,最終會收斂得到一個能監(jiān)視并追蹤不明物體的最優(yōu)監(jiān)控策略。
(2)機器人感知大范圍空間中自身位置以及不明物體的大致位置,通過雙q學(xué)習(xí)達到目標狀態(tài)進行監(jiān)控,獲取不明物體的圖像信息并根據(jù)圖像信息進行報警。
(3)機器人能夠?qū)Ш阶粉櫜幻魑矬w,因此,僅需1臺機器人即可完成整個危險區(qū)域的監(jiān)控,無需考慮多臺監(jiān)視器同步的問題,而且節(jié)約了成本。
(4)機器人感知的狀態(tài)為具有馬爾科夫性質(zhì)的狀態(tài),具有馬爾科夫性質(zhì)的狀態(tài)的未來狀態(tài)只與當(dāng)前狀態(tài)有關(guān),與之前的狀態(tài)沒有關(guān)系,因此攝像頭無需保存過去的信息,只需專注于當(dāng)前自身和不明物體的位置,既解決了攝像頭信息容量有限的問題,而且節(jié)約了成本。
(5)機器人在導(dǎo)航追蹤不明物體時,通過設(shè)置獎賞值,根據(jù)該獎賞值,可以有效區(qū)分狀態(tài)好的情況與不好的情況,提高機器人學(xué)習(xí)的速度,并且在一定程度上幫助機器人追蹤不明物體。
(6)機器人根據(jù)其自身和目標(不明物體)的位置,選擇是否需要回到充電點進行自動充電。
附圖說明
圖1是本發(fā)明公開的基于深度帶權(quán)雙q學(xué)習(xí)的大范圍監(jiān)控機器人的組成示意圖。
圖2是本發(fā)明公開的基于深度帶權(quán)雙q學(xué)習(xí)的大范圍空間、機器人以及不明物體的位置示意圖。
圖3是本發(fā)明公開的基于深度帶權(quán)雙q學(xué)習(xí)的大范圍監(jiān)控方法的流程圖。
其中,10,、機器人;11、傳感器;12、攝像頭;13、主控芯片;20、大范圍空間;21、子空間;30、不明物體。
具體實施方式
下面結(jié)合本發(fā)明的原理、附圖以及實施例對本發(fā)明進一步描述
實施例一
參見圖1,如其中的圖例所示,為一種基于深度帶權(quán)雙q學(xué)習(xí)的大范圍監(jiān)控機器人10,該機器人10的q值表包括qa表和qb表,q值通過深度估值網(wǎng)絡(luò)參數(shù)θ進行計算,其中,
qa值的更新公式如下:
δ=r(s,a)+γ[βaqa(s′,a*;θ)+(1-βa)qb(s′,a*;θ)]-qa(s,a;θ);
qa←qa(s,a;θ)+α(s,a)δ;
qb值的更新公式如下:
δ=r(s,a)+γ[βbqb(s′,a*;θ)+(1-βb)qa(s′,a*;θ)]-qb(s,a;θ);
qb←qb(s,a;θ)+α(s,a)δ;
其中,βa,βb表示權(quán)重;s′表示下一狀態(tài);a*表示下一狀態(tài)的最優(yōu)動作;al表示下一狀態(tài)的最差動作;c為自由參數(shù),c≥0;δ表示時間差分;r表示獎賞值;γ表示目標折扣,0≤γ≤1;s表示當(dāng)前狀態(tài),a表示當(dāng)前動作;α表示學(xué)習(xí)率,α在區(qū)間(0,1)內(nèi);θ表示深度估值網(wǎng)絡(luò)參數(shù);
該機器人10還設(shè)有實時檢測其自身精確位置和不明物體大概位置的傳感器11和監(jiān)控不明物體的攝像頭12,傳感器11和攝像頭12分別電連接機器人10的主控芯片13。
該機器人10獲取圖像后,圖像將作為深度估值網(wǎng)絡(luò)的輸入。深度估值網(wǎng)絡(luò)由8層網(wǎng)絡(luò)構(gòu)成,所有網(wǎng)絡(luò)節(jié)點均為修正線性單元relu。第1層為輸入層,狀態(tài)是扁平化長為84*84*3=21168的向量,獎賞信號為數(shù)值型標量,第2-5層為卷積層。第2層的卷積核尺寸為8*8,步長為4*4,輸出通道數(shù)為32,這一層的輸出維度為20*20*32。第3層的卷積核尺寸為4*4,步長為2*2,輸出通道數(shù)為64,這一層的輸出維度為9*9*64。第4層的卷積核尺寸為3*3,步長為1*1,輸出通道數(shù)為64,這一層輸出維度為7*7*64。第5層的卷積核尺寸為7*7,步長為1*1,輸出通道數(shù)為1*1*512。第7層是全連接層,輸出通道數(shù)為512。第8層也是全連接層,輸出通道數(shù)為行動數(shù),即輸出值為每個狀態(tài)-行動對對應(yīng)的q值。在經(jīng)驗重放機制中,每批樣本數(shù)目為32,重放記憶單元大小為1000000,目標q值每10000個樣本更新一次,當(dāng)前q值每行動數(shù)個樣本更新一次。
參見圖2和圖3,如其中的圖例所示,一種基于深度帶權(quán)雙q學(xué)習(xí)的大范圍監(jiān)控方法,包括如下步驟:
s1、提供一大范圍空間20和一機器人10,機器人10在大范圍空間20中通過雙q學(xué)習(xí)方法在工作狀態(tài)下從當(dāng)前狀態(tài)到達目標狀態(tài);
工作狀態(tài)時,大范圍空間20中有不明物體30;
目標狀態(tài)時,不明物體30在機器人10的監(jiān)控范圍內(nèi);
s2、機器人10設(shè)置其初始狀態(tài)為當(dāng)前狀態(tài)s;
s3、機器人10檢測并判斷當(dāng)前狀態(tài)s是否為工作狀態(tài),如否,進入s4,如是,進入s5;
s4、機器人10待機后到達下一狀態(tài)s′,進入s11;
s5、機器人10檢測并判斷當(dāng)前狀態(tài)s是否為目標狀態(tài),如否,進入s6,如是,進入s7;
s6、機器人10選擇并執(zhí)行當(dāng)前動作a后到達下一狀態(tài)s′,進入s8;
s7、機器人10選擇并執(zhí)行當(dāng)前動作a后到達下一狀態(tài)s′并監(jiān)控不明物體30,進入s8;
s8、機器人10根據(jù)下一狀態(tài)s′得到獎賞值r,進入s9;
s9、機器人10等概率的選擇更新qa值或qb值并進行更新,進入s10
s10、機器人10判斷其q值表是否收斂,如否,進入s11,如是,進入s12;
s11、機器人10重置下一狀態(tài)s′為當(dāng)前狀態(tài)s,回到s3;
s12、機器人10制定最優(yōu)監(jiān)控策略,進入s13;
s13、機器人10重置下一狀態(tài)s′為當(dāng)前狀態(tài)s,進入s14;
s14、機器人10通過深度估值網(wǎng)絡(luò)檢測并判斷當(dāng)前狀態(tài)s是否為工作狀態(tài),如否,進入s15,如是,進入s16;
s15、機器人10待機后到達下一狀態(tài)s′,返回s13;
s16、機器人10檢測并判斷當(dāng)前狀態(tài)s是否為目標狀態(tài),如否,進入s17,如是,進入s18;
s17、機器人10根據(jù)最優(yōu)監(jiān)控策略到達下一狀態(tài)s′,回到s13;
s18、機器人10選擇并執(zhí)行當(dāng)前動作a后到達下一狀態(tài)s′并監(jiān)控不明物體30,回到s13。
上述技術(shù)方案中,在同一大范圍空間中,機器人10僅初次選擇并執(zhí)行當(dāng)前動作a前初始化其q值、學(xué)習(xí)率α、目標折扣γ、動作選擇方式、權(quán)重β、以及深度估值網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù)θ等,本實施例中,初始化后,q值為0、自由參數(shù)c為1、學(xué)習(xí)率α為0.8、目標折扣γ為0.95、動作選擇方式為
上述技術(shù)方案中,大范圍空間20劃分為若干子空間21,機器人10選擇并執(zhí)行當(dāng)前動作a后,靜止于當(dāng)前子空間或移動至與當(dāng)前子空間相鄰的子空間,每個子空間21不大于機器人10的監(jiān)控范圍。
上述技術(shù)方案中,機器人10檢測當(dāng)前狀態(tài)s時,通過其傳感器獲知不明物體30的大概位置loci和機器人10的精確位置loca,記作s=<loci,loca>。上述狀態(tài)具有馬爾科夫性質(zhì),具有馬爾科夫性質(zhì)的狀態(tài)的未來狀態(tài)只與當(dāng)前狀態(tài)有關(guān),與之前的狀態(tài)沒有關(guān)系。
上述技術(shù)方案中,機器人10監(jiān)控不明物體30時,通過其攝像頭12獲取不明物體的圖像信息。
上述技術(shù)方案中,機器人10選擇當(dāng)前動作a時,有較大概率選擇最大q值所代表的動作,較小概率選擇其他任意動作。
一種實施方式中,機器人10的攝像頭12為360度可旋轉(zhuǎn)攝像頭。
一種實施方式中,機器人10還設(shè)有報警器(圖中未視出),該報警器電連接機器人10的主控芯片13。機器人10根據(jù)圖像信息,通過深度估值網(wǎng)絡(luò)進行特征提取和分類,自行判斷是否有不明物體在監(jiān)控范圍內(nèi),若有則通過其報警器進行報警。
一種實施方式中,機器人10通過
一種實施方式中,獎賞值r的設(shè)置如下:
其中,loca為機器人的精確位置,loci為不明物體的大概位置,即當(dāng)不明物體在機器人的監(jiān)控范圍內(nèi)時給予正獎賞,而機器人未觀測到不明物體時給予負獎賞。
一種實施方式中,機器人10不斷更新其學(xué)習(xí)率α,
對所公開的實施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對這些實施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實施例中實現(xiàn)。因此,本發(fā)明將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。