本發(fā)明涉及計(jì)算機(jī),尤其涉及一種無(wú)人機(jī)協(xié)同控制方法、裝置及系統(tǒng)。
背景技術(shù):
1、無(wú)人機(jī)在軍事領(lǐng)域的應(yīng)用現(xiàn)狀呈現(xiàn)出多樣化、高效化和智能化的特點(diǎn)。
2、首先,隨著科技的進(jìn)步和軍事需求的增長(zhǎng),各類軍用無(wú)人機(jī)在戰(zhàn)爭(zhēng)和沖突中發(fā)揮著越來(lái)越重要的作用。無(wú)人機(jī)在軍事領(lǐng)域的應(yīng)用廣泛,包括偵察、攻擊、情報(bào)收集、導(dǎo)航等。同時(shí),隨著技術(shù)的發(fā)展,無(wú)人機(jī)的應(yīng)用領(lǐng)域也在不斷擴(kuò)大。
3、其次,無(wú)人機(jī)具有顯著的技術(shù)優(yōu)勢(shì)。它們可以長(zhǎng)時(shí)間待機(jī),隨時(shí)起飛,實(shí)現(xiàn)全時(shí)戰(zhàn)備,使得戰(zhàn)備值守更加高效。此外,無(wú)人機(jī)還具備攜帶武器裝備多的特點(diǎn),由于節(jié)省了駕駛艙、逃生設(shè)備、部分備件等,因此可裝載更多的制導(dǎo)炸彈、導(dǎo)彈等武器。在作戰(zhàn)時(shí),無(wú)人機(jī)可只攜帶單程燃油,作戰(zhàn)半徑可擴(kuò)大一倍。
4、再者,無(wú)人機(jī)的智能化程度也在不斷提高。隨著微電子技術(shù)及微機(jī)電系統(tǒng)技術(shù)、傳感器技術(shù)、電氣自動(dòng)化技術(shù)的迅猛發(fā)展,以及相關(guān)設(shè)備性能的不斷提升和系統(tǒng)集成度的不斷提高,無(wú)人機(jī)可進(jìn)行察打評(píng)一體化任務(wù),自動(dòng)識(shí)別多個(gè)戰(zhàn)略目標(biāo),按優(yōu)先級(jí)打擊價(jià)值高的敵對(duì)目標(biāo),并回傳攻擊效果,對(duì)戰(zhàn)場(chǎng)做出態(tài)勢(shì)估計(jì),制定下一步打擊計(jì)劃。
5、然而,盡管無(wú)人機(jī)在軍事領(lǐng)域的應(yīng)用取得了顯著的進(jìn)展,但仍存在一些技術(shù)弱點(diǎn)及問(wèn)題。例如,現(xiàn)有無(wú)人機(jī)協(xié)同控制系統(tǒng)在輔助決策的智能化程度和準(zhǔn)確度上,尚不能滿足實(shí)際需求,指揮人員仍需依賴大量人工判斷。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種無(wú)人機(jī)協(xié)同控制方法、裝置及系統(tǒng),用以解決現(xiàn)有技術(shù)中無(wú)人機(jī)協(xié)同控制決策智能化程度低、準(zhǔn)確度差的缺陷,實(shí)現(xiàn)提高無(wú)人機(jī)協(xié)同控制決策的準(zhǔn)確度和智能化水平。
2、本發(fā)明提供一種無(wú)人機(jī)協(xié)同控制方法,包括如下步驟:基于多個(gè)無(wú)人機(jī)的局部觀測(cè)值,獲取聯(lián)合觀測(cè)值;獲取所述無(wú)人機(jī)通過(guò)與仿真環(huán)境交互獲得的實(shí)際獎(jiǎng)勵(lì)值;將所述聯(lián)合觀測(cè)值和所述無(wú)人機(jī)的所述實(shí)際獎(jiǎng)勵(lì)值輸入到第一深度神經(jīng)網(wǎng)絡(luò),輸出所述無(wú)人機(jī)的任務(wù)執(zhí)行策略;將所述無(wú)人機(jī)的所述任務(wù)執(zhí)行策略、所述實(shí)際獎(jiǎng)勵(lì)值及所述局部觀測(cè)值輸入到第二深度神經(jīng)網(wǎng)絡(luò),輸出用于控制所述無(wú)人機(jī)的動(dòng)作指令。
3、根據(jù)本發(fā)明提供的一種無(wú)人機(jī)協(xié)同控制方法,在所述將所述無(wú)人機(jī)的所述任務(wù)執(zhí)行策略、所述實(shí)際獎(jiǎng)勵(lì)值及所述局部觀測(cè)值輸入到第二深度神經(jīng)網(wǎng)絡(luò)之前,所述方法還包括:根據(jù)所述無(wú)人機(jī)當(dāng)前狀態(tài)的估計(jì)價(jià)值、下一狀態(tài)的估計(jì)價(jià)值及所述實(shí)際獎(jiǎng)勵(lì)值計(jì)算時(shí)間差誤差;根據(jù)所述時(shí)間差誤差調(diào)整所述第一深度神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)的權(quán)重,根據(jù)更新后的所述第一深度神經(jīng)網(wǎng)絡(luò)的輸出得到修正后的所述任務(wù)執(zhí)行策略。
4、根據(jù)本發(fā)明提供的一種無(wú)人機(jī)協(xié)同控制方法,所述時(shí)間差誤差表示為:
5、δ=r+γv(s')-v(s)
6、其中,δ表示所述時(shí)間差誤差,r表示所述實(shí)際獎(jiǎng)勵(lì)值,γ表示折扣因子,v(s)表示所述無(wú)人機(jī)當(dāng)前狀態(tài)的估計(jì)價(jià)值,v(s')表示所述無(wú)人機(jī)下一狀態(tài)的估計(jì)價(jià)值。
7、根據(jù)本發(fā)明提供的一種無(wú)人機(jī)協(xié)同控制方法,所述無(wú)人機(jī)根據(jù)指揮信息及所述多個(gè)無(wú)人機(jī)的所述局部觀測(cè)值與仿真環(huán)境交互獲得所述實(shí)際獎(jiǎng)勵(lì)值;其中,所述指揮信息包括所述動(dòng)作指令。
8、根據(jù)本發(fā)明提供的一種無(wú)人機(jī)協(xié)同控制方法,所述指揮信息還包括任務(wù)目標(biāo)的信息及所述仿真環(huán)境的更新信息。
9、根據(jù)本發(fā)明提供的一種無(wú)人機(jī)協(xié)同控制方法,在所述基于多個(gè)無(wú)人機(jī)的局部觀測(cè)值,獲取聯(lián)合觀測(cè)值之前,所述方法還包括:采用人工智能技術(shù)模擬所述任務(wù)目標(biāo)的行為。
10、根據(jù)本發(fā)明提供的一種無(wú)人機(jī)協(xié)同控制方法,在所述基于多個(gè)無(wú)人機(jī)的局部觀測(cè)值,獲取聯(lián)合觀測(cè)值之前,所述方法還包括:構(gòu)建包括多種仿真因素的所述仿真環(huán)境;其中,所述多種仿真因素包括地形因素、氣候因素及電磁干擾因素。
11、本發(fā)明還提供一種無(wú)人機(jī)協(xié)同控制裝置,包括如下模塊:第一獲取模塊,用于:基于多個(gè)無(wú)人機(jī)的局部觀測(cè)值,獲取聯(lián)合觀測(cè)值;第二獲取模塊,用于:獲取所述無(wú)人機(jī)通過(guò)與仿真環(huán)境交互獲得的實(shí)際獎(jiǎng)勵(lì)值;第一輸出模塊,用于:將所述聯(lián)合觀測(cè)值和所述無(wú)人機(jī)的所述實(shí)際獎(jiǎng)勵(lì)值輸入到第一深度神經(jīng)網(wǎng)絡(luò),輸出所述無(wú)人機(jī)的任務(wù)執(zhí)行策略;第二輸出模塊,用于:將所述無(wú)人機(jī)的所述任務(wù)執(zhí)行策略、所述實(shí)際獎(jiǎng)勵(lì)值及所述局部觀測(cè)值輸入到第二深度神經(jīng)網(wǎng)絡(luò),輸出用于控制所述無(wú)人機(jī)的動(dòng)作指令。
12、本發(fā)明還提供一種無(wú)人機(jī)協(xié)同控制系統(tǒng),包括所述無(wú)人機(jī)協(xié)同控制裝置及多個(gè)無(wú)人機(jī)。
13、本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述任一種所述無(wú)人機(jī)協(xié)同控制方法。
14、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述無(wú)人機(jī)協(xié)同控制方法。
15、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述無(wú)人機(jī)協(xié)同控制方法。
16、本發(fā)明提供的無(wú)人機(jī)協(xié)同控制方法、裝置及系統(tǒng),通過(guò)基于多個(gè)無(wú)人機(jī)的局部觀測(cè)值,獲取聯(lián)合觀測(cè)值,獲取各個(gè)無(wú)人機(jī)通過(guò)與仿真環(huán)境交互獲得的實(shí)際獎(jiǎng)勵(lì)值,將聯(lián)合觀測(cè)值和實(shí)際獎(jiǎng)勵(lì)值輸入到第一深度神經(jīng)網(wǎng)絡(luò),輸出各個(gè)無(wú)人機(jī)的任務(wù)執(zhí)行策略,將任務(wù)執(zhí)行策略、實(shí)際獎(jiǎng)勵(lì)值及局部觀測(cè)值輸入到第二深度神經(jīng)網(wǎng)絡(luò),輸出用于控制各個(gè)無(wú)人機(jī)的動(dòng)作指令,將強(qiáng)化學(xué)習(xí)算法和深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,提高了無(wú)人機(jī)協(xié)同控制決策的準(zhǔn)確度和智能化水平,提高了決策質(zhì)量和效率。
1.一種無(wú)人機(jī)協(xié)同控制方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的無(wú)人機(jī)協(xié)同控制方法,其特征在于,在所述將所述無(wú)人機(jī)的所述任務(wù)執(zhí)行策略、所述實(shí)際獎(jiǎng)勵(lì)值及所述局部觀測(cè)值輸入到第二深度神經(jīng)網(wǎng)絡(luò)之前,所述方法還包括:
3.根據(jù)權(quán)利要求2所述的無(wú)人機(jī)協(xié)同控制方法,其特征在于,所述時(shí)間差誤差表示為:
4.根據(jù)權(quán)利要求1所述的無(wú)人機(jī)協(xié)同控制方法,其特征在于,所述無(wú)人機(jī)根據(jù)指揮信息及所述多個(gè)無(wú)人機(jī)的所述局部觀測(cè)值與仿真環(huán)境交互獲得所述實(shí)際獎(jiǎng)勵(lì)值;其中,所述指揮信息包括所述動(dòng)作指令。
5.根據(jù)權(quán)利要求4所述的無(wú)人機(jī)協(xié)同控制方法,其特征在于,所述指揮信息還包括任務(wù)目標(biāo)的信息及所述仿真環(huán)境的更新信息。
6.根據(jù)權(quán)利要求5所述的無(wú)人機(jī)協(xié)同控制方法,其特征在于,在所述基于多個(gè)無(wú)人機(jī)的局部觀測(cè)值,獲取聯(lián)合觀測(cè)值之前,所述方法還包括:
7.根據(jù)權(quán)利要求1所述的無(wú)人機(jī)協(xié)同控制方法,其特征在于,在所述基于多個(gè)無(wú)人機(jī)的局部觀測(cè)值,獲取聯(lián)合觀測(cè)值之前,所述方法還包括:
8.一種無(wú)人機(jī)協(xié)同控制裝置,其特征在于,包括:
9.一種無(wú)人機(jī)協(xié)同控制系統(tǒng),其特征在于,包括權(quán)利要求8所述的無(wú)人機(jī)協(xié)同控制裝置及多個(gè)無(wú)人機(jī)。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述無(wú)人機(jī)協(xié)同控制方法。