亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于dec-pomdp的多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置的制造方法

文檔序號(hào):10570490閱讀:729來源:國知局
一種基于dec-pomdp的多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置的制造方法
【專利摘要】本發(fā)明實(shí)施例提供了一種基于DEC?POMDP多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置,屬于對(duì)地觀測衛(wèi)星地面運(yùn)控技術(shù)領(lǐng)域。該方法包括:獲取當(dāng)前規(guī)劃決策時(shí)刻的環(huán)境觀測信息和DAG協(xié)同規(guī)劃環(huán)境中其它各衛(wèi)星的部分狀態(tài)信息,并基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新;根據(jù)更新后的信念狀態(tài)信息計(jì)算所述當(dāng)前規(guī)劃決策時(shí)刻最優(yōu)的觀測動(dòng)作,并獲得瞬時(shí)報(bào)酬值;根據(jù)所述瞬時(shí)報(bào)酬值計(jì)算期望折扣報(bào)酬值,并計(jì)算出使得所述期望折扣報(bào)酬值最大化的最優(yōu)策略,以及得到所述期望折扣報(bào)酬值的最大值;將每個(gè)規(guī)劃決策時(shí)刻得到的折扣報(bào)酬期望值進(jìn)行疊加合并,得到所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)。本發(fā)明能夠?qū)崿F(xiàn)衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的分布式優(yōu)化決策。
【專利說明】
_種基于DEG-POMDP的多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及對(duì)地觀測衛(wèi)星地面運(yùn)控技術(shù)領(lǐng)域,具體而言,涉及一種基于DEC-P0MDP 的多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置。
【背景技術(shù)】
[0002] 部分可見馬爾可夫決策過程模型(P0MDP)是一種用于制定序列決策的經(jīng)典模型。 在P0MDP中,智能體做出動(dòng)作所產(chǎn)生的效果是不確定的,對(duì)環(huán)境狀態(tài)信息的觀測也是不完整 的。因此,P0MDP對(duì)于表達(dá)智能體在非確定環(huán)境下的序列決策問題而言,是一種非常有效的 模型。
[0003] 借鑒P0MDP的思想,可以將單顆衛(wèi)星在時(shí)序有向無圈圖(DAG)中的任務(wù)搜索問題轉(zhuǎn) 化為決策問題。對(duì)于由執(zhí)行協(xié)同規(guī)劃任務(wù)的自治衛(wèi)星組成的復(fù)雜非集中式系統(tǒng) (Decentralized System),該非集中式系統(tǒng)中的每顆衛(wèi)星都是一個(gè)智能體,并且在非集中 式系統(tǒng)的動(dòng)態(tài)特性上并沒有太多關(guān)聯(lián),只是通過共同受理的觀測任務(wù)發(fā)生作用,并且通過 衛(wèi)星之間的星際鏈路交換信息和進(jìn)行協(xié)調(diào)。該非集中式系統(tǒng)是具有動(dòng)態(tài)解耦特性的系統(tǒng)。 在該具有動(dòng)態(tài)解耦特性的系統(tǒng)中,衛(wèi)星的規(guī)劃決策主要通過改變環(huán)境信息,并間接影響到 其它衛(wèi)星的任務(wù)規(guī)劃決策,由于衛(wèi)星觀測環(huán)境信息的不一致導(dǎo)致了多個(gè)衛(wèi)星協(xié)同決策的困 難增加。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明提供了一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置,旨在針對(duì) 多個(gè)衛(wèi)星的協(xié)同環(huán)境觀測信息不一致性,有效提高了衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)進(jìn)行分布式優(yōu) 化決策的高效性和準(zhǔn)確性。
[0005] 第一方面,本發(fā)明實(shí)施例提供的一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法, 應(yīng)用于具有動(dòng)態(tài)解耦特性的衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括的衛(wèi)星,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系 統(tǒng)包括多個(gè)相互獨(dú)立的衛(wèi)星,所述多衛(wèi)星協(xié)同優(yōu)化決策方法包括:
[0006] 獲取當(dāng)前規(guī)劃決策時(shí)刻的環(huán)境觀測信息和DAG協(xié)同規(guī)劃環(huán)境中其它各衛(wèi)星的部分 狀態(tài)信息,并基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行 更新,其中,所述部分可見馬爾可夫決策過程模型包括有限狀態(tài)集合、動(dòng)作集合、狀態(tài)轉(zhuǎn)移 函數(shù)、報(bào)酬函數(shù)、有限觀測集合和觀察函數(shù);
[0007] 根據(jù)更新后的信念狀態(tài)信息計(jì)算所述當(dāng)前規(guī)劃決策時(shí)刻最優(yōu)的觀測動(dòng)作,并根據(jù) 所述部分可見馬爾可夫決策過程模型獲得與所述觀測動(dòng)作相對(duì)應(yīng)的瞬時(shí)報(bào)酬值;
[0008] 根據(jù)所述瞬時(shí)報(bào)酬值計(jì)算期望折扣報(bào)酬值,并計(jì)算出使得所述期望折扣報(bào)酬值最 大化的最優(yōu)策略,以及得到所述期望折扣報(bào)酬值的最大值;
[0009] 進(jìn)入下一規(guī)劃決策時(shí)刻,重復(fù)進(jìn)行以上步驟直至整個(gè)規(guī)劃決策過程的結(jié)束,并得 到在各規(guī)劃決策時(shí)刻的折扣報(bào)酬期望值;
[0010] 將每個(gè)規(guī)劃決策時(shí)刻得到的折扣報(bào)酬期望值進(jìn)行疊加合并,得到所述衛(wèi)星協(xié)同任 務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)。
[0011] 優(yōu)選地,所述基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星自身的信念狀態(tài) 信息進(jìn)行更新的步驟包括:
[0012] 當(dāng)信念狀態(tài)信息屬于所述有限狀態(tài)集合,且執(zhí)行所述動(dòng)作集合中的動(dòng)作寸,根據(jù) 所述狀態(tài)轉(zhuǎn)移函數(shù)中的轉(zhuǎn)移概率分布對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新,并根 據(jù)所述觀察函數(shù)得到在所述有限觀測集合中觀察3的概率分布(Ka,",〇)。
[0013] 優(yōu)選地,所述基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星自身的信念狀態(tài) 信息進(jìn)行更新的步驟還包括:根據(jù)貝葉斯準(zhǔn)則對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新;
[0014] 定義信念狀態(tài)更新函數(shù)<P:BX Q XA,
[0015] 其中,B表示信念狀態(tài)空間,Q表示有限觀測集合,A表示動(dòng)作集合,則:
[0017]以及
[0018] Pf(o\h,a) =
[0019] 其中,Pr(o | b,a)為歸一化因子,表示在信念狀態(tài)信息b下執(zhí)行動(dòng)作a時(shí)得到的觀測 概率〇。
[0020] 優(yōu)選地,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的狀態(tài)空間記為S= {Si},1 < iSNS,當(dāng)?shù)趇顆 衛(wèi)星的策略方程為R時(shí),所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的策略方程可以表示為如下形式:
[0021] /r(/j) = [7Tl(/>l),.../Tv (/>,)]
[0022]所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的信念狀態(tài)更新函數(shù)可表示為:
[0023] (p(K a, 〇) = (/>,, d)^"(pN^Ns:,
[0024]第i顆衛(wèi)星的信念狀態(tài)更新函數(shù)則可以表示為:
[0026]其中,5:e Q Q A表示第i顆衛(wèi)星獲得的其它衛(wèi)星的部分狀態(tài)信息; ,: ,
[0027]在最優(yōu)策略#下,每個(gè)信念狀態(tài)信息的折扣報(bào)酬期望值組成最優(yōu)值函數(shù)V%以遞歸 形式表示為:
[0028] KE (b) - max ["^ ^ b(s)R(s,a) + Pr(? ! bJt)V(b")
[0029] 其中,所述最優(yōu)策略#為動(dòng)作系列:
[0030] ^ (/?) = argmax[^s sh(s)R{s..a) +y^- n Pr(0 | 0 0
[0031] 優(yōu)選地,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)是所有NS顆衛(wèi)星的值函數(shù)之 和,即表示為如下形式:
[0032] 叫))=1::,故')
[0033]第二方面,本發(fā)明實(shí)施例提供的一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置, 應(yīng)用于具有動(dòng)態(tài)解耦特性的衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括的衛(wèi)星,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系 統(tǒng)包括多個(gè)相互獨(dú)立的衛(wèi)星,其特征在于,所述多衛(wèi)星協(xié)同優(yōu)化決策裝置包括:
[0034]信念狀態(tài)信息更新模塊,用于獲取當(dāng)前規(guī)劃決策時(shí)刻的環(huán)境觀測信息和DAG協(xié)同 規(guī)劃環(huán)境中其它各衛(wèi)星的部分狀態(tài)信息,并基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì) 衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新,其中,所述部分可見馬爾可夫決策過程模型包括有限 狀態(tài)集合、動(dòng)作集合、狀態(tài)轉(zhuǎn)移函數(shù)、報(bào)酬函數(shù)、有限觀測集合和觀察函數(shù);
[0035]優(yōu)化決策模塊,用于根據(jù)更新后的信念狀態(tài)信息計(jì)算所述當(dāng)前規(guī)劃決策時(shí)刻最優(yōu) 的觀測動(dòng)作,并根據(jù)所述部分可見馬爾可夫決策過程模型獲得與所述觀測動(dòng)作相對(duì)應(yīng)的瞬 時(shí)報(bào)酬值;以及根據(jù)所述瞬時(shí)報(bào)酬值計(jì)算期望折扣報(bào)酬值,并計(jì)算出使得所述期望折扣報(bào) 酬值最大化的最優(yōu)策略,以及得到所述期望折扣報(bào)酬值的最大值;
[0036] 值函數(shù)計(jì)算模塊,用于將每個(gè)規(guī)劃決策時(shí)刻得到的折扣報(bào)酬期望值進(jìn)行疊加合 并,得到所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)。
[0037] 優(yōu)選地,所述信念狀態(tài)信息更新模塊還用于在信念狀態(tài)信息屬于所述有限狀態(tài)集 合,且執(zhí)行所述動(dòng)作集合中的動(dòng)作5的情況下,根據(jù)所述狀態(tài)轉(zhuǎn)移函數(shù)中的轉(zhuǎn)移概率分布 對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新,并根據(jù)所述觀察函數(shù)得到在所述有限觀測 集合中觀察的概率分布(Ka^7,〇)。
[0038] 優(yōu)選地,所述信念狀態(tài)信息更新模塊還用于根據(jù)貝葉斯準(zhǔn)則對(duì)衛(wèi)星自身的信念狀 態(tài)信息進(jìn)行更新;
[0039] 定義信念狀態(tài)更新函數(shù)9::BX Q XA,
[0040] 其中,B表示信念狀態(tài)空間,Q表示有限觀測集合,A表示動(dòng)作集合,則:
[0042] 以及
[0043] Pr(〇 | /?,?) = X >= s T^s-- a-s,Ws)
[0044] 其中,Pr(o | b,a)為歸一化因子,表示在信念狀態(tài)信息b下執(zhí)行動(dòng)作a時(shí)得到的觀測 概率0。
[0045] 優(yōu)選地,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的狀態(tài)空間記為S= {Si},1 < iSNS,當(dāng)?shù)趇顆 衛(wèi)星的策略方程為R時(shí),所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的策略方程可以表示為如下形式:
[0046] 兀(/:>) = |>2丨(/:>丨),…/T、. (/,、、)]
[0047]所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的信念狀態(tài)更新函數(shù)可表示為:
[0048]
[0049] 第i顆衛(wèi)星的信念狀態(tài)更新函數(shù)則可以表示為:
[0051]其中,rJeD,泣=珥兌表示第i顆衛(wèi)星獲得的其它衛(wèi)星的部分狀態(tài)信息;
[0052]在最優(yōu)策略#下,每個(gè)信念狀態(tài)信息的折扣報(bào)酬期望值組成最優(yōu)值函數(shù)V'以遞歸 形式表示為:
[0053] F' (/?) ^ max | V ^b(s)R(.s,a) + y^.. (i Pr(? | b,a)V(h,)
[0054]其中,所述最優(yōu)策略#為動(dòng)作系列:
[0055] (6) - argmax fy; ^ vb(s)M(s,a}+ r'E^ I a)V(!A a^A L 」〇
[0056]優(yōu)選地,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)是所有NS顆衛(wèi)星的值函數(shù)之 和,即表示為如下形式:
[0057]明= 哪,
[0058]本發(fā)明實(shí)施例提供的一種基于DEC-P0MDP多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置,根據(jù) 獲取的環(huán)境觀測信息和其它各衛(wèi)星的部分狀態(tài)信息,為了適應(yīng)信念狀態(tài)信息的無后效性要 求,基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新,并 計(jì)算出最優(yōu)的觀測動(dòng)作,以及獲得與所述觀測動(dòng)作相對(duì)應(yīng)的瞬時(shí)報(bào)酬值和期望折扣報(bào)酬 值,從而計(jì)算出使得所述期望折扣報(bào)酬值最大化的最優(yōu)策略。如此,有效提高了衛(wèi)星協(xié)同任 務(wù)規(guī)劃系統(tǒng)進(jìn)行分布式優(yōu)化決策的高效性和準(zhǔn)確性。
【附圖說明】
[0059] 為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附 圖作簡單地介紹,應(yīng)當(dāng)理解,以下附圖僅示出了本發(fā)明的某些實(shí)施例,因此不應(yīng)該看作是對(duì) 范圍的限定,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這 些附圖獲得其他相關(guān)的附圖。
[0060] 圖1是本發(fā)明實(shí)施方式提供的一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置的 功能模塊框圖。
[0061] 圖2是本發(fā)明實(shí)施方式提供的一種衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的組成框圖。
[0062]圖3是本發(fā)明實(shí)施方式提供的一種衛(wèi)星優(yōu)化決策系統(tǒng)的組成框圖。
[0063]圖4是本發(fā)明實(shí)施方式提供的一種衛(wèi)星進(jìn)行優(yōu)化決策的過程示意圖。
[0064]圖5是本發(fā)明實(shí)施方式提供的一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法的 流程圖。
[0065]圖中標(biāo)記分別為:

【具體實(shí)施方式】
[0067]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例 中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是 本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員 在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0068] 應(yīng)注意到:相似的標(biāo)號(hào)和字母在下面的附圖中表示類似項(xiàng),因此,一旦某一項(xiàng)在一 個(gè)附圖中被定義,則在隨后的附圖中不需要對(duì)其進(jìn)行進(jìn)一步定義和解釋。同時(shí),在本發(fā)明的 描述中,術(shù)語"第一"、"第二"等僅用于區(qū)分描述,而不能理解為指示或暗示相對(duì)重要性。
[0069] 如圖1所示,是本發(fā)明實(shí)施例提供的一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝 置100的結(jié)構(gòu)框圖。所述多衛(wèi)星協(xié)同優(yōu)化決策裝置100可以應(yīng)用于具有動(dòng)態(tài)解耦特性的衛(wèi)星 協(xié)同任務(wù)規(guī)劃系統(tǒng)包括的衛(wèi)星??蛇x地,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括多個(gè)衛(wèi)星,所述多 個(gè)衛(wèi)星可以相互獨(dú)立地執(zhí)行協(xié)同規(guī)劃任務(wù)。所述多衛(wèi)星協(xié)同優(yōu)化決策裝置100可以包括信 念狀態(tài)信息更新模塊101、優(yōu)化決策模塊102和值函數(shù)計(jì)算模塊103。
[0070] 其中,所述DEC是非集中式系統(tǒng)的英文簡稱,所述P0MDP是部分可見馬爾可夫決策 過程模型的英文簡稱。每個(gè)衛(wèi)星都是一個(gè)智能體,并且在所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的動(dòng) 態(tài)特性上沒有過多的關(guān)聯(lián),只是在執(zhí)行共同受理的觀測任務(wù)時(shí)發(fā)生相互作用。所述多個(gè)衛(wèi) 星之間存在通信連接,所述多個(gè)衛(wèi)星之間可以相互交換信息和進(jìn)行協(xié)調(diào)。因此所述衛(wèi)星協(xié) 同任務(wù)規(guī)劃系統(tǒng)具有動(dòng)態(tài)解耦特性。在所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)中,每個(gè)衛(wèi)星的規(guī)劃決 策通過改變環(huán)境信息間接影響到其它衛(wèi)星的任務(wù)規(guī)劃決策。針對(duì)具有動(dòng)態(tài)解耦特性的衛(wèi)星 協(xié)同任務(wù)規(guī)劃系統(tǒng),可以將整個(gè)系統(tǒng)劃分成多個(gè)有限相互獨(dú)立的衛(wèi)星優(yōu)化決策子系統(tǒng)。并 分別對(duì)每個(gè)衛(wèi)星優(yōu)化決策子系統(tǒng)進(jìn)行優(yōu)化求解,進(jìn)而建立多衛(wèi)星協(xié)同優(yōu)化決策裝置100。
[0071] 進(jìn)一步地,如圖2所示,在多衛(wèi)星協(xié)同優(yōu)化決策裝置100的結(jié)構(gòu)下,衛(wèi)星協(xié)同任務(wù)規(guī) 劃系統(tǒng)被劃分成多個(gè)相互獨(dú)立的決策子系統(tǒng)。所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的動(dòng)作由所有子 系統(tǒng)的動(dòng)作所組成。每個(gè)衛(wèi)星包括一個(gè)本地P0MDP決策模塊,在衛(wèi)星之間可以通過延遲通信 網(wǎng)絡(luò)進(jìn)行信息交換。所述信息可以包括各衛(wèi)星的部分狀態(tài)信息,所述部分狀態(tài)信息包括本 地優(yōu)化決策得到的階段性結(jié)果,進(jìn)而可以實(shí)現(xiàn)多個(gè)衛(wèi)星之間的分布式協(xié)調(diào)。
[0072]請(qǐng)一并參閱圖3,所述信念狀態(tài)信息更新模塊101根據(jù)衛(wèi)星的本地觀測信息和與其 它各衛(wèi)星的交互信息更新信念狀態(tài)信息信念狀態(tài)信息#是衛(wèi)星狀態(tài)的概率分布。
[0073]所述優(yōu)化決策模塊102基于信念狀態(tài)信息#計(jì)算tk時(shí)刻最優(yōu)的觀測動(dòng)作并得到 下一時(shí)刻sati的信念狀態(tài)信息由于延遲通信網(wǎng)絡(luò)的存在,在協(xié)同優(yōu)化決策過程中的信 息交互存在通信延遲,所述延遲通信網(wǎng)絡(luò)描述了各衛(wèi)星之間的信息交互能力,決定了優(yōu)化 決策過程中衛(wèi)星獲取信息的內(nèi)容與通信延遲的程度??蛇x地,所述優(yōu)化決策系統(tǒng)通過所述 延遲通信網(wǎng)絡(luò)在DAG(Directed Acyclic Graph,時(shí)序有向無圈圖)協(xié)同規(guī)劃環(huán)境中獲取信 息。
[0074]具體地,所述優(yōu)化決策的過程如圖4所示。假設(shè)在當(dāng)前規(guī)劃時(shí)刻tk,衛(wèi)星sati根據(jù) tk-1時(shí)刻的決策結(jié)果選擇觀測節(jié)點(diǎn)vF,響應(yīng)的環(huán)境狀態(tài)信息更新為<,sati基于環(huán)境狀態(tài) 信息的觀測of更新信念狀態(tài)信息紀(jì)。之后,sati根據(jù)信念狀態(tài)信息并以tk時(shí)刻的瞬時(shí) 報(bào)酬值與tk之后折扣報(bào)酬期望值做出最優(yōu)的規(guī)劃決策得到環(huán)境狀態(tài)信息#+1,并計(jì)入下一個(gè) 規(guī)劃決策時(shí)刻tk+1,重復(fù)上述過程直至到達(dá)虛擬觀測節(jié)點(diǎn)vE的整個(gè)決策過程的結(jié)束。
[0075]進(jìn)一步地,所述值函數(shù)計(jì)算模塊103將每個(gè)規(guī)劃決策時(shí)刻得到的折扣報(bào)酬期望值 進(jìn)行疊加合并,得到所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)。
[0076] 可以理解的是,優(yōu)化決策是P0MDP的核心,環(huán)境信息無法全部獲取的背景下,通過 增加信念狀態(tài)估計(jì),從而保持了馬爾可夫性,也即無后效性。這種無后效性表現(xiàn)在在規(guī)劃過 程中某階段的狀態(tài)一旦確定,則此后過程的演變不再受此前各狀態(tài)的影響。也就是說,"未 來與過去無關(guān)",當(dāng)前的狀態(tài)是此前歷史的一個(gè)完整總結(jié),此前的歷史只能通過當(dāng)前的狀態(tài) 去影響過程未來的演變,在每一時(shí)刻都只根據(jù)當(dāng)前的狀態(tài)進(jìn)行優(yōu)化決策。這種"未來與過去 無關(guān)"的決策策略與衛(wèi)星在時(shí)序有向無圈圖上的任務(wù)搜索過程十分吻合。衛(wèi)星在時(shí)序有向 無圈圖中每一個(gè)時(shí)刻的決策僅與當(dāng)前時(shí)刻的狀態(tài)有關(guān)而與之前的狀態(tài)均無關(guān)。這樣可以忽 略歷史的影響,一切規(guī)劃都只要從當(dāng)前狀態(tài)出發(fā)即可。它所蘊(yùn)含的思想是將智能體有限的 規(guī)劃能力引導(dǎo)至更有價(jià)值的方向。因此,POMDP的優(yōu)化決策求解的基本思想可以為解決衛(wèi)星 協(xié)同規(guī)劃決策問題提供很好的借鑒。
[0077]下面結(jié)合圖5對(duì)上述各功能模塊進(jìn)行詳細(xì)描述。如圖2所示,是本發(fā)明實(shí)施方式提 供的一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法的流程圖。該方法包括以下步驟。
[0078] 步驟S101:獲取當(dāng)前規(guī)劃決策時(shí)刻的環(huán)境觀測信息和DAG協(xié)同規(guī)劃環(huán)境中其它各 衛(wèi)星的部分狀態(tài)信息,并基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星自身的信念狀 態(tài)信息進(jìn)行更新。本實(shí)施例中,關(guān)于所述信念狀態(tài)信息更新模塊101的描述具體可參照步驟 S101的描述。也即,該步驟S101可以由所述信念狀態(tài)信息更新模塊101執(zhí)行。
[0079] 其中,所述部分可見馬爾可夫決策過程模型可以定義為一個(gè)七元組<S,A,T,R,Q, 〇> A表示有限狀態(tài)集合,即決策問題中Agent所有可達(dá)的狀態(tài)集合。A表示Agent所有可能的 動(dòng)作集合。T:SXA-n(S)是狀態(tài)轉(zhuǎn)移函數(shù),表示給定狀態(tài)和動(dòng)作的前提下,到達(dá)下一個(gè)狀 態(tài)的概率分布,其中r(.s\5,/)表示處于狀態(tài)s,執(zhí)行聯(lián)合動(dòng)作a轉(zhuǎn)移到狀態(tài)V的概率。 R:SXA4)1+為報(bào)酬函數(shù),表示在給定目前狀態(tài)和動(dòng)作的情況下所獲得的瞬時(shí)報(bào)酬, /?(.、',刃表示在狀態(tài)s執(zhí)行動(dòng)作a時(shí)所能得到的瞬時(shí)報(bào)酬值。Q為Agent的有限觀測集合。0:A X s-n ( Q )為觀察函數(shù),表示在動(dòng)作3和結(jié)果狀態(tài)Y條件系統(tǒng)可能得到的聯(lián)合觀察3的概 率分布,0(a,s',〇)表示執(zhí)行動(dòng)作a到達(dá)狀態(tài)s'時(shí)系統(tǒng)觀察到3的概率。
[0080] 進(jìn)一步地,所述基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星自身的信念狀 態(tài)信息進(jìn)行更新的步驟包括:當(dāng)信念狀態(tài)信息屬于所述有限狀態(tài)集合,且執(zhí)行所述動(dòng)作集 合中的動(dòng)作遷時(shí),根據(jù)所述狀態(tài)轉(zhuǎn)移函數(shù)中的轉(zhuǎn)移概率分布H.V,心?')對(duì)衛(wèi)星自身的信念狀 態(tài)信息進(jìn)行更新,并根據(jù)所述觀察函數(shù)得到在所述有限觀測集合中觀察3的概率分布〇(a, s7 ,〇)〇
[0081] 可選地,所述基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星自身的信念狀態(tài) 信息進(jìn)行更新的步驟還包括:根據(jù)貝葉斯準(zhǔn)則對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新;
[0082] 定義信念狀態(tài)更新函數(shù)9::BX Q XA,
[0083]其中,B表示信念狀態(tài)空間,Q表示有限觀測集合,A表示動(dòng)作集合,則:
[0085] 以及
[0086] Pr(o | 5) = 方 0:(/具〇)r(s,a:,/)吵)
[0087] 其中,Pr(o|b,a)為歸一化因子,表示在信念狀態(tài)信息b下執(zhí)行動(dòng)作a時(shí)得到的觀測 概率0。
[0088]步驟S102:根據(jù)更新后的信念狀態(tài)信息計(jì)算所述當(dāng)前規(guī)劃決策時(shí)刻最優(yōu)的觀測動(dòng) 作,并根據(jù)所述部分可見馬爾可夫決策過程模型獲得與所述觀測動(dòng)作相對(duì)應(yīng)的瞬時(shí)報(bào)酬 值。
[0089] S103:步驟S103:根據(jù)所述瞬時(shí)報(bào)酬值計(jì)算期望折扣報(bào)酬值,并計(jì)算出使得所述期 望折扣報(bào)酬值最大化的最優(yōu)策略,以及得到所述期望折扣報(bào)酬值的最大值。
[0090] 本實(shí)施例中,關(guān)于所述優(yōu)化決策模塊102的描述具體可參照步驟S102和S103的描 述。也即,該步驟S102和步驟S103可以由所述優(yōu)化決策模塊102執(zhí)行。
[0091] 具體地,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的狀態(tài)空間記為S= {Si},1彡i彡NS,當(dāng)?shù)趇顆 衛(wèi)星的策略方程為R時(shí),所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的策略方程可以表示為如下形式:
[0092] 兀(/)) = |>丨(/)丨)….冗.、(/,、.)]
[0093]所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的信念狀態(tài)更新函數(shù)可表示為:
[0094] <p(b,S,〇) = [<!?,(7>,(pK (/). ,a. ,<?)]
[0095]第i顆衛(wèi)星的信念狀態(tài)更新函數(shù)則可以表示為:
[0097]其中,rJeU,U = A表示第i顆衛(wèi)星獲得的其它衛(wèi)星的部分狀態(tài)信息;
[0098]在最優(yōu)策略#下,每個(gè)信念狀態(tài)信息的折扣報(bào)酬期望值組成最優(yōu)值函數(shù)V'以遞歸 形式表示為:
[0099] V'{h) ~ max|~y]i sb(.s)R(s,d) + () Pr((7 | h,a)V(//)
[0100]其中,所述最優(yōu)策略#為動(dòng)作系列:
[0101] ^ (/-1) = arg maxv vb{s)R(s\a) + Pr^(> I h'ci^V^ K 〇
[0102] S104:進(jìn)入下一規(guī)劃決策時(shí)刻,重復(fù)進(jìn)行步驟S101、S102和S103直至整個(gè)規(guī)劃決策 過程的結(jié)束,并得到在各規(guī)劃決策時(shí)刻的折扣報(bào)酬期望值。
[0103] 其中,每個(gè)衛(wèi)星循環(huán)執(zhí)行步驟S10US102和S103,并根據(jù)預(yù)設(shè)的部分可見馬爾可夫 決策過程模型對(duì)得到的信念狀態(tài)信息進(jìn)行迭代,直至整個(gè)規(guī)劃決策過程的結(jié)束。
[0104] S105:將每個(gè)規(guī)劃決策時(shí)刻得到的折扣報(bào)酬期望值進(jìn)行疊加合并,得到所述衛(wèi)星 協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)。
[0105] 其中,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)是所有NS顆衛(wèi)星的值函數(shù)之和, 即表示為如下形式:
[0106] V(b)^^Vi(k)〇
[0107] 本實(shí)施例中,該步驟S105可以由所述值函數(shù)計(jì)算模塊103執(zhí)行。
[0108] 本發(fā)明實(shí)施例提供的一種基于DEC-P0MDP多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置,根據(jù) 獲取的環(huán)境觀測信息和其它各衛(wèi)星的部分狀態(tài)信息,為了適應(yīng)信念狀態(tài)信息的無后效性要 求,基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新,并 計(jì)算出最優(yōu)的觀測動(dòng)作,以及獲得與所述觀測動(dòng)作相對(duì)應(yīng)的瞬時(shí)報(bào)酬值和期望折扣報(bào)酬 值,從而計(jì)算出使得所述期望折扣報(bào)酬值最大化的最優(yōu)策略。如此,有效提高了衛(wèi)星協(xié)同任 務(wù)規(guī)劃系統(tǒng)進(jìn)行分布式優(yōu)化決策的高效性和準(zhǔn)確性。
[0109]在本申請(qǐng)所提供的實(shí)施例中,應(yīng)該理解到,所揭露的裝置和方法,可以通過其它的 方式實(shí)現(xiàn)。以上所描述的裝置實(shí)施例僅僅是示意性的,例如,附圖中的流程圖和框圖顯示了 根據(jù)本發(fā)明的多個(gè)實(shí)施例的裝置、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和 操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段或代碼的一部分, 所述模塊、程序段或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指 令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所 標(biāo)注的順序發(fā)生。例如,兩個(gè)連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時(shí)也可以按相 反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個(gè)方框、以 及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或動(dòng)作的專用的基于硬件的 系統(tǒng)來實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來實(shí)現(xiàn)。
[0110]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯 示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè) 網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目 的。
[0111] 另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以 是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。
[0112] 以上所述,僅為本發(fā)明的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何 熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵 蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)所述以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種基于DEC-POMDP的多衛(wèi)星協(xié)同優(yōu)化決策方法,應(yīng)用于具有動(dòng)態(tài)解耦特性的衛(wèi)星 協(xié)同任務(wù)規(guī)劃系統(tǒng)包括的衛(wèi)星,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括多個(gè)相互獨(dú)立的衛(wèi)星,其 特征在于,所述多衛(wèi)星協(xié)同優(yōu)化決策方法包括: 獲取當(dāng)前規(guī)劃決策時(shí)刻的環(huán)境觀測信息和DAG協(xié)同規(guī)劃環(huán)境中其它各衛(wèi)星的部分狀態(tài) 信息,并基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更 新,其中,所述部分可見馬爾可夫決策過程模型包括有限狀態(tài)集合、動(dòng)作集合、狀態(tài)轉(zhuǎn)移函 數(shù)、報(bào)酬函數(shù)、有限觀測集合和觀察函數(shù); 根據(jù)更新后的信念狀態(tài)信息計(jì)算所述當(dāng)前規(guī)劃決策時(shí)刻最優(yōu)的觀測動(dòng)作,并根據(jù)所述 部分可見馬爾可夫決策過程模型獲得與所述觀測動(dòng)作相對(duì)應(yīng)的瞬時(shí)報(bào)酬值; 根據(jù)所述瞬時(shí)報(bào)酬值計(jì)算期望折扣報(bào)酬值,并計(jì)算出使得所述期望折扣報(bào)酬值最大化 的最優(yōu)策略,以及得到所述期望折扣報(bào)酬值的最大值; 進(jìn)入下一規(guī)劃決策時(shí)刻,重復(fù)進(jìn)行以上步驟直至整個(gè)規(guī)劃決策過程的結(jié)束,并得到在 各規(guī)劃決策時(shí)刻的折扣報(bào)酬期望值; 將每個(gè)規(guī)劃決策時(shí)刻得到的折扣報(bào)酬期望值進(jìn)行疊加合并,得到所述衛(wèi)星協(xié)同任務(wù)規(guī) 劃系統(tǒng)的整體值函數(shù)。2. 根據(jù)權(quán)利要求1所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法,其特征在于,所 述基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新的步 驟包括: 當(dāng)信念狀態(tài)信息屬于所述有限狀態(tài)集合,且執(zhí)行所述動(dòng)作集合中的動(dòng)作5時(shí),根據(jù)所述 狀態(tài)轉(zhuǎn)移函數(shù)中的轉(zhuǎn)移概率分布ΠΧδ,/)對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新,并根據(jù)所 述觀察函數(shù)得到在所述有限觀測集合中觀察5的概率分布0(a,Y,〇)。3. 根據(jù)權(quán)利要求2所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法,其特征在于,所 述基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新的步 驟還包括:根據(jù)貝葉斯準(zhǔn)則對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新; 定義信念狀態(tài)更新函數(shù)tPsBX Ω XA, 其中,B表示信念狀態(tài)空間,Ω表示有限觀測集合,A表示動(dòng)作集合,則:其中,PHo I b,a)為歸一化因子,表示在信念狀態(tài)信息b下執(zhí)行動(dòng)作a時(shí)得到的觀測概率 Oo4. 根據(jù)權(quán)利要求3所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法,其特征在于, 所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的狀態(tài)空間記為S= {Si},1彡i彡NS,當(dāng)?shù)趇顆衛(wèi)星的策略 方程為町時(shí),所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的策略方程可以表示為如下形式: ^t(Vj) = Oi (V)1),…;Tv (/'、)] 所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的信念狀態(tài)更新函數(shù)可表示為:第i顆衛(wèi)星的信念狀態(tài)更新函數(shù)則可以表示為:其中,? G Ω,β =? U ^表示第i顆衛(wèi)星獲得的其它衛(wèi)星的部分狀態(tài)信息; 在最優(yōu)策略V下,每個(gè)信念狀態(tài)信息的折扣報(bào)酬期望值組成最優(yōu)值函數(shù)V'以遞歸形式 表示為:其中,所述最優(yōu)策略#為動(dòng)作系列:5. 根據(jù)權(quán)利要求4所述的基于DEC-POMDP的多衛(wèi)星協(xié)同優(yōu)化決策方法,其特征在于,所 述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)是所有NS顆衛(wèi)星的值函數(shù)之和,即表示為如下形 式:6. -種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置,應(yīng)用于具有動(dòng)態(tài)解耦特性的衛(wèi)星 協(xié)同任務(wù)規(guī)劃系統(tǒng)包括的衛(wèi)星,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括多個(gè)相互獨(dú)立的衛(wèi)星,其 特征在于,所述多衛(wèi)星協(xié)同優(yōu)化決策裝置包括: 信念狀態(tài)信息更新模塊,用于獲取當(dāng)前規(guī)劃決策時(shí)刻的環(huán)境觀測信息和DAG協(xié)同規(guī)劃 環(huán)境中其它各衛(wèi)星的部分狀態(tài)信息,并基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星 自身的信念狀態(tài)信息進(jìn)行更新,其中,所述部分可見馬爾可夫決策過程模型包括有限狀態(tài) 集合、動(dòng)作集合、狀態(tài)轉(zhuǎn)移函數(shù)、報(bào)酬函數(shù)、有限觀測集合和觀察函數(shù); 優(yōu)化決策模塊,用于根據(jù)更新后的信念狀態(tài)信息計(jì)算所述當(dāng)前規(guī)劃決策時(shí)刻最優(yōu)的觀 測動(dòng)作,并根據(jù)所述部分可見馬爾可夫決策過程模型獲得與所述觀測動(dòng)作相對(duì)應(yīng)的瞬時(shí)報(bào) 酬值;以及根據(jù)所述瞬時(shí)報(bào)酬值計(jì)算期望折扣報(bào)酬值,并計(jì)算出使得所述期望折扣報(bào)酬值 最大化的最優(yōu)策略,以及得到所述期望折扣報(bào)酬值的最大值; 值函數(shù)計(jì)算模塊,用于將每個(gè)規(guī)劃決策時(shí)刻得到的折扣報(bào)酬期望值進(jìn)行疊加合并,得 到所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)。7. 根據(jù)權(quán)利要求6所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置,其特征在于, 所述信念狀態(tài)信息更新模塊還用于在信念狀態(tài)信息屬于所述有限狀態(tài)集合,且執(zhí)行所 述動(dòng)作集合中的動(dòng)作5的情況下,根據(jù)所述狀態(tài)轉(zhuǎn)移函數(shù)中的轉(zhuǎn)移概率分布:對(duì)衛(wèi) 星自身的信念狀態(tài)信息進(jìn)行更新,并根據(jù)所述觀察函數(shù)得到在所述有限觀測集合中觀察δ 的概率分布(Κει,γ,〇)。8. 根據(jù)權(quán)利要求7所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置,其特征在于, 所述信念狀態(tài)信息更新模塊還用于根據(jù)貝葉斯準(zhǔn)則對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行 更新; 定義信念狀態(tài)更新函數(shù)Φ:ΒΧ Ω ΧΑ, 其中,B表示信念狀態(tài)空間,Ω表示有限觀測集合,A表示動(dòng)作集合,則:其中,Pr(〇 I b,a)為歸一化因子,表示在信念狀態(tài)信息b下執(zhí)行動(dòng)作a時(shí)得到的觀測概率 Oo9. 根據(jù)權(quán)利要求8所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置,其特征在于, 所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的狀態(tài)空間記為S= {Si},1彡i彡NS,當(dāng)?shù)趇顆衛(wèi)星的策略 方程為町時(shí),所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的策略方程可以表示為如下形式:所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的信念狀態(tài)更新函數(shù)可表示為:第i顆衛(wèi)星的信念狀態(tài)更新函數(shù)則可以表示為:其中,rie Ω,U = AUiTii,?\表示第i顆衛(wèi)星獲得的其它衛(wèi)星的部分狀態(tài)信息; 在最優(yōu)策略V下,每個(gè)信念狀態(tài)信息的折扣報(bào)酬期望值組成最優(yōu)值函數(shù)V'以遞歸形式 表示為:其中,所述最優(yōu)策略#為動(dòng)作系列:10. 根據(jù)權(quán)利要求9所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置,其特征在于,所 述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)是所有NS顆衛(wèi)星的值函數(shù)之和,即表示為如下形 式:
【文檔編號(hào)】G06Q10/04GK105930944SQ201610546764
【公開日】2016年9月7日
【申請(qǐng)日】2016年7月12日
【發(fā)明人】王沖, 張海, 董志強(qiáng), 劉銘, 董相均, 關(guān)禮安, 邵欣
【申請(qǐng)人】中國人民解放軍空軍裝備研究院雷達(dá)與電子對(duì)抗研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1