一種基于dec-pomdp的多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置的制造方法

文檔序號(hào)：10570490閱讀：729來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于dec-pomdp的多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置的制造方法
【專利摘要】本發(fā)明實(shí)施例提供了一種基于DEC?POMDP多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置，屬于對(duì)地觀測衛(wèi)星地面運(yùn)控技術(shù)領(lǐng)域。該方法包括：獲取當(dāng)前規(guī)劃決策時(shí)刻的環(huán)境觀測信息和DAG協(xié)同規(guī)劃環(huán)境中其它各衛(wèi)星的部分狀態(tài)信息，并基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新；根據(jù)更新后的信念狀態(tài)信息計(jì)算所述當(dāng)前規(guī)劃決策時(shí)刻最優(yōu)的觀測動(dòng)作，并獲得瞬時(shí)報(bào)酬值；根據(jù)所述瞬時(shí)報(bào)酬值計(jì)算期望折扣報(bào)酬值，并計(jì)算出使得所述期望折扣報(bào)酬值最大化的最優(yōu)策略，以及得到所述期望折扣報(bào)酬值的最大值；將每個(gè)規(guī)劃決策時(shí)刻得到的折扣報(bào)酬期望值進(jìn)行疊加合并，得到所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)。本發(fā)明能夠?qū)崿F(xiàn)衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的分布式優(yōu)化決策。
【專利說明】
_種基于DEG-POMDP的多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及對(duì)地觀測衛(wèi)星地面運(yùn)控技術(shù)領(lǐng)域，具體而言，涉及一種基于DEC-P0MDP 的多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置。
【背景技術(shù)】
[0002] 部分可見馬爾可夫決策過程模型(P0MDP)是一種用于制定序列決策的經(jīng)典模型。在P0MDP中，智能體做出動(dòng)作所產(chǎn)生的效果是不確定的，對(duì)環(huán)境狀態(tài)信息的觀測也是不完整的。因此，P0MDP對(duì)于表達(dá)智能體在非確定環(huán)境下的序列決策問題而言，是一種非常有效的模型。
[0003] 借鑒P0MDP的思想，可以將單顆衛(wèi)星在時(shí)序有向無圈圖(DAG)中的任務(wù)搜索問題轉(zhuǎn) 化為決策問題。對(duì)于由執(zhí)行協(xié)同規(guī)劃任務(wù)的自治衛(wèi)星組成的復(fù)雜非集中式系統(tǒng) (Decentralized System)，該非集中式系統(tǒng)中的每顆衛(wèi)星都是一個(gè)智能體，并且在非集中式系統(tǒng)的動(dòng)態(tài)特性上并沒有太多關(guān)聯(lián)，只是通過共同受理的觀測任務(wù)發(fā)生作用，并且通過衛(wèi)星之間的星際鏈路交換信息和進(jìn)行協(xié)調(diào)。該非集中式系統(tǒng)是具有動(dòng)態(tài)解耦特性的系統(tǒng)。在該具有動(dòng)態(tài)解耦特性的系統(tǒng)中，衛(wèi)星的規(guī)劃決策主要通過改變環(huán)境信息，并間接影響到其它衛(wèi)星的任務(wù)規(guī)劃決策，由于衛(wèi)星觀測環(huán)境信息的不一致導(dǎo)致了多個(gè)衛(wèi)星協(xié)同決策的困難增加。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明提供了一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置，旨在針對(duì) 多個(gè)衛(wèi)星的協(xié)同環(huán)境觀測信息不一致性，有效提高了衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)進(jìn)行分布式優(yōu) 化決策的高效性和準(zhǔn)確性。
[0005] 第一方面，本發(fā)明實(shí)施例提供的一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法，應(yīng)用于具有動(dòng)態(tài)解耦特性的衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括的衛(wèi)星，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括多個(gè)相互獨(dú)立的衛(wèi)星，所述多衛(wèi)星協(xié)同優(yōu)化決策方法包括：
[0006] 獲取當(dāng)前規(guī)劃決策時(shí)刻的環(huán)境觀測信息和DAG協(xié)同規(guī)劃環(huán)境中其它各衛(wèi)星的部分狀態(tài)信息，并基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新，其中，所述部分可見馬爾可夫決策過程模型包括有限狀態(tài)集合、動(dòng)作集合、狀態(tài)轉(zhuǎn)移函數(shù)、報(bào)酬函數(shù)、有限觀測集合和觀察函數(shù)；
[0007] 根據(jù)更新后的信念狀態(tài)信息計(jì)算所述當(dāng)前規(guī)劃決策時(shí)刻最優(yōu)的觀測動(dòng)作，并根據(jù) 所述部分可見馬爾可夫決策過程模型獲得與所述觀測動(dòng)作相對(duì)應(yīng)的瞬時(shí)報(bào)酬值；
[0008] 根據(jù)所述瞬時(shí)報(bào)酬值計(jì)算期望折扣報(bào)酬值，并計(jì)算出使得所述期望折扣報(bào)酬值最大化的最優(yōu)策略，以及得到所述期望折扣報(bào)酬值的最大值；
[0009] 進(jìn)入下一規(guī)劃決策時(shí)刻，重復(fù)進(jìn)行以上步驟直至整個(gè)規(guī)劃決策過程的結(jié)束，并得到在各規(guī)劃決策時(shí)刻的折扣報(bào)酬期望值；
[0010] 將每個(gè)規(guī)劃決策時(shí)刻得到的折扣報(bào)酬期望值進(jìn)行疊加合并，得到所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)。
[0011] 優(yōu)選地，所述基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星自身的信念狀態(tài) 信息進(jìn)行更新的步驟包括：
[0012] 當(dāng)信念狀態(tài)信息屬于所述有限狀態(tài)集合，且執(zhí)行所述動(dòng)作集合中的動(dòng)作寸，根據(jù) 所述狀態(tài)轉(zhuǎn)移函數(shù)中的轉(zhuǎn)移概率分布對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新，并根據(jù)所述觀察函數(shù)得到在所述有限觀測集合中觀察3的概率分布(Ka，"，〇)。
[0013] 優(yōu)選地，所述基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星自身的信念狀態(tài) 信息進(jìn)行更新的步驟還包括:根據(jù)貝葉斯準(zhǔn)則對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新；
[0014] 定義信念狀態(tài)更新函數(shù)<P:BX Q XA，
[0015] 其中，B表示信念狀態(tài)空間，Q表示有限觀測集合，A表示動(dòng)作集合，則：
[0017]以及
[0018] Pf(o\h,a) =
[0019] 其中，Pr(o | b，a)為歸一化因子，表示在信念狀態(tài)信息b下執(zhí)行動(dòng)作a時(shí)得到的觀測概率〇。
[0020] 優(yōu)選地，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的狀態(tài)空間記為S= {Si}，1 < iSNS，當(dāng)?shù)趇顆衛(wèi)星的策略方程為R時(shí)，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的策略方程可以表示為如下形式：
[0021] /r(/j) = [7Tl(/>l),.../Tv (/>,)]
[0022]所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的信念狀態(tài)更新函數(shù)可表示為：
[0023] (p(K a, 〇) = (/>,, d)^"(pN^Ns：,
[0024]第i顆衛(wèi)星的信念狀態(tài)更新函數(shù)則可以表示為：
[0026]其中，5:e Q Q A表示第i顆衛(wèi)星獲得的其它衛(wèi)星的部分狀態(tài)信息；，：，
[0027]在最優(yōu)策略#下，每個(gè)信念狀態(tài)信息的折扣報(bào)酬期望值組成最優(yōu)值函數(shù)V%以遞歸形式表示為：
[0028] KE (b) - max ["^ ^ b(s)R(s,a) + Pr(? ! bJt)V(b")
[0029] 其中，所述最優(yōu)策略#為動(dòng)作系列：
[0030] ^ (/?) = argmax[^s sh(s)R{s..a) +y^- n Pr(0 | 0 0
[0031] 優(yōu)選地，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)是所有NS顆衛(wèi)星的值函數(shù)之和，即表示為如下形式：
[0032] 叫))=1::，故')
[0033]第二方面，本發(fā)明實(shí)施例提供的一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置，應(yīng)用于具有動(dòng)態(tài)解耦特性的衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括的衛(wèi)星，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括多個(gè)相互獨(dú)立的衛(wèi)星，其特征在于，所述多衛(wèi)星協(xié)同優(yōu)化決策裝置包括：
[0034]信念狀態(tài)信息更新模塊，用于獲取當(dāng)前規(guī)劃決策時(shí)刻的環(huán)境觀測信息和DAG協(xié)同規(guī)劃環(huán)境中其它各衛(wèi)星的部分狀態(tài)信息，并基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì) 衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新，其中，所述部分可見馬爾可夫決策過程模型包括有限狀態(tài)集合、動(dòng)作集合、狀態(tài)轉(zhuǎn)移函數(shù)、報(bào)酬函數(shù)、有限觀測集合和觀察函數(shù)；
[0035]優(yōu)化決策模塊，用于根據(jù)更新后的信念狀態(tài)信息計(jì)算所述當(dāng)前規(guī)劃決策時(shí)刻最優(yōu) 的觀測動(dòng)作，并根據(jù)所述部分可見馬爾可夫決策過程模型獲得與所述觀測動(dòng)作相對(duì)應(yīng)的瞬時(shí)報(bào)酬值；以及根據(jù)所述瞬時(shí)報(bào)酬值計(jì)算期望折扣報(bào)酬值，并計(jì)算出使得所述期望折扣報(bào) 酬值最大化的最優(yōu)策略，以及得到所述期望折扣報(bào)酬值的最大值；
[0036] 值函數(shù)計(jì)算模塊，用于將每個(gè)規(guī)劃決策時(shí)刻得到的折扣報(bào)酬期望值進(jìn)行疊加合并，得到所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)。
[0037] 優(yōu)選地，所述信念狀態(tài)信息更新模塊還用于在信念狀態(tài)信息屬于所述有限狀態(tài)集合，且執(zhí)行所述動(dòng)作集合中的動(dòng)作5的情況下，根據(jù)所述狀態(tài)轉(zhuǎn)移函數(shù)中的轉(zhuǎn)移概率分布對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新，并根據(jù)所述觀察函數(shù)得到在所述有限觀測集合中觀察的概率分布(Ka^7，〇)。
[0038] 優(yōu)選地，所述信念狀態(tài)信息更新模塊還用于根據(jù)貝葉斯準(zhǔn)則對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新；
[0039] 定義信念狀態(tài)更新函數(shù)9::BX Q XA，
[0040] 其中，B表示信念狀態(tài)空間，Q表示有限觀測集合，A表示動(dòng)作集合，則：
[0042] 以及
[0043] Pr(〇 | /?,?) = X >= s T^s-- a-s，Ws)
[0044] 其中，Pr(o | b，a)為歸一化因子，表示在信念狀態(tài)信息b下執(zhí)行動(dòng)作a時(shí)得到的觀測概率0。
[0045] 優(yōu)選地，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的狀態(tài)空間記為S= {Si}，1 < iSNS，當(dāng)?shù)趇顆衛(wèi)星的策略方程為R時(shí)，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的策略方程可以表示為如下形式：
[0046] 兀(/:>) = |>2丨（/:>丨），…/T、. (/，、、）]
[0047]所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的信念狀態(tài)更新函數(shù)可表示為：
[0048]
[0049] 第i顆衛(wèi)星的信念狀態(tài)更新函數(shù)則可以表示為：
[0051]其中，rJeD，泣=珥兌表示第i顆衛(wèi)星獲得的其它衛(wèi)星的部分狀態(tài)信息；
[0052]在最優(yōu)策略#下，每個(gè)信念狀態(tài)信息的折扣報(bào)酬期望值組成最優(yōu)值函數(shù)V'以遞歸形式表示為：
[0053] F' (/?) ^ max | V ^b(s)R(.s,a) + y^.. (i Pr(? | b,a)V(h，)
[0054]其中，所述最優(yōu)策略#為動(dòng)作系列：
[0055] (6) - argmax fy； ^ vb(s)M(s,a}+ r'E^ I a)V(!A a^A L 」〇
[0056]優(yōu)選地，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)是所有NS顆衛(wèi)星的值函數(shù)之和，即表示為如下形式：
[0057]明= 哪，
[0058]本發(fā)明實(shí)施例提供的一種基于DEC-P0MDP多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置，根據(jù) 獲取的環(huán)境觀測信息和其它各衛(wèi)星的部分狀態(tài)信息，為了適應(yīng)信念狀態(tài)信息的無后效性要求，基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新，并計(jì)算出最優(yōu)的觀測動(dòng)作，以及獲得與所述觀測動(dòng)作相對(duì)應(yīng)的瞬時(shí)報(bào)酬值和期望折扣報(bào)酬值，從而計(jì)算出使得所述期望折扣報(bào)酬值最大化的最優(yōu)策略。如此，有效提高了衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)進(jìn)行分布式優(yōu)化決策的高效性和準(zhǔn)確性。
【附圖說明】
[0059] 為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案，下面將對(duì)實(shí)施例中所需要使用的附圖作簡單地介紹，應(yīng)當(dāng)理解，以下附圖僅示出了本發(fā)明的某些實(shí)施例，因此不應(yīng)該看作是對(duì) 范圍的限定，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。
[0060] 圖1是本發(fā)明實(shí)施方式提供的一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置的功能模塊框圖。
[0061] 圖2是本發(fā)明實(shí)施方式提供的一種衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的組成框圖。
[0062]圖3是本發(fā)明實(shí)施方式提供的一種衛(wèi)星優(yōu)化決策系統(tǒng)的組成框圖。
[0063]圖4是本發(fā)明實(shí)施方式提供的一種衛(wèi)星進(jìn)行優(yōu)化決策的過程示意圖。
[0064]圖5是本發(fā)明實(shí)施方式提供的一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法的流程圖。
[0065]圖中標(biāo)記分別為：

【具體實(shí)施方式】
[0067]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。
[0068] 應(yīng)注意到:相似的標(biāo)號(hào)和字母在下面的附圖中表示類似項(xiàng)，因此，一旦某一項(xiàng)在一個(gè)附圖中被定義，則在隨后的附圖中不需要對(duì)其進(jìn)行進(jìn)一步定義和解釋。同時(shí)，在本發(fā)明的描述中，術(shù)語"第一"、"第二"等僅用于區(qū)分描述，而不能理解為指示或暗示相對(duì)重要性。
[0069] 如圖1所示，是本發(fā)明實(shí)施例提供的一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置100的結(jié)構(gòu)框圖。所述多衛(wèi)星協(xié)同優(yōu)化決策裝置100可以應(yīng)用于具有動(dòng)態(tài)解耦特性的衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括的衛(wèi)星?？蛇x地，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括多個(gè)衛(wèi)星，所述多個(gè)衛(wèi)星可以相互獨(dú)立地執(zhí)行協(xié)同規(guī)劃任務(wù)。所述多衛(wèi)星協(xié)同優(yōu)化決策裝置100可以包括信念狀態(tài)信息更新模塊101、優(yōu)化決策模塊102和值函數(shù)計(jì)算模塊103。
[0070] 其中，所述DEC是非集中式系統(tǒng)的英文簡稱，所述P0MDP是部分可見馬爾可夫決策過程模型的英文簡稱。每個(gè)衛(wèi)星都是一個(gè)智能體，并且在所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的動(dòng) 態(tài)特性上沒有過多的關(guān)聯(lián)，只是在執(zhí)行共同受理的觀測任務(wù)時(shí)發(fā)生相互作用。所述多個(gè)衛(wèi) 星之間存在通信連接，所述多個(gè)衛(wèi)星之間可以相互交換信息和進(jìn)行協(xié)調(diào)。因此所述衛(wèi)星協(xié) 同任務(wù)規(guī)劃系統(tǒng)具有動(dòng)態(tài)解耦特性。在所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)中，每個(gè)衛(wèi)星的規(guī)劃決策通過改變環(huán)境信息間接影響到其它衛(wèi)星的任務(wù)規(guī)劃決策。針對(duì)具有動(dòng)態(tài)解耦特性的衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)，可以將整個(gè)系統(tǒng)劃分成多個(gè)有限相互獨(dú)立的衛(wèi)星優(yōu)化決策子系統(tǒng)。并分別對(duì)每個(gè)衛(wèi)星優(yōu)化決策子系統(tǒng)進(jìn)行優(yōu)化求解，進(jìn)而建立多衛(wèi)星協(xié)同優(yōu)化決策裝置100。
[0071] 進(jìn)一步地，如圖2所示，在多衛(wèi)星協(xié)同優(yōu)化決策裝置100的結(jié)構(gòu)下，衛(wèi)星協(xié)同任務(wù)規(guī) 劃系統(tǒng)被劃分成多個(gè)相互獨(dú)立的決策子系統(tǒng)。所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的動(dòng)作由所有子系統(tǒng)的動(dòng)作所組成。每個(gè)衛(wèi)星包括一個(gè)本地P0MDP決策模塊，在衛(wèi)星之間可以通過延遲通信網(wǎng)絡(luò)進(jìn)行信息交換。所述信息可以包括各衛(wèi)星的部分狀態(tài)信息，所述部分狀態(tài)信息包括本地優(yōu)化決策得到的階段性結(jié)果，進(jìn)而可以實(shí)現(xiàn)多個(gè)衛(wèi)星之間的分布式協(xié)調(diào)。
[0072]請(qǐng)一并參閱圖3,所述信念狀態(tài)信息更新模塊101根據(jù)衛(wèi)星的本地觀測信息和與其它各衛(wèi)星的交互信息更新信念狀態(tài)信息信念狀態(tài)信息#是衛(wèi)星狀態(tài)的概率分布。
[0073]所述優(yōu)化決策模塊102基于信念狀態(tài)信息#計(jì)算tk時(shí)刻最優(yōu)的觀測動(dòng)作并得到下一時(shí)刻sati的信念狀態(tài)信息由于延遲通信網(wǎng)絡(luò)的存在，在協(xié)同優(yōu)化決策過程中的信息交互存在通信延遲，所述延遲通信網(wǎng)絡(luò)描述了各衛(wèi)星之間的信息交互能力，決定了優(yōu)化決策過程中衛(wèi)星獲取信息的內(nèi)容與通信延遲的程度?？蛇x地，所述優(yōu)化決策系統(tǒng)通過所述延遲通信網(wǎng)絡(luò)在DAG(Directed Acyclic Graph，時(shí)序有向無圈圖）協(xié)同規(guī)劃環(huán)境中獲取信息。
[0074]具體地，所述優(yōu)化決策的過程如圖4所示。假設(shè)在當(dāng)前規(guī)劃時(shí)刻tk，衛(wèi)星sati根據(jù) tk-1時(shí)刻的決策結(jié)果選擇觀測節(jié)點(diǎn)vF，響應(yīng)的環(huán)境狀態(tài)信息更新為<，sati基于環(huán)境狀態(tài) 信息的觀測of更新信念狀態(tài)信息紀(jì)。之后，sati根據(jù)信念狀態(tài)信息并以tk時(shí)刻的瞬時(shí) 報(bào)酬值與tk之后折扣報(bào)酬期望值做出最優(yōu)的規(guī)劃決策得到環(huán)境狀態(tài)信息#+1，并計(jì)入下一個(gè) 規(guī)劃決策時(shí)刻tk+1，重復(fù)上述過程直至到達(dá)虛擬觀測節(jié)點(diǎn)vE的整個(gè)決策過程的結(jié)束。
[0075]進(jìn)一步地，所述值函數(shù)計(jì)算模塊103將每個(gè)規(guī)劃決策時(shí)刻得到的折扣報(bào)酬期望值進(jìn)行疊加合并，得到所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)。
[0076] 可以理解的是，優(yōu)化決策是P0MDP的核心，環(huán)境信息無法全部獲取的背景下，通過增加信念狀態(tài)估計(jì)，從而保持了馬爾可夫性，也即無后效性。這種無后效性表現(xiàn)在在規(guī)劃過程中某階段的狀態(tài)一旦確定，則此后過程的演變不再受此前各狀態(tài)的影響。也就是說，"未來與過去無關(guān)"，當(dāng)前的狀態(tài)是此前歷史的一個(gè)完整總結(jié)，此前的歷史只能通過當(dāng)前的狀態(tài) 去影響過程未來的演變，在每一時(shí)刻都只根據(jù)當(dāng)前的狀態(tài)進(jìn)行優(yōu)化決策。這種"未來與過去無關(guān)"的決策策略與衛(wèi)星在時(shí)序有向無圈圖上的任務(wù)搜索過程十分吻合。衛(wèi)星在時(shí)序有向無圈圖中每一個(gè)時(shí)刻的決策僅與當(dāng)前時(shí)刻的狀態(tài)有關(guān)而與之前的狀態(tài)均無關(guān)。這樣可以忽略歷史的影響，一切規(guī)劃都只要從當(dāng)前狀態(tài)出發(fā)即可。它所蘊(yùn)含的思想是將智能體有限的規(guī)劃能力引導(dǎo)至更有價(jià)值的方向。因此，POMDP的優(yōu)化決策求解的基本思想可以為解決衛(wèi)星協(xié)同規(guī)劃決策問題提供很好的借鑒。
[0077]下面結(jié)合圖5對(duì)上述各功能模塊進(jìn)行詳細(xì)描述。如圖2所示，是本發(fā)明實(shí)施方式提供的一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法的流程圖。該方法包括以下步驟。
[0078] 步驟S101:獲取當(dāng)前規(guī)劃決策時(shí)刻的環(huán)境觀測信息和DAG協(xié)同規(guī)劃環(huán)境中其它各衛(wèi)星的部分狀態(tài)信息，并基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新。本實(shí)施例中，關(guān)于所述信念狀態(tài)信息更新模塊101的描述具體可參照步驟 S101的描述。也即，該步驟S101可以由所述信念狀態(tài)信息更新模塊101執(zhí)行。
[0079] 其中，所述部分可見馬爾可夫決策過程模型可以定義為一個(gè)七元組<S，A，T，R，Q，〇> A表示有限狀態(tài)集合，即決策問題中Agent所有可達(dá)的狀態(tài)集合。A表示Agent所有可能的動(dòng)作集合。T:SXA-n(S)是狀態(tài)轉(zhuǎn)移函數(shù)，表示給定狀態(tài)和動(dòng)作的前提下，到達(dá)下一個(gè)狀態(tài)的概率分布，其中r(.s\5,/)表示處于狀態(tài)s，執(zhí)行聯(lián)合動(dòng)作a轉(zhuǎn)移到狀態(tài)V的概率。 R:SXA4)1+為報(bào)酬函數(shù)，表示在給定目前狀態(tài)和動(dòng)作的情況下所獲得的瞬時(shí)報(bào)酬， /?(.、'，刃表示在狀態(tài)s執(zhí)行動(dòng)作a時(shí)所能得到的瞬時(shí)報(bào)酬值。Q為Agent的有限觀測集合。0:A X s-n ( Q )為觀察函數(shù)，表示在動(dòng)作3和結(jié)果狀態(tài)Y條件系統(tǒng)可能得到的聯(lián)合觀察3的概率分布，0(a，s'，〇)表示執(zhí)行動(dòng)作a到達(dá)狀態(tài)s'時(shí)系統(tǒng)觀察到3的概率。
[0080] 進(jìn)一步地，所述基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新的步驟包括：當(dāng)信念狀態(tài)信息屬于所述有限狀態(tài)集合，且執(zhí)行所述動(dòng)作集合中的動(dòng)作遷時(shí)，根據(jù)所述狀態(tài)轉(zhuǎn)移函數(shù)中的轉(zhuǎn)移概率分布H.V,心?')對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新，并根據(jù)所述觀察函數(shù)得到在所述有限觀測集合中觀察3的概率分布〇(a， s7 ,〇)〇
[0081] 可選地，所述基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星自身的信念狀態(tài) 信息進(jìn)行更新的步驟還包括:根據(jù)貝葉斯準(zhǔn)則對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新；
[0082] 定義信念狀態(tài)更新函數(shù)9::BX Q XA，
[0083]其中，B表示信念狀態(tài)空間，Q表示有限觀測集合，A表示動(dòng)作集合，則：
[0085] 以及
[0086] Pr(o | 5) = 方 0:(/具〇)r(s，a:，/)吵)
[0087] 其中，Pr(o|b，a)為歸一化因子，表示在信念狀態(tài)信息b下執(zhí)行動(dòng)作a時(shí)得到的觀測概率0。
[0088]步驟S102:根據(jù)更新后的信念狀態(tài)信息計(jì)算所述當(dāng)前規(guī)劃決策時(shí)刻最優(yōu)的觀測動(dòng) 作，并根據(jù)所述部分可見馬爾可夫決策過程模型獲得與所述觀測動(dòng)作相對(duì)應(yīng)的瞬時(shí)報(bào)酬值。
[0089] S103:步驟S103:根據(jù)所述瞬時(shí)報(bào)酬值計(jì)算期望折扣報(bào)酬值，并計(jì)算出使得所述期望折扣報(bào)酬值最大化的最優(yōu)策略，以及得到所述期望折扣報(bào)酬值的最大值。
[0090] 本實(shí)施例中，關(guān)于所述優(yōu)化決策模塊102的描述具體可參照步驟S102和S103的描述。也即，該步驟S102和步驟S103可以由所述優(yōu)化決策模塊102執(zhí)行。
[0091] 具體地，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的狀態(tài)空間記為S= {Si}，1彡i彡NS，當(dāng)?shù)趇顆衛(wèi)星的策略方程為R時(shí)，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的策略方程可以表示為如下形式：
[0092] 兀(/)) = |>丨(/)丨)….冗.、(/，、.)]
[0093]所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的信念狀態(tài)更新函數(shù)可表示為：
[0094] <p(b,S,〇) = [<!?,(7>,(pK (/). ,a. ,<?)]
[0095]第i顆衛(wèi)星的信念狀態(tài)更新函數(shù)則可以表示為：
[0097]其中，rJeU，U = A表示第i顆衛(wèi)星獲得的其它衛(wèi)星的部分狀態(tài)信息；
[0098]在最優(yōu)策略#下，每個(gè)信念狀態(tài)信息的折扣報(bào)酬期望值組成最優(yōu)值函數(shù)V'以遞歸形式表示為：
[0099] V'{h) ~ max|~y]i sb(.s)R(s,d) + () Pr((7 | h,a)V(//)
[0100]其中，所述最優(yōu)策略#為動(dòng)作系列：
[0101] ^ (/-1) = arg maxv vb{s)R(s\a) + Pr^(> I h'ci^V^ K 〇
[0102] S104:進(jìn)入下一規(guī)劃決策時(shí)刻，重復(fù)進(jìn)行步驟S101、S102和S103直至整個(gè)規(guī)劃決策過程的結(jié)束，并得到在各規(guī)劃決策時(shí)刻的折扣報(bào)酬期望值。
[0103] 其中，每個(gè)衛(wèi)星循環(huán)執(zhí)行步驟S10US102和S103,并根據(jù)預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)得到的信念狀態(tài)信息進(jìn)行迭代，直至整個(gè)規(guī)劃決策過程的結(jié)束。
[0104] S105:將每個(gè)規(guī)劃決策時(shí)刻得到的折扣報(bào)酬期望值進(jìn)行疊加合并，得到所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)。
[0105] 其中，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)是所有NS顆衛(wèi)星的值函數(shù)之和，即表示為如下形式：
[0106] V(b)^^Vi(k)〇
[0107] 本實(shí)施例中，該步驟S105可以由所述值函數(shù)計(jì)算模塊103執(zhí)行。
[0108] 本發(fā)明實(shí)施例提供的一種基于DEC-P0MDP多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置，根據(jù) 獲取的環(huán)境觀測信息和其它各衛(wèi)星的部分狀態(tài)信息，為了適應(yīng)信念狀態(tài)信息的無后效性要求，基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新，并計(jì)算出最優(yōu)的觀測動(dòng)作，以及獲得與所述觀測動(dòng)作相對(duì)應(yīng)的瞬時(shí)報(bào)酬值和期望折扣報(bào)酬值，從而計(jì)算出使得所述期望折扣報(bào)酬值最大化的最優(yōu)策略。如此，有效提高了衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)進(jìn)行分布式優(yōu)化決策的高效性和準(zhǔn)確性。
[0109]在本申請(qǐng)所提供的實(shí)施例中，應(yīng)該理解到，所揭露的裝置和方法，可以通過其它的方式實(shí)現(xiàn)。以上所描述的裝置實(shí)施例僅僅是示意性的，例如，附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個(gè)實(shí)施例的裝置、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上，流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段或代碼的一部分，所述模塊、程序段或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意，在有些作為替換的實(shí)現(xiàn)中，方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如，兩個(gè)連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行，它們有時(shí)也可以按相反的順序執(zhí)行，這依所涉及的功能而定。也要注意的是，框圖和/或流程圖中的每個(gè)方框、以及框圖和/或流程圖中的方框的組合，可以用執(zhí)行規(guī)定的功能或動(dòng)作的專用的基于硬件的系統(tǒng)來實(shí)現(xiàn)，或者可以用專用硬件與計(jì)算機(jī)指令的組合來實(shí)現(xiàn)。
[0110]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個(gè)地方，或者也可以分布到多個(gè) 網(wǎng)絡(luò)單元上?？梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。
[0111] 另外，在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中，也可以是各個(gè)單元單獨(dú)物理存在，也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。
[0112] 以上所述，僅為本發(fā)明的【具體實(shí)施方式】，但本發(fā)明的保護(hù)范圍并不局限于此，任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi)，可輕易想到變化或替換，都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此，本發(fā)明的保護(hù)范圍應(yīng)所述以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種基于DEC-POMDP的多衛(wèi)星協(xié)同優(yōu)化決策方法，應(yīng)用于具有動(dòng)態(tài)解耦特性的衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括的衛(wèi)星，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括多個(gè)相互獨(dú)立的衛(wèi)星，其特征在于，所述多衛(wèi)星協(xié)同優(yōu)化決策方法包括：獲取當(dāng)前規(guī)劃決策時(shí)刻的環(huán)境觀測信息和DAG協(xié)同規(guī)劃環(huán)境中其它各衛(wèi)星的部分狀態(tài) 信息，并基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新，其中，所述部分可見馬爾可夫決策過程模型包括有限狀態(tài)集合、動(dòng)作集合、狀態(tài)轉(zhuǎn)移函數(shù)、報(bào)酬函數(shù)、有限觀測集合和觀察函數(shù)；根據(jù)更新后的信念狀態(tài)信息計(jì)算所述當(dāng)前規(guī)劃決策時(shí)刻最優(yōu)的觀測動(dòng)作，并根據(jù)所述部分可見馬爾可夫決策過程模型獲得與所述觀測動(dòng)作相對(duì)應(yīng)的瞬時(shí)報(bào)酬值；根據(jù)所述瞬時(shí)報(bào)酬值計(jì)算期望折扣報(bào)酬值，并計(jì)算出使得所述期望折扣報(bào)酬值最大化的最優(yōu)策略，以及得到所述期望折扣報(bào)酬值的最大值；進(jìn)入下一規(guī)劃決策時(shí)刻，重復(fù)進(jìn)行以上步驟直至整個(gè)規(guī)劃決策過程的結(jié)束，并得到在各規(guī)劃決策時(shí)刻的折扣報(bào)酬期望值；將每個(gè)規(guī)劃決策時(shí)刻得到的折扣報(bào)酬期望值進(jìn)行疊加合并，得到所述衛(wèi)星協(xié)同任務(wù)規(guī) 劃系統(tǒng)的整體值函數(shù)。2. 根據(jù)權(quán)利要求1所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法，其特征在于，所述基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新的步驟包括：當(dāng)信念狀態(tài)信息屬于所述有限狀態(tài)集合，且執(zhí)行所述動(dòng)作集合中的動(dòng)作5時(shí)，根據(jù)所述狀態(tài)轉(zhuǎn)移函數(shù)中的轉(zhuǎn)移概率分布ΠΧδ,/)對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新，并根據(jù)所述觀察函數(shù)得到在所述有限觀測集合中觀察5的概率分布0(a，Y，〇)。3. 根據(jù)權(quán)利要求2所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法，其特征在于，所述基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新的步驟還包括:根據(jù)貝葉斯準(zhǔn)則對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新；定義信念狀態(tài)更新函數(shù)tPsBX Ω XA，其中，B表示信念狀態(tài)空間，Ω表示有限觀測集合，A表示動(dòng)作集合，則：其中，PHo I b，a)為歸一化因子，表示在信念狀態(tài)信息b下執(zhí)行動(dòng)作a時(shí)得到的觀測概率 Oo4. 根據(jù)權(quán)利要求3所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法，其特征在于，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的狀態(tài)空間記為S= {Si}，1彡i彡NS，當(dāng)?shù)趇顆衛(wèi)星的策略方程為町時(shí)，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的策略方程可以表示為如下形式： ^t(Vj) = Oi (V)1),…;Tv (/'、）] 所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的信念狀態(tài)更新函數(shù)可表示為：第i顆衛(wèi)星的信念狀態(tài)更新函數(shù)則可以表示為：其中，? G Ω，β =? U ^表示第i顆衛(wèi)星獲得的其它衛(wèi)星的部分狀態(tài)信息；在最優(yōu)策略V下，每個(gè)信念狀態(tài)信息的折扣報(bào)酬期望值組成最優(yōu)值函數(shù)V'以遞歸形式表示為：其中，所述最優(yōu)策略#為動(dòng)作系列：5. 根據(jù)權(quán)利要求4所述的基于DEC-POMDP的多衛(wèi)星協(xié)同優(yōu)化決策方法，其特征在于，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)是所有NS顆衛(wèi)星的值函數(shù)之和，即表示為如下形式：6. -種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置，應(yīng)用于具有動(dòng)態(tài)解耦特性的衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括的衛(wèi)星，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括多個(gè)相互獨(dú)立的衛(wèi)星，其特征在于，所述多衛(wèi)星協(xié)同優(yōu)化決策裝置包括：信念狀態(tài)信息更新模塊，用于獲取當(dāng)前規(guī)劃決策時(shí)刻的環(huán)境觀測信息和DAG協(xié)同規(guī)劃環(huán)境中其它各衛(wèi)星的部分狀態(tài)信息，并基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新，其中，所述部分可見馬爾可夫決策過程模型包括有限狀態(tài) 集合、動(dòng)作集合、狀態(tài)轉(zhuǎn)移函數(shù)、報(bào)酬函數(shù)、有限觀測集合和觀察函數(shù)；優(yōu)化決策模塊，用于根據(jù)更新后的信念狀態(tài)信息計(jì)算所述當(dāng)前規(guī)劃決策時(shí)刻最優(yōu)的觀測動(dòng)作，并根據(jù)所述部分可見馬爾可夫決策過程模型獲得與所述觀測動(dòng)作相對(duì)應(yīng)的瞬時(shí)報(bào) 酬值；以及根據(jù)所述瞬時(shí)報(bào)酬值計(jì)算期望折扣報(bào)酬值，并計(jì)算出使得所述期望折扣報(bào)酬值最大化的最優(yōu)策略，以及得到所述期望折扣報(bào)酬值的最大值；值函數(shù)計(jì)算模塊，用于將每個(gè)規(guī)劃決策時(shí)刻得到的折扣報(bào)酬期望值進(jìn)行疊加合并，得到所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)。7. 根據(jù)權(quán)利要求6所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置，其特征在于，所述信念狀態(tài)信息更新模塊還用于在信念狀態(tài)信息屬于所述有限狀態(tài)集合，且執(zhí)行所述動(dòng)作集合中的動(dòng)作5的情況下，根據(jù)所述狀態(tài)轉(zhuǎn)移函數(shù)中的轉(zhuǎn)移概率分布:對(duì)衛(wèi) 星自身的信念狀態(tài)信息進(jìn)行更新，并根據(jù)所述觀察函數(shù)得到在所述有限觀測集合中觀察δ 的概率分布(Κει,γ，〇)。8. 根據(jù)權(quán)利要求7所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置，其特征在于，所述信念狀態(tài)信息更新模塊還用于根據(jù)貝葉斯準(zhǔn)則對(duì)衛(wèi)星自身的信念狀態(tài)信息進(jìn)行更新；定義信念狀態(tài)更新函數(shù)Φ:ΒΧ Ω ΧΑ，其中，B表示信念狀態(tài)空間，Ω表示有限觀測集合，A表示動(dòng)作集合，則：其中，Pr(〇 I b，a)為歸一化因子，表示在信念狀態(tài)信息b下執(zhí)行動(dòng)作a時(shí)得到的觀測概率 Oo9. 根據(jù)權(quán)利要求8所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置，其特征在于，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的狀態(tài)空間記為S= {Si}，1彡i彡NS，當(dāng)?shù)趇顆衛(wèi)星的策略方程為町時(shí)，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的策略方程可以表示為如下形式：所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的信念狀態(tài)更新函數(shù)可表示為：第i顆衛(wèi)星的信念狀態(tài)更新函數(shù)則可以表示為：其中，rie Ω，U = AUiTii，?\表示第i顆衛(wèi)星獲得的其它衛(wèi)星的部分狀態(tài)信息；在最優(yōu)策略V下，每個(gè)信念狀態(tài)信息的折扣報(bào)酬期望值組成最優(yōu)值函數(shù)V'以遞歸形式表示為：其中，所述最優(yōu)策略#為動(dòng)作系列：10. 根據(jù)權(quán)利要求9所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置，其特征在于，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)是所有NS顆衛(wèi)星的值函數(shù)之和，即表示為如下形式：
【文檔編號(hào)】G06Q10/04GK105930944SQ201610546764
【公開日】2016年9月7日
【申請(qǐng)日】2016年7月12日
【發(fā)明人】王沖, 張海, 董志強(qiáng), 劉銘, 董相均, 關(guān)禮安, 邵欣
【申請(qǐng)人】中國人民解放軍空軍裝備研究院雷達(dá)與電子對(duì)抗研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王沖;張海;董志強(qiáng);劉銘;董相均;關(guān)禮安;邵欣;
技術(shù)所有人：中國人民解放軍空軍裝備研究院雷達(dá)與電子對(duì)抗研究所;
我是此專利的發(fā)明人

上一篇：一種業(yè)務(wù)處理方法及裝置的制造方法
上一篇：一種駕駛風(fēng)險(xiǎn)預(yù)測方法及裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

協(xié)同決策相關(guān)技術(shù)

機(jī)場協(xié)同決策相關(guān)技術(shù)

機(jī)場協(xié)同決策系統(tǒng)相關(guān)技術(shù)

無人機(jī)協(xié)同決策與控制相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于dec-pomdp的多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置的制造方法