1.一種基于運(yùn)行成本優(yōu)化的多智能體強(qiáng)化學(xué)習(xí)方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于運(yùn)行成本優(yōu)化的多智能體強(qiáng)化學(xué)習(xí)方法,其特征在于,所述構(gòu)建的成本函數(shù)如下:
3.根據(jù)權(quán)利要求1所述的一種基于運(yùn)行成本優(yōu)化的多智能體強(qiáng)化學(xué)習(xí)方法,其特征在于,所述決策模型的結(jié)構(gòu)如下:
4.根據(jù)權(quán)利要求1所述的一種基于運(yùn)行成本優(yōu)化的多智能體強(qiáng)化學(xué)習(xí)方法,其特征在于,所多智能體強(qiáng)化學(xué)習(xí)框架的訓(xùn)練步驟如下:
5.根據(jù)權(quán)利要求4所述的一種基于運(yùn)行成本優(yōu)化的多智能體強(qiáng)化學(xué)習(xí)方法,其特征在于,所述步驟c包括以下步驟:
6.根據(jù)權(quán)利要求1所述的一種基于運(yùn)行成本優(yōu)化的多智能體強(qiáng)化學(xué)習(xí)方法,其特征在于,所述步驟4包括以下步驟:
7.根據(jù)權(quán)利要求6所述的一種基于運(yùn)行成本優(yōu)化的多智能體強(qiáng)化學(xué)習(xí)方法,其特征在于,所述步驟4.3中納什均衡解應(yīng)當(dāng)滿足如下條件:
8.根據(jù)權(quán)利要求6所述的一種基于運(yùn)行成本優(yōu)化的多智能體強(qiáng)化學(xué)習(xí)方法,其特征在于,所述步驟4.4中的決策協(xié)調(diào)包括以下步驟: