一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法

文檔序號(hào)：40403500發(fā)布日期：2024-12-20 12:27閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法

技術(shù)特征：

1.一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法，其特征在于：具體步驟如下：

2.根據(jù)權(quán)利要求1所述一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法，其特征在于：所述步驟(1)中動(dòng)作空間的設(shè)計(jì)如下：

3.根據(jù)權(quán)利要求1所述一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法，其特征在于：所述步驟(1)中獎(jiǎng)勵(lì)的設(shè)計(jì)如下：

4.根據(jù)權(quán)利要求1所述一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法，其特征在于：所述決策模型的訓(xùn)練是從drl智能體出發(fā)，結(jié)合dueling?dqn來(lái)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)，以逼近最優(yōu)策略；其中，將drl智能體對(duì)訓(xùn)練函數(shù)優(yōu)化迭代過(guò)程中所挑選的歷史動(dòng)作作為訓(xùn)練數(shù)據(jù)，訓(xùn)練函數(shù)來(lái)自基準(zhǔn)函數(shù)，訓(xùn)練函數(shù)被收集到一個(gè)隊(duì)列中，在訓(xùn)練的每個(gè)階段，從隊(duì)列中選擇一個(gè)訓(xùn)練函數(shù)作為訓(xùn)練目標(biāo)；每一個(gè)回合的訓(xùn)練按照輪詢(xún)調(diào)度模式循環(huán)地從訓(xùn)練函數(shù)隊(duì)列中進(jìn)行選擇，drl智能體根據(jù)步驟(2)中設(shè)計(jì)的狀態(tài)空間得到對(duì)woa環(huán)境的當(dāng)前狀態(tài)，再根據(jù)訓(xùn)練經(jīng)驗(yàn)，從步驟(1)中的動(dòng)作空間選擇某個(gè)動(dòng)作并執(zhí)行，接著根據(jù)步驟(1)中的woa環(huán)境設(shè)計(jì)，從當(dāng)前狀態(tài)轉(zhuǎn)換到下一個(gè)新的狀態(tài)，對(duì)于新的狀態(tài)，woa環(huán)境按照步驟(1)中的獎(jiǎng)勵(lì)設(shè)計(jì)得到drl智能體此動(dòng)作的獎(jiǎng)勵(lì)反饋；重復(fù)訓(xùn)練，通過(guò)不斷地試錯(cuò)和交互，最終得到?jīng)Q策模型。

5.根據(jù)權(quán)利要求1所述一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法，其特征在于：所述步驟(2)中狀態(tài)空間的設(shè)計(jì)如下：

6.根據(jù)權(quán)利要求5所述一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法，其特征在于：所述歸一化種群多樣性指標(biāo)ndiv的設(shè)計(jì)如下：

7.根據(jù)權(quán)利要求1所述一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法，其特征在于：所述步驟(2)具體如下：首先導(dǎo)入步驟(1)中訓(xùn)練好的決策模型，并完成相關(guān)參數(shù)的初始化，其中相關(guān)參數(shù)包括種群數(shù)量、問(wèn)題規(guī)模維度、最大迭代步數(shù)、drl智能體中的超參數(shù)和woa中的超參數(shù)；然后，根據(jù)設(shè)定的最大迭代次數(shù)，構(gòu)造與woa環(huán)境相關(guān)的狀態(tài)空間，再通過(guò)決策模型來(lái)指導(dǎo)搜索代理從步驟(1)中的動(dòng)作空間中選擇最優(yōu)動(dòng)作對(duì)ris問(wèn)題進(jìn)行迭代優(yōu)化，來(lái)更新解；最后，當(dāng)?shù)阉鹘K止時(shí)，得到最佳解。

技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法，首先結(jié)合DRL算法，從歷史數(shù)據(jù)中學(xué)習(xí)在WOA搜索過(guò)程中有關(guān)探索和開(kāi)發(fā)的經(jīng)驗(yàn)，并訓(xùn)練一個(gè)最優(yōu)的決策模型；隨后，利用訓(xùn)練好的模型，搜索代理能夠在每次迭代中實(shí)現(xiàn)最佳的動(dòng)作選擇，可有效引導(dǎo)搜索代理在全局探索和局部開(kāi)發(fā)之間實(shí)現(xiàn)更好的平衡，提高其收斂速度和求解質(zhì)量，最終得到RIS問(wèn)題的最優(yōu)解。

技術(shù)研發(fā)人員：舒挺,潘志杰
受保護(hù)的技術(shù)使用者：浙江理工大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法