亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種工業(yè)操作系統(tǒng)資源實例調(diào)度最優(yōu)化方法

文檔序號:40403500發(fā)布日期:2024-12-20 12:27閱讀:20來源:國知局
一種工業(yè)操作系統(tǒng)資源實例調(diào)度最優(yōu)化方法

本發(fā)明屬于工業(yè)操作系統(tǒng)領(lǐng)域,具體涉及一種融合深度強化學習(drl)和鯨魚優(yōu)化算法(woa)的工業(yè)操作系統(tǒng)資源實例化調(diào)度最優(yōu)化算法。


背景技術(shù):

1、智能制造的優(yōu)勢在于其能夠更高效、更靈活地滿足個性化和差異化市場需求。為實現(xiàn)智能制造,需要統(tǒng)一和高效地管理工業(yè)生產(chǎn)中的異構(gòu)資源。智能制造中,資源服務的實現(xiàn)依賴于對工業(yè)生產(chǎn)資源的抽象和池化,以實現(xiàn)最大限度的資源重用。工業(yè)操作系統(tǒng)在此過程中起重要作用,負責管理、調(diào)度和利用異構(gòu)生產(chǎn)資源等關(guān)鍵任務。異構(gòu)資源的有效管理和調(diào)度直接影響智能制造系統(tǒng)的整體性能,同時對工業(yè)操作系統(tǒng)的實施提出挑戰(zhàn)。

2、在傳統(tǒng)制造業(yè)中,傳感器、機器人、運送帶等異構(gòu)資源的軟件控制與物理硬件緊密耦合,存在專用性和難以擴展性等缺點。這使得資源的管理和調(diào)度變得更加復雜和困難,重新配置、部署和優(yōu)化各種資源以適應大品種和小批量制造需投入大量時間和資源。為優(yōu)化資源管理和提升靈活高效的資源利用能力,應用軟件定義范式成為當前工業(yè)操作系統(tǒng)的主流選擇。在軟件定義范式中,采用語義描述方法,如本體建模技術(shù),對物理硬件設備進行虛擬化、抽象化和池化,實現(xiàn)物理空間和網(wǎng)絡空間中異構(gòu)資源的互聯(lián)互通。這種方法使各種資源能按需細分和重新組合,滿足多樣化需求。此外,生產(chǎn)資源的控制和管理由邏輯上集中的控制器執(zhí)行,控制和管理功能與硬件設備分離,以軟件形式運行。因此,軟件定義的工業(yè)操作系統(tǒng)可輕松利用軟件控制模式,實現(xiàn)靈活的資源共享、調(diào)度和重用。在這種情況下,工業(yè)應用軟件可專注于業(yè)務邏輯的實現(xiàn),無需關(guān)心底層物理設備的細節(jié)。因此,在執(zhí)行工業(yè)應用軟件時,操作系統(tǒng)需根據(jù)業(yè)務需求涉及的特定資源和服務質(zhì)量(qos),通過資源實例化調(diào)度(ris)執(zhí)行從網(wǎng)絡空間到物理空間的反向映射。這種方式使操作系統(tǒng)能動態(tài)分配和調(diào)度資源,滿足不同應用程序需求并提供所需的服務質(zhì)量。

3、在生產(chǎn)過程中,涉及大量可用的異構(gòu)生產(chǎn)資源,然而這些資源的服務質(zhì)量限制對于優(yōu)化ris成了巨大的挑戰(zhàn)。在工業(yè)應用中,編排良好的生產(chǎn)工作流程包含一系列生產(chǎn)任務,每個任務通常依賴操作系統(tǒng)調(diào)度和實例化特定的生產(chǎn)資源來執(zhí)行。這些資源根據(jù)其生產(chǎn)能力進行分類,并具有各種不同qos屬性,包括時間、成本、可靠性和可用性。在工業(yè)制造系統(tǒng)中,鑒于生產(chǎn)任務常伴隨截止日期或周期性的時間約束,實時執(zhí)行能力顯得尤為關(guān)鍵和重要。若生產(chǎn)任務超時執(zhí)行,將降低或失去其應有的價值,進而影響生產(chǎn)質(zhì)量和效率。因此,資源實例化調(diào)度不僅需要滿足特定的生產(chǎn)功能,還需要強調(diào)qos需求,并將及時性放在首位。此外,如果生產(chǎn)設備或服務出現(xiàn)故障或性能下降,就需要在生產(chǎn)過程中動態(tài)且迅速地重新調(diào)度資源,這樣能提升用戶的體驗和服務質(zhì)量。

4、在工業(yè)操作系統(tǒng)中,ris作為一個基本服務,扮演著支持工業(yè)應用程序執(zhí)行的重要角色。ris服務的頻繁調(diào)用以及對高度qos標準和嚴格及時性要求的需求,凸顯了其在工業(yè)環(huán)境中的重要性,對于制造系統(tǒng)的整體效率、性能和成本效益產(chǎn)生了巨大的影響。實施高效的資源實例化調(diào)度對于優(yōu)化可用資源的利用率、最大限度地減少閑置時間并提高生產(chǎn)性能具有直接的益處。通過合理的資源調(diào)度,可以確保工業(yè)應用程序在正確的時刻、正確的資源上執(zhí)行,從而提高整體生產(chǎn)效率。此外,通過有效的資源利用,可以降低能源消耗、減少設備磨損和維護成本,進一步提升制造系統(tǒng)的成本效益。然而,實施ris的高效方法面臨著復雜的優(yōu)化問題。由于工業(yè)環(huán)境的復雜性和多樣性,資源實例化調(diào)度需要考慮到多個因素,如任務優(yōu)先級、資源約束、通信延遲等。如何在這些復雜的約束條件下高效且合理地實施ris,成為一個亟待解決的問題。


技術(shù)實現(xiàn)思路

1、針對背景技術(shù)的不足,本發(fā)明提出一種融合深度強化學習(drl)和鯨魚優(yōu)化算法(woa)的工業(yè)操作系統(tǒng)資源實例化調(diào)度最優(yōu)化方法,首先結(jié)合drl算法,從歷史數(shù)據(jù)中學習在woa搜索過程中有關(guān)探索和開發(fā)的經(jīng)驗,并訓練一個最優(yōu)的決策模型;隨后,利用訓練好的模型,有效地引導搜索代理在全局探索和局部開發(fā)之間實現(xiàn)更好的平衡,提高其收斂速度和求解質(zhì)量,最終得到ris問題的最優(yōu)解。

2、本發(fā)明一種工業(yè)操作系統(tǒng)資源實例調(diào)度最優(yōu)化方法(dwoa),具體步驟如下:

3、(1)構(gòu)建基于drl的woa搜索代理決策模型:將drl智能體作為woa中的單個搜索代理直接參與woa搜索過程,且所有woa搜索代理共享一個drl智能體,這有利于決策模型的高效學習;所述drl智能體通過與woa環(huán)境的迭代交互學習出woa搜索代理動作的決策模型,在每次交互學習中,drl智能體從動作空間中選擇一個動作來執(zhí)行,所選動作的獎勵通過量化所獲候選解決方案的進化質(zhì)量得出,如果新獲得的候選解決方案比原來的解決方案有所改進,則獲得正向獎勵,如果新獲得的候選解決方案就是原來的解決方案,則不獎勵,否則woa環(huán)境給予懲罰。決策模型訓練時,需要為drl智能體提供足夠的信息,以支持每次迭代中的動作決策,在給定訓練預算的情況下,挖掘出最終的決策模型。值得注意的是,一旦決策模型經(jīng)過訓練,其相關(guān)參數(shù)就會固定下來,決策模型的離線訓練只需進行一次,決策模型為搜索代理在dwoa中選擇最合適的動作提供支持。

4、(2)在線解決方案優(yōu)化:dwoa在與woa相似的框架下進行解的優(yōu)化,但與woa不同的是,原始woa中用到隨機參數(shù)p與狀態(tài)空間中參數(shù)a來選擇動作的方式,dwoa替換成了先構(gòu)造出與woa環(huán)境相關(guān)的狀態(tài)空間,再依靠訓練好的決策模型來確定搜索代理在每次迭代中的動作,對ris問題進行迭代優(yōu)化,最終得到最優(yōu)解。由于決策模型是一種優(yōu)化的woa搜索機制,因此dwoa算法的性能將得到顯著提高。

5、優(yōu)選地,所述步驟(1)中動作空間的設計如下:

6、action={se,su,rs}

7、其中,se為原始woa中的收縮包圍公式,su為原始woa中的螺旋更新公式,rs為原始woa中的隨機搜索公式。原始woa根據(jù)隨機參數(shù)p的值來決定搜索代理是使用螺旋運動還是圓周運動的方式,本發(fā)明決策模型換成了使用drl智能體來決策選擇動作空間中的動作。

8、優(yōu)選地,所述步驟(1)中獎勵的設計如下:

9、

10、其中,表示在第t次迭代時當前解(解決方案,即狀態(tài))的值,是執(zhí)行更新操作(即當前狀態(tài)轉(zhuǎn)換到下一個新的狀態(tài))后得到的新解的適應度值。f是適應度函數(shù),本發(fā)明對ris問題進行迭代優(yōu)化的目標是找到最小值,也就是說,適應度值越小的方案越優(yōu)。因此,當drl智能體選擇的更新操作導致適應度值下降時,應給予其正向獎勵,也就是獎勵的值設置為1;如果更新操作會增大適應度值,就應該對其進行負向的獎勵,也就是獎勵的值設置為-1;如果更新操作使得適應度值保持不變,則獎勵的值設置為0。

11、優(yōu)選地,所述決策模型的訓練是從單個drl智能體的角度出發(fā),結(jié)合dueling?dqn來訓練深度神經(jīng)網(wǎng)絡,以逼近最優(yōu)策略;其中,將drl智能體對訓練函數(shù)優(yōu)化迭代過程中所挑選的歷史動作作為訓練數(shù)據(jù),訓練函數(shù)來自經(jīng)典基準函數(shù)(也稱基準測試函數(shù)),訓練函數(shù)被收集到一個隊列中,在訓練的每個階段,從隊列中選擇一個訓練函數(shù)作為訓練目標;每一個回合的訓練按照輪詢調(diào)度(round-robin)模式循環(huán)地從訓練函數(shù)隊列中進行選擇,drl智能體根據(jù)步驟(2)中設計的狀態(tài)空間得到對woa環(huán)境的觀察信息,即當前狀態(tài),再根據(jù)訓練經(jīng)驗(第一個訓練回合中經(jīng)驗為0,隨著訓練回合的增加,drl智能體經(jīng)驗越豐富),從步驟(1)中的動作空間選擇某個動作并執(zhí)行,接著根據(jù)步驟(1)中的woa環(huán)境設計,從當前狀態(tài)轉(zhuǎn)換到下一個新的狀態(tài),對于新的狀態(tài),woa環(huán)境按照步驟(1)中的獎勵設計得到drl智能體此動作的獎勵反饋。重復訓練,通過不斷地試錯和交互,最終得到?jīng)Q策模型。

12、優(yōu)選地,所述步驟(2)中狀態(tài)空間的設計如下:

13、state={ndiv,∣a∣/2,∣c∣/2}

14、其中,ndiv是歸一化種群多樣性指標,a和c是woa中的兩個參數(shù),它們最初的取值范圍分別為[-2,2]和[0,1]。經(jīng)過歸一化處理后,這三個特征的取值范圍被轉(zhuǎn)換為[0,1]。

15、更優(yōu)選地,所述歸一化種群多樣性指標ndiv的設計如下:

16、

17、其中,表示當前種群中搜索代理i在維度j上的值,median(xj)是當前種群中所有搜索代理在j維度上的值的中位數(shù),n表示當前種群中搜索代理的總數(shù),divj表示各搜索代理在j維度上的值與所有搜索代理在j維度上的中位數(shù)之間的距離均值,用于衡量種群在優(yōu)化變量方面的多樣性。div是候選解在各個維度上的divj的平均值,m表示優(yōu)化問題候選解中包含的變量數(shù),即總的維度。值得注意的是,種群多樣性需要在每次迭代中分別計算。ub和lb分別表示div的上界和下界。

18、優(yōu)選地,所述步驟(2)具體如下:首先導入步驟(1)中訓練好的決策模型,并完成相關(guān)參數(shù)的初始化,其中相關(guān)參數(shù)包括種群數(shù)量、問題規(guī)模維度、最大迭代步數(shù)、drl智能體中的超參數(shù)和woa中的超參數(shù);然后,根據(jù)設定的最大迭代次數(shù),在與woa相似的框架下找到最優(yōu)解,與woa不同的是,dwoa構(gòu)造與woa環(huán)境相關(guān)的狀態(tài)空間,再通過決策模型來指導搜索代理從步驟(1)中的動作空間中選擇最優(yōu)動作對ris問題進行迭代優(yōu)化,來更新解;最后,當?shù)阉鹘K止時,得到最佳解。

19、與現(xiàn)有技術(shù)相比,本發(fā)明具有的有益效果是:

20、本發(fā)明結(jié)合深度強化學習技術(shù)改進了woa算法的探索和開發(fā)機制,從而提出了一種工業(yè)操作系統(tǒng)資源實例調(diào)度最優(yōu)化方法(dwoa),更有效地解決了ris問題。具體地,本發(fā)明可以自動利用woa算法優(yōu)化過程中產(chǎn)生大量的數(shù)據(jù),包括解決方案更新操作、解決方案狀態(tài)、目標值等,采用drl技術(shù)來提取隱藏的知識或經(jīng)驗,從中推導出決策模型;通過訓練得到的最優(yōu)決策模型,搜索代理能夠在每次迭代中實現(xiàn)最佳的動作選擇,從而提高算法的性能,防止算法過早陷入局部最優(yōu),并加快收斂速度。因此,得益于drl技術(shù)的學習和決策能力,基于決策模型,woa可以精準地指導搜索代理在每次迭代中采取適當?shù)膭幼鳎瑢崿F(xiàn)更智能和更合理的探索和開發(fā)平衡,從而本發(fā)明可以高效地解決ris問題。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1