基于強(qiáng)化學(xué)習(xí)的桁架優(yōu)化方法、裝置、電子設(shè)備及介質(zhì)與流程

文檔序號：40402079發(fā)布日期：2024-12-20 12:25閱讀：3來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于強(qiáng)化學(xué)習(xí)的桁架優(yōu)化方法、裝置、電子設(shè)備及介質(zhì)與流程

本技術(shù)涉及建筑，特別涉及一種基于強(qiáng)化學(xué)習(xí)的桁架優(yōu)化方法、裝置、電子設(shè)備及介質(zhì)。

背景技術(shù)：

1、桁架結(jié)構(gòu)是一種常見的工程結(jié)構(gòu)形式，由桿件按照一定的幾何形式連接構(gòu)成，而桁架優(yōu)化主要涉及節(jié)點位置、節(jié)點之間的拓?fù)浜瓦B接桿的橫截面積的優(yōu)化；傳統(tǒng)上，結(jié)構(gòu)工程師通過草圖進(jìn)行分析和迭代的辦法過程繁瑣，已逐漸被各種計算機(jī)優(yōu)化算法所取代。但是桁架設(shè)計是一個復(fù)雜的組合優(yōu)化問題，解空間巨大，簡單地用計算機(jī)進(jìn)行窮舉式搜索并不可行，需要耗費(fèi)大量的時間和計算資源。

2、相關(guān)技術(shù)中，基本都采用了啟發(fā)式搜索的方法，通過應(yīng)用某種啟發(fā)式信息或策略來引導(dǎo)搜索過程，以避免遍歷所有可能解，更快地找到較優(yōu)解。這些方法包括遺傳算法、粒子群優(yōu)化、模擬退火和差分進(jìn)化等，以及在它們基礎(chǔ)上改進(jìn)的版本，但是仍舊存在以下問題：

3、(1)由于整個搜索空間包含節(jié)點位置和桿件橫截面積是連續(xù)的，微小的形狀變化可能極大地影響整個桁架布局的力學(xué)性能，因此離散化程度不夠精細(xì)可能很容易錯過最優(yōu)位置，導(dǎo)致生成結(jié)果質(zhì)量欠佳。

4、(2)啟發(fā)式搜索通常只關(guān)注目標(biāo)函數(shù)和當(dāng)前的決策，而忽視了決策序列的全局性質(zhì)；由于桁架結(jié)構(gòu)的優(yōu)化涉及一系列連續(xù)的步驟，當(dāng)前步驟的決策只能選擇下一狀態(tài)，而沒有評估新狀態(tài)進(jìn)一步優(yōu)化的空間；長遠(yuǎn)來看，這類方法往往沒法找到全局的最優(yōu)結(jié)果，準(zhǔn)確性較低。

5、(3)采用分層優(yōu)化的辦法將節(jié)點位置和截面尺寸分步或交替進(jìn)行優(yōu)化；這種方法可以提高搜索速度，但是會逐步減小解空間從而錯過最優(yōu)解。

技術(shù)實現(xiàn)思路

1、本技術(shù)提供一種基于強(qiáng)化學(xué)習(xí)的桁架優(yōu)化方法、裝置、電子設(shè)備及存儲介質(zhì)，以解決相關(guān)技術(shù)中采用啟發(fā)式搜索方法導(dǎo)致無法精確定位全局的最優(yōu)結(jié)果，設(shè)計效率較低、生成結(jié)果質(zhì)量較差、搜索成本高等問題。

2、本技術(shù)第一方面實施例提供一種基于強(qiáng)化學(xué)習(xí)的桁架優(yōu)化方法，包括以下步驟：獲取桁架的設(shè)計要求和歷史數(shù)據(jù)；迭代搜索所述歷史數(shù)據(jù)得到符合力學(xué)條件的多個桁架布局；篩選所述多個桁架布局中滿足所述設(shè)計要求的不同拓?fù)涞蔫旒懿季?，并通過強(qiáng)化學(xué)習(xí)策略優(yōu)化所述不同拓?fù)涞蔫旒懿季郑玫剿鲨旒艿膬?yōu)化結(jié)果。

3、可選地，所述通過強(qiáng)化學(xué)習(xí)策略優(yōu)化所述不同拓?fù)涞蔫旒懿季郑ǎ豪民R爾科夫決策模型決策所述桁架布局的優(yōu)化調(diào)整動作；利用深度強(qiáng)化學(xué)習(xí)sac算法執(zhí)行所述優(yōu)化調(diào)整動作，以優(yōu)化所述桁架布局。

4、可選地，所述馬爾科夫決策模型包括：狀態(tài)空間、動作空間、獎勵函數(shù)、狀態(tài)轉(zhuǎn)移概率和折扣因子，其中，所述狀態(tài)空間包括所有可能的桁架布局，所述動作空間包括所有可能的調(diào)整動作，所述獎勵函數(shù)用于反映桁架布局的質(zhì)量、穩(wěn)定性和滿足約束的程度，所述狀態(tài)轉(zhuǎn)移概率反映執(zhí)行調(diào)整動作后桁架布局改變方向，所述折扣因子用于平衡即時獎勵和未來獎勵。

5、可選地，所述利用深度強(qiáng)化學(xué)習(xí)sac算法執(zhí)行所述優(yōu)化調(diào)整動作，包括：利用目標(biāo)策略將桁架布局映射到優(yōu)化調(diào)整動作；利用目標(biāo)函數(shù)估計執(zhí)行所述優(yōu)化調(diào)整動作后所述桁架布局的價值，根據(jù)所述價值在所述目標(biāo)函數(shù)中添加熵項，利用所述熵項平衡所述目標(biāo)策略。

6、可選地，所述目標(biāo)函數(shù)為：

7、

8、其中，θ表示目標(biāo)策略π的參數(shù)，st表示t時刻的狀態(tài)，at表示t時刻的動作，πθ表示目標(biāo)策略，該策略對每個狀態(tài)s輸出一個動作a使得累計獎勵的期望最大，πθ(st)表示狀態(tài)st下該策略輸出的動作，πθ(at|st)表示在狀態(tài)st時采取行動at的概率；

9、sac算法使用數(shù)據(jù)緩存區(qū)d來保存所有的轉(zhuǎn)換樣本，并學(xué)習(xí)一個參數(shù)為ψ的軟性q函數(shù)qψ(st,at)，其中包含一個溫度參數(shù)α來控制學(xué)習(xí)過程中探索和利用的程度，表示狀態(tài)st取自數(shù)據(jù)緩存區(qū)d時式子的平均期望。

10、可選地，所述迭代搜索所述歷史數(shù)據(jù)得到符合力學(xué)條件的多個桁架布局，包括：構(gòu)建所述桁架的搜索樹；在搜索開始時初始化對所述桁架的所有調(diào)整動作，其中，所述調(diào)整動作包括節(jié)點添加動作、桿件添加動作和改變橫截面積動作中的一種或多種；基于樹的上限置信區(qū)間迭代搜索所述桁架的歷史設(shè)計數(shù)據(jù)，其中，在每次迭代搜索過程中，從所述搜索樹的預(yù)設(shè)根狀態(tài)開始擴(kuò)展搜索樹，并從所述預(yù)設(shè)根狀態(tài)開始選擇調(diào)整動作進(jìn)行模擬，在模擬過程中更新所述調(diào)整動作，直到得到最優(yōu)調(diào)整動作，根據(jù)每次迭代的最優(yōu)調(diào)整動作生成符合力學(xué)條件的多個桁架布局。

11、可選地，所述最優(yōu)調(diào)整動作的更新公式為：

12、q(s,a)＝βwmean(s,a)+(1-β)wbest(s,a)

13、其中，s表示桁架結(jié)構(gòu)狀態(tài)，a表示優(yōu)化調(diào)整動作，wmean(s,a)表示所有在以狀態(tài)s為根的子樹中的終止?fàn)顟B(tài)的平均獎勵，wbest(s,a)表示在該子樹中的最高獎勵，β是一個超參數(shù)，用于控制在平均獎勵和最高獎勵之間的探索傾向；

14、對于每個新生成的桁架結(jié)構(gòu)gm，定義獎勵函數(shù)為：

15、

16、其中，k是一個比例參數(shù)，mass(m)是新桁架結(jié)構(gòu)質(zhì)量，表示調(diào)整后的獎勵值，新桁架質(zhì)量越小，獎勵值越高。

17、本技術(shù)第二方面實施例提供一種基于強(qiáng)化學(xué)習(xí)的桁架優(yōu)化裝置，包括：獲取模塊，用于獲取桁架的設(shè)計要求和歷史數(shù)據(jù)；搜索模塊，用于迭代搜索所述歷史數(shù)據(jù)得到符合力學(xué)條件的多個桁架布局；篩選模塊，用于篩選所述多個桁架布局中滿足所述設(shè)計要求的不同拓?fù)涞蔫旒懿季?，并通過強(qiáng)化學(xué)習(xí)策略優(yōu)化所述不同拓?fù)涞蔫旒懿季?，得到所述桁架的?yōu)化結(jié)果。

18、可選地，篩選模塊進(jìn)一步用于：利用馬爾科夫決策模型決策桁架布局的優(yōu)化調(diào)整動作；利用深度強(qiáng)化學(xué)習(xí)sac算法執(zhí)行優(yōu)化調(diào)整動作，以優(yōu)化桁架布局。

19、可選地，馬爾科夫決策模型包括：狀態(tài)空間、動作空間、獎勵函數(shù)、狀態(tài)轉(zhuǎn)移概率和折扣因子，其中，狀態(tài)空間包括所有可能的桁架布局，動作空間包括所有可能的調(diào)整動作，獎勵函數(shù)用于反映桁架布局的質(zhì)量、穩(wěn)定性和滿足約束的程度，狀態(tài)轉(zhuǎn)移概率反映執(zhí)行調(diào)整動作后桁架布局改變方向，折扣因子用于平衡即時獎勵和未來獎勵。

20、可選地，篩選模塊進(jìn)一步用于：利用目標(biāo)策略將桁架布局映射到優(yōu)化調(diào)整動作；利用目標(biāo)函數(shù)估計執(zhí)行優(yōu)化調(diào)整動作后桁架布局的價值，根據(jù)價值在目標(biāo)函數(shù)中添加熵項，利用熵項平衡目標(biāo)策略。

21、可選地，目標(biāo)函數(shù)為：

22、

23、其中，θ表示目標(biāo)策略π的參數(shù)，st表示t時刻的狀態(tài)，at表示t時刻的動作，πθ表示目標(biāo)策略，該策略對每個狀態(tài)s輸出一個動作a使得累計獎勵的期望最大，πθ(st)表示狀態(tài)st下該策略輸出的動作，πθ(at|st)表示在狀態(tài)st時采取行動at的概率；

24、sac算法使用數(shù)據(jù)緩存區(qū)d來保存所有的轉(zhuǎn)換樣本，并學(xué)習(xí)一個參數(shù)為ψ的軟性q函數(shù)qψ(st,at)，其中包含一個溫度參數(shù)α來控制學(xué)習(xí)過程中探索和利用的程度。表示狀態(tài)st取自數(shù)據(jù)緩存區(qū)d時式子的平均期望。

25、可選地，搜索模塊進(jìn)一步用于：構(gòu)建桁架的搜索樹；在搜索開始時初始化對桁架的所有調(diào)整動作，其中，調(diào)整動作包括節(jié)點添加動作、桿件添加動作和改變橫截面積動作中的一種或多種；基于樹的上限置信區(qū)間迭代搜索桁架的歷史設(shè)計數(shù)據(jù)，其中，在每次迭代搜索過程中，從搜索樹的預(yù)設(shè)根狀態(tài)開始擴(kuò)展搜索樹，并從預(yù)設(shè)根狀態(tài)開始選擇調(diào)整動作進(jìn)行模擬，在模擬過程中更新調(diào)整動作，直到得到最優(yōu)調(diào)整動作，根據(jù)每次迭代的最優(yōu)調(diào)整動作生成符合力學(xué)條件的多個桁架布局。

26、可選地，最優(yōu)調(diào)整動作的更新公式為：

27、q(s，a)＝β?wmean(s，a)+(1-β)wbest(s，a)

28、其中，s表示桁架結(jié)構(gòu)狀態(tài)，a表示優(yōu)化調(diào)整動作，wmean(s，a)表示所有在以狀態(tài)s為根的子樹中的終止?fàn)顟B(tài)的平均獎勵，wbest(s，a)表示在該子樹中的最高獎勵，β是一個超參數(shù)，用于控制在平均獎勵和最高獎勵之間的探索傾向；

29、對于每個新生成的桁架結(jié)構(gòu)gm，定義獎勵函數(shù)為：

30、

31、其中，k是一個比例參數(shù)，mass(gm)是新桁架結(jié)構(gòu)質(zhì)量，表示調(diào)整后的獎勵值。新桁架質(zhì)量越小，獎勵值越高。

32、本技術(shù)第三方面實施例提供一種電子設(shè)備，包括：存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運(yùn)行的計算機(jī)程序，所述處理器執(zhí)行所述程序，以實現(xiàn)如上述實施例所述的基于強(qiáng)化學(xué)習(xí)的桁架優(yōu)化方法。

33、本技術(shù)第四方面實施例提供一種計算機(jī)可讀存儲介質(zhì)，其上存儲有計算機(jī)程序，該程序被處理器執(zhí)行，以用于實現(xiàn)如上述實施例所述的基于強(qiáng)化學(xué)習(xí)的桁架優(yōu)化方法。

34、由此，本技術(shù)至少具有如下有益效果：

35、本技術(shù)實施例可以通過將搜索和優(yōu)化分為兩個階段，先搜索再精調(diào)優(yōu)化，克服了搜索空間大，搜索成本高的問題，能夠快速有效地生成輕量且符合物理約束的桁架結(jié)構(gòu)，大大減少設(shè)計過程中所需的人工干預(yù)，提高設(shè)計效率，從而可以提供更優(yōu)質(zhì)的設(shè)計方案。

36、本技術(shù)附加的方面和優(yōu)點將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過本技術(shù)的實踐了解到。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳翼,趙京倫,杜偉樺,于超
技術(shù)所有人：上海期智研究院
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于強(qiáng)化學(xué)習(xí)的桁架優(yōu)化方法、裝置、電子設(shè)備及介質(zhì)與流程

基于強(qiáng)化學(xué)習(xí)的桁架優(yōu)化方法、裝置、電子設(shè)備及介質(zhì)與流程