本技術(shù)涉及建筑,特別涉及一種基于強(qiáng)化學(xué)習(xí)的桁架優(yōu)化方法、裝置、電子設(shè)備及介質(zhì)。
背景技術(shù):
1、桁架結(jié)構(gòu)是一種常見的工程結(jié)構(gòu)形式,由桿件按照一定的幾何形式連接構(gòu)成,而桁架優(yōu)化主要涉及節(jié)點位置、節(jié)點之間的拓?fù)浜瓦B接桿的橫截面積的優(yōu)化;傳統(tǒng)上,結(jié)構(gòu)工程師通過草圖進(jìn)行分析和迭代的辦法過程繁瑣,已逐漸被各種計算機(jī)優(yōu)化算法所取代。但是桁架設(shè)計是一個復(fù)雜的組合優(yōu)化問題,解空間巨大,簡單地用計算機(jī)進(jìn)行窮舉式搜索并不可行,需要耗費(fèi)大量的時間和計算資源。
2、相關(guān)技術(shù)中,基本都采用了啟發(fā)式搜索的方法,通過應(yīng)用某種啟發(fā)式信息或策略來引導(dǎo)搜索過程,以避免遍歷所有可能解,更快地找到較優(yōu)解。這些方法包括遺傳算法、粒子群優(yōu)化、模擬退火和差分進(jìn)化等,以及在它們基礎(chǔ)上改進(jìn)的版本,但是仍舊存在以下問題:
3、(1)由于整個搜索空間包含節(jié)點位置和桿件橫截面積是連續(xù)的,微小的形狀變化可能極大地影響整個桁架布局的力學(xué)性能,因此離散化程度不夠精細(xì)可能很容易錯過最優(yōu)位置,導(dǎo)致生成結(jié)果質(zhì)量欠佳。
4、(2)啟發(fā)式搜索通常只關(guān)注目標(biāo)函數(shù)和當(dāng)前的決策,而忽視了決策序列的全局性質(zhì);由于桁架結(jié)構(gòu)的優(yōu)化涉及一系列連續(xù)的步驟,當(dāng)前步驟的決策只能選擇下一狀態(tài),而沒有評估新狀態(tài)進(jìn)一步優(yōu)化的空間;長遠(yuǎn)來看,這類方法往往沒法找到全局的最優(yōu)結(jié)果,準(zhǔn)確性較低。
5、(3)采用分層優(yōu)化的辦法將節(jié)點位置和截面尺寸分步或交替進(jìn)行優(yōu)化;這種方法可以提高搜索速度,但是會逐步減小解空間從而錯過最優(yōu)解。
技術(shù)實現(xiàn)思路
1、本技術(shù)提供一種基于強(qiáng)化學(xué)習(xí)的桁架優(yōu)化方法、裝置、電子設(shè)備及存儲介質(zhì),以解決相關(guān)技術(shù)中采用啟發(fā)式搜索方法導(dǎo)致無法精確定位全局的最優(yōu)結(jié)果,設(shè)計效率較低、生成結(jié)果質(zhì)量較差、搜索成本高等問題。
2、本技術(shù)第一方面實施例提供一種基于強(qiáng)化學(xué)習(xí)的桁架優(yōu)化方法,包括以下步驟:獲取桁架的設(shè)計要求和歷史數(shù)據(jù);迭代搜索所述歷史數(shù)據(jù)得到符合力學(xué)條件的多個桁架布局;篩選所述多個桁架布局中滿足所述設(shè)計要求的不同拓?fù)涞蔫旒懿季?,并通過強(qiáng)化學(xué)習(xí)策略優(yōu)化所述不同拓?fù)涞蔫旒懿季郑玫剿鲨旒艿膬?yōu)化結(jié)果。
3、可選地,所述通過強(qiáng)化學(xué)習(xí)策略優(yōu)化所述不同拓?fù)涞蔫旒懿季郑ǎ豪民R爾科夫決策模型決策所述桁架布局的優(yōu)化調(diào)整動作;利用深度強(qiáng)化學(xué)習(xí)sac算法執(zhí)行所述優(yōu)化調(diào)整動作,以優(yōu)化所述桁架布局。
4、可選地,所述馬爾科夫決策模型包括:狀態(tài)空間、動作空間、獎勵函數(shù)、狀態(tài)轉(zhuǎn)移概率和折扣因子,其中,所述狀態(tài)空間包括所有可能的桁架布局,所述動作空間包括所有可能的調(diào)整動作,所述獎勵函數(shù)用于反映桁架布局的質(zhì)量、穩(wěn)定性和滿足約束的程度,所述狀態(tài)轉(zhuǎn)移概率反映執(zhí)行調(diào)整動作后桁架布局改變方向,所述折扣因子用于平衡即時獎勵和未來獎勵。
5、可選地,所述利用深度強(qiáng)化學(xué)習(xí)sac算法執(zhí)行所述優(yōu)化調(diào)整動作,包括:利用目標(biāo)策略將桁架布局映射到優(yōu)化調(diào)整動作;利用目標(biāo)函數(shù)估計執(zhí)行所述優(yōu)化調(diào)整動作后所述桁架布局的價值,根據(jù)所述價值在所述目標(biāo)函數(shù)中添加熵項,利用所述熵項平衡所述目標(biāo)策略。
6、可選地,所述目標(biāo)函數(shù)為:
7、
8、其中,θ表示目標(biāo)策略π的參數(shù),st表示t時刻的狀態(tài),at表示t時刻的動作,πθ表示目標(biāo)策略,該策略對每個狀態(tài)s輸出一個動作a使得累計獎勵的期望最大,πθ(st)表示狀態(tài)st下該策略輸出的動作,πθ(at|st)表示在狀態(tài)st時采取行動at的概率;
9、sac算法使用數(shù)據(jù)緩存區(qū)d來保存所有的轉(zhuǎn)換樣本,并學(xué)習(xí)一個參數(shù)為ψ的軟性q函數(shù)qψ(st,at),其中包含一個溫度參數(shù)α來控制學(xué)習(xí)過程中探索和利用的程度,表示狀態(tài)st取自數(shù)據(jù)緩存區(qū)d時式子的平均期望。
10、可選地,所述迭代搜索所述歷史數(shù)據(jù)得到符合力學(xué)條件的多個桁架布局,包括:構(gòu)建所述桁架的搜索樹;在搜索開始時初始化對所述桁架的所有調(diào)整動作,其中,所述調(diào)整動作包括節(jié)點添加動作、桿件添加動作和改變橫截面積動作中的一種或多種;基于樹的上限置信區(qū)間迭代搜索所述桁架的歷史設(shè)計數(shù)據(jù),其中,在每次迭代搜索過程中,從所述搜索樹的預(yù)設(shè)根狀態(tài)開始擴(kuò)展搜索樹,并從所述預(yù)設(shè)根狀態(tài)開始選擇調(diào)整動作進(jìn)行模擬,在模擬過程中更新所述調(diào)整動作,直到得到最優(yōu)調(diào)整動作,根據(jù)每次迭代的最優(yōu)調(diào)整動作生成符合力學(xué)條件的多個桁架布局。
11、可選地,所述最優(yōu)調(diào)整動作的更新公式為:
12、q(s,a)=βwmean(s,a)+(1-β)wbest(s,a)
13、其中,s表示桁架結(jié)構(gòu)狀態(tài),a表示優(yōu)化調(diào)整動作,wmean(s,a)表示所有在以狀態(tài)s為根的子樹中的終止?fàn)顟B(tài)的平均獎勵,wbest(s,a)表示在該子樹中的最高獎勵,β是一個超參數(shù),用于控制在平均獎勵和最高獎勵之間的探索傾向;
14、對于每個新生成的桁架結(jié)構(gòu)gm,定義獎勵函數(shù)為:
15、
16、其中,k是一個比例參數(shù),mass(m)是新桁架結(jié)構(gòu)質(zhì)量,表示調(diào)整后的獎勵值,新桁架質(zhì)量越小,獎勵值越高。
17、本技術(shù)第二方面實施例提供一種基于強(qiáng)化學(xué)習(xí)的桁架優(yōu)化裝置,包括:獲取模塊,用于獲取桁架的設(shè)計要求和歷史數(shù)據(jù);搜索模塊,用于迭代搜索所述歷史數(shù)據(jù)得到符合力學(xué)條件的多個桁架布局;篩選模塊,用于篩選所述多個桁架布局中滿足所述設(shè)計要求的不同拓?fù)涞蔫旒懿季?,并通過強(qiáng)化學(xué)習(xí)策略優(yōu)化所述不同拓?fù)涞蔫旒懿季?,得到所述桁架的?yōu)化結(jié)果。
18、可選地,篩選模塊進(jìn)一步用于:利用馬爾科夫決策模型決策桁架布局的優(yōu)化調(diào)整動作;利用深度強(qiáng)化學(xué)習(xí)sac算法執(zhí)行優(yōu)化調(diào)整動作,以優(yōu)化桁架布局。
19、可選地,馬爾科夫決策模型包括:狀態(tài)空間、動作空間、獎勵函數(shù)、狀態(tài)轉(zhuǎn)移概率和折扣因子,其中,狀態(tài)空間包括所有可能的桁架布局,動作空間包括所有可能的調(diào)整動作,獎勵函數(shù)用于反映桁架布局的質(zhì)量、穩(wěn)定性和滿足約束的程度,狀態(tài)轉(zhuǎn)移概率反映執(zhí)行調(diào)整動作后桁架布局改變方向,折扣因子用于平衡即時獎勵和未來獎勵。
20、可選地,篩選模塊進(jìn)一步用于:利用目標(biāo)策略將桁架布局映射到優(yōu)化調(diào)整動作;利用目標(biāo)函數(shù)估計執(zhí)行優(yōu)化調(diào)整動作后桁架布局的價值,根據(jù)價值在目標(biāo)函數(shù)中添加熵項,利用熵項平衡目標(biāo)策略。
21、可選地,目標(biāo)函數(shù)為:
22、
23、其中,θ表示目標(biāo)策略π的參數(shù),st表示t時刻的狀態(tài),at表示t時刻的動作,πθ表示目標(biāo)策略,該策略對每個狀態(tài)s輸出一個動作a使得累計獎勵的期望最大,πθ(st)表示狀態(tài)st下該策略輸出的動作,πθ(at|st)表示在狀態(tài)st時采取行動at的概率;
24、sac算法使用數(shù)據(jù)緩存區(qū)d來保存所有的轉(zhuǎn)換樣本,并學(xué)習(xí)一個參數(shù)為ψ的軟性q函數(shù)qψ(st,at),其中包含一個溫度參數(shù)α來控制學(xué)習(xí)過程中探索和利用的程度。表示狀態(tài)st取自數(shù)據(jù)緩存區(qū)d時式子的平均期望。
25、可選地,搜索模塊進(jìn)一步用于:構(gòu)建桁架的搜索樹;在搜索開始時初始化對桁架的所有調(diào)整動作,其中,調(diào)整動作包括節(jié)點添加動作、桿件添加動作和改變橫截面積動作中的一種或多種;基于樹的上限置信區(qū)間迭代搜索桁架的歷史設(shè)計數(shù)據(jù),其中,在每次迭代搜索過程中,從搜索樹的預(yù)設(shè)根狀態(tài)開始擴(kuò)展搜索樹,并從預(yù)設(shè)根狀態(tài)開始選擇調(diào)整動作進(jìn)行模擬,在模擬過程中更新調(diào)整動作,直到得到最優(yōu)調(diào)整動作,根據(jù)每次迭代的最優(yōu)調(diào)整動作生成符合力學(xué)條件的多個桁架布局。
26、可選地,最優(yōu)調(diào)整動作的更新公式為:
27、q(s,a)=β?wmean(s,a)+(1-β)wbest(s,a)
28、其中,s表示桁架結(jié)構(gòu)狀態(tài),a表示優(yōu)化調(diào)整動作,wmean(s,a)表示所有在以狀態(tài)s為根的子樹中的終止?fàn)顟B(tài)的平均獎勵,wbest(s,a)表示在該子樹中的最高獎勵,β是一個超參數(shù),用于控制在平均獎勵和最高獎勵之間的探索傾向;
29、對于每個新生成的桁架結(jié)構(gòu)gm,定義獎勵函數(shù)為:
30、
31、其中,k是一個比例參數(shù),mass(gm)是新桁架結(jié)構(gòu)質(zhì)量,表示調(diào)整后的獎勵值。新桁架質(zhì)量越小,獎勵值越高。
32、本技術(shù)第三方面實施例提供一種電子設(shè)備,包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運(yùn)行的計算機(jī)程序,所述處理器執(zhí)行所述程序,以實現(xiàn)如上述實施例所述的基于強(qiáng)化學(xué)習(xí)的桁架優(yōu)化方法。
33、本技術(shù)第四方面實施例提供一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該程序被處理器執(zhí)行,以用于實現(xiàn)如上述實施例所述的基于強(qiáng)化學(xué)習(xí)的桁架優(yōu)化方法。
34、由此,本技術(shù)至少具有如下有益效果:
35、本技術(shù)實施例可以通過將搜索和優(yōu)化分為兩個階段,先搜索再精調(diào)優(yōu)化,克服了搜索空間大,搜索成本高的問題,能夠快速有效地生成輕量且符合物理約束的桁架結(jié)構(gòu),大大減少設(shè)計過程中所需的人工干預(yù),提高設(shè)計效率,從而可以提供更優(yōu)質(zhì)的設(shè)計方案。
36、本技術(shù)附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本技術(shù)的實踐了解到。