亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于大語言模型和強(qiáng)化學(xué)習(xí)的決策支持系統(tǒng)及方法

文檔序號(hào):40396951發(fā)布日期:2024-12-20 12:20閱讀:6來源:國知局
基于大語言模型和強(qiáng)化學(xué)習(xí)的決策支持系統(tǒng)及方法

本技術(shù)涉及強(qiáng)化學(xué)習(xí),且更為具體地,涉及一種基于大語言模型和強(qiáng)化學(xué)習(xí)的決策支持系統(tǒng)及方法。


背景技術(shù):

1、強(qiáng)化學(xué)習(xí)中的狀態(tài)表征算法旨在獲得包含更多任務(wù)相關(guān)或環(huán)境動(dòng)態(tài)相關(guān)的狀態(tài)表征,從而增強(qiáng)網(wǎng)絡(luò)訓(xùn)練的穩(wěn)健性。隨著大語言模型的發(fā)展,利用其強(qiáng)大的語言理解和生成能力,可以將大語言模型作為強(qiáng)化學(xué)習(xí)算法的先驗(yàn)知識(shí),提供豐富的語義信息和上下文理解,進(jìn)一步提升智能體的決策能力和適應(yīng)性,使智能體能夠更好地理解和應(yīng)對(duì)復(fù)雜多變的環(huán)境。

2、專利cn118504612a提出了一種基于大語言模型與強(qiáng)化學(xué)習(xí)的狀態(tài)表征方法及裝置,其首先利用自然語言描述器將強(qiáng)化學(xué)習(xí)中的狀態(tài)轉(zhuǎn)換成預(yù)設(shè)大語言模型的狀態(tài)表征。接著,將轉(zhuǎn)換后的狀態(tài)輸入大語言模型,生成增強(qiáng)的狀態(tài)表征函數(shù)和內(nèi)在獎(jiǎng)勵(lì)函數(shù),內(nèi)在獎(jiǎng)勵(lì)幫助智能體探索環(huán)境。最后,通過生成的函數(shù)更新維護(hù)利普西茨數(shù)組,確保狀態(tài)表征的平滑性,直到滿足預(yù)設(shè)條件。

3、在上述專利中是直接對(duì)強(qiáng)化學(xué)習(xí)的源狀態(tài)表征進(jìn)行轉(zhuǎn)換成預(yù)設(shè)大語言模型。盡管直接將強(qiáng)化學(xué)習(xí)的源狀態(tài)表征轉(zhuǎn)換為預(yù)設(shè)大語言模型的狀態(tài)表征能夠簡化流程,但這種方法也存在一些潛在弊端。具體來說,源狀態(tài)表征中包含關(guān)鍵特征信息的同時(shí)也可能包含冗余信息,直接轉(zhuǎn)換可能導(dǎo)致重要信息的丟失或表征不足,從而影響后續(xù)生成的狀態(tài)表征函數(shù)和內(nèi)在獎(jiǎng)勵(lì)函數(shù)的質(zhì)量。此外,直接轉(zhuǎn)換可能會(huì)忽略對(duì)環(huán)境理解至關(guān)重要的上下文信息,影響智能體在特定任務(wù)中的表現(xiàn)。如果源狀態(tài)表征本身含有噪聲或信息不完整,那么未經(jīng)處理就直接輸入到大語言模型中可能會(huì)進(jìn)一步放大這些問題,從而降低決策的可靠性。

4、因此,期望一種優(yōu)化的基于大語言模型和強(qiáng)化學(xué)習(xí)的決策支持方案。


技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)針對(duì)現(xiàn)有技術(shù)中的缺點(diǎn),提供了一種基于大語言模型和強(qiáng)化學(xué)習(xí)的決策支持系統(tǒng)及方法。

2、根據(jù)本技術(shù)的一個(gè)方面,提供了一種基于大語言模型和強(qiáng)化學(xué)習(xí)的決策支持方法,其包括:獲取強(qiáng)化學(xué)習(xí)的源狀態(tài)表征;基于外部知識(shí)庫對(duì)所述強(qiáng)化學(xué)習(xí)的源狀態(tài)表征進(jìn)行數(shù)據(jù)增強(qiáng)以得到增強(qiáng)源狀態(tài)表征;基于自然語言的描述器,將所述增強(qiáng)源狀態(tài)表征轉(zhuǎn)換為預(yù)設(shè)大語言模型的狀態(tài)表征,其中,所述預(yù)設(shè)大語言模型的狀態(tài)表征包括任務(wù)描述、狀態(tài)細(xì)節(jié)、輸出要求和反饋信息中的至少之一;將所述預(yù)設(shè)大語言模型的狀態(tài)表征輸入至所述預(yù)設(shè)大語言模型,以生成強(qiáng)化學(xué)習(xí)智能體增強(qiáng)的狀態(tài)表征函數(shù)和內(nèi)在獎(jiǎng)勵(lì)函數(shù);基于所述增強(qiáng)的狀態(tài)表征函數(shù)和所述內(nèi)在獎(jiǎng)勵(lì)函數(shù)以更新維護(hù)對(duì)應(yīng)的利普西茨數(shù)組以產(chǎn)生滿足預(yù)設(shè)平滑條件的狀態(tài)表征;將所述滿足預(yù)設(shè)平滑條件的狀態(tài)表征輸入基于分類器的決策模型以得到?jīng)Q策結(jié)果。

3、在上述基于大語言模型和強(qiáng)化學(xué)習(xí)的決策支持方法中,基于外部知識(shí)庫對(duì)所述強(qiáng)化學(xué)習(xí)的源狀態(tài)表征進(jìn)行數(shù)據(jù)增強(qiáng)以得到增強(qiáng)源狀態(tài)表征,包括:對(duì)所述強(qiáng)化學(xué)習(xí)的源狀態(tài)表征和所述外部知識(shí)庫中的各條知識(shí)進(jìn)行語義嵌入編碼以得到強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和知識(shí)條目語義嵌入編碼向量的集合;將所述強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述知識(shí)條目語義嵌入編碼向量的集合中的各個(gè)知識(shí)條目語義嵌入編碼向量進(jìn)行語義關(guān)聯(lián)度量以得到源狀態(tài)表征-知識(shí)條目語義匹配系數(shù)的集合;挑選所述源狀態(tài)表征-知識(shí)條目語義匹配系數(shù)的集合中源狀態(tài)表征-知識(shí)條目語義匹配系數(shù)的最大值對(duì)應(yīng)的知識(shí)條目語義嵌入編碼向量作為數(shù)據(jù)增強(qiáng)材料表示向量;對(duì)所述強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述數(shù)據(jù)增強(qiáng)材料表示向量進(jìn)行多特征語義加權(quán)交互以得到所述增強(qiáng)源狀態(tài)表征。

4、在上述基于大語言模型和強(qiáng)化學(xué)習(xí)的決策支持方法中,對(duì)所述強(qiáng)化學(xué)習(xí)的源狀態(tài)表征和所述外部知識(shí)庫中的各條知識(shí)進(jìn)行語義嵌入編碼以得到強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和知識(shí)條目語義嵌入編碼向量的集合,包括:對(duì)所述強(qiáng)化學(xué)習(xí)的源狀態(tài)表征進(jìn)行語義嵌入編碼以得到所述強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量;對(duì)所述外部知識(shí)庫中的各條知識(shí)進(jìn)行語義嵌入編碼以得到所述知識(shí)條目語義嵌入編碼向量的集合。

5、在上述基于大語言模型和強(qiáng)化學(xué)習(xí)的決策支持方法中,將所述強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述知識(shí)條目語義嵌入編碼向量的集合中的各個(gè)知識(shí)條目語義嵌入編碼向量進(jìn)行語義關(guān)聯(lián)度量以得到源狀態(tài)表征-知識(shí)條目語義匹配系數(shù)的集合,包括:將所述強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述知識(shí)條目語義嵌入編碼向量的集合中的各個(gè)知識(shí)條目語義嵌入編碼向量分別輸入基于哈希函數(shù)的語義關(guān)聯(lián)度量網(wǎng)絡(luò)以得到所述源狀態(tài)表征-知識(shí)條目語義匹配系數(shù)的集合。

6、在上述基于大語言模型和強(qiáng)化學(xué)習(xí)的決策支持方法中,對(duì)所述強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述數(shù)據(jù)增強(qiáng)材料表示向量進(jìn)行多特征語義加權(quán)交互以得到所述增強(qiáng)源狀態(tài)表征,包括:將所述強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述數(shù)據(jù)增強(qiáng)材料表示向量輸入聯(lián)合隱式特征捕獲網(wǎng)絡(luò)以得到強(qiáng)化學(xué)習(xí)-數(shù)據(jù)增強(qiáng)上下文聯(lián)合隱式特征向量;對(duì)所述強(qiáng)化學(xué)習(xí)-數(shù)據(jù)增強(qiáng)上下文聯(lián)合隱式特征向量進(jìn)行基于sigmoid函數(shù)的特征激活以得到強(qiáng)化學(xué)習(xí)-數(shù)據(jù)增強(qiáng)條件特征向量;計(jì)算所述強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量相對(duì)于所述強(qiáng)化學(xué)習(xí)-數(shù)據(jù)增強(qiáng)條件特征向量的強(qiáng)化學(xué)習(xí)源狀態(tài)語義貢獻(xiàn)度;計(jì)算所述數(shù)據(jù)增強(qiáng)材料表示向量相對(duì)于所述強(qiáng)化學(xué)習(xí)-數(shù)據(jù)增強(qiáng)條件特征向量的數(shù)據(jù)增強(qiáng)語義貢獻(xiàn)度;對(duì)所述強(qiáng)化學(xué)習(xí)源狀態(tài)語義貢獻(xiàn)度和所述數(shù)據(jù)增強(qiáng)語義貢獻(xiàn)度進(jìn)行歸一化處理,并使用歸一化后的強(qiáng)化學(xué)習(xí)源狀態(tài)語義貢獻(xiàn)度和歸一化后的數(shù)據(jù)增強(qiáng)語義貢獻(xiàn)度對(duì)所述強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述數(shù)據(jù)增強(qiáng)材料表示向量進(jìn)行加權(quán)調(diào)制以得到調(diào)制后強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和調(diào)制后數(shù)據(jù)增強(qiáng)材料表示向量;以所述調(diào)制后強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量作為查詢向量、以所述調(diào)制后數(shù)據(jù)增強(qiáng)材料表示向量作為鍵向量且以所述強(qiáng)化學(xué)習(xí)-數(shù)據(jù)增強(qiáng)條件特征向量作為值向量,將所述調(diào)制后強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量、所述調(diào)制后數(shù)據(jù)增強(qiáng)材料表示向量和所述強(qiáng)化學(xué)習(xí)-數(shù)據(jù)增強(qiáng)條件特征向量輸入基于轉(zhuǎn)換器結(jié)構(gòu)的特征間顯著引導(dǎo)交互模塊以得到增強(qiáng)源狀態(tài)表示向量作為所述增強(qiáng)源狀態(tài)表征。

7、在上述基于大語言模型和強(qiáng)化學(xué)習(xí)的決策支持方法中,將所述強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述數(shù)據(jù)增強(qiáng)材料表示向量輸入聯(lián)合隱式特征捕獲網(wǎng)絡(luò)以得到強(qiáng)化學(xué)習(xí)-數(shù)據(jù)增強(qiáng)上下文聯(lián)合隱式特征向量,包括:將所述強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述數(shù)據(jù)增強(qiáng)材料表示向量進(jìn)行按位置相加后,將得到的強(qiáng)化學(xué)習(xí)-數(shù)據(jù)增強(qiáng)加和向量與權(quán)重矩陣進(jìn)行相乘后再與偏置向量進(jìn)行按位置相加以得到強(qiáng)化學(xué)習(xí)-數(shù)據(jù)增強(qiáng)聯(lián)合交互向量;使用tanh函數(shù)對(duì)所述強(qiáng)化學(xué)習(xí)-數(shù)據(jù)增強(qiáng)聯(lián)合交互向量進(jìn)行處理以得到所述強(qiáng)化學(xué)習(xí)-數(shù)據(jù)增強(qiáng)上下文聯(lián)合隱式特征向量。

8、在上述基于大語言模型和強(qiáng)化學(xué)習(xí)的決策支持方法中,計(jì)算所述強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量相對(duì)于所述強(qiáng)化學(xué)習(xí)-數(shù)據(jù)增強(qiáng)條件特征向量的強(qiáng)化學(xué)習(xí)源狀態(tài)語義貢獻(xiàn)度,包括:計(jì)算所述強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量與所述強(qiáng)化學(xué)習(xí)-數(shù)據(jù)增強(qiáng)條件特征向量的對(duì)應(yīng)位置的按位置除法以得到強(qiáng)化學(xué)習(xí)源狀態(tài)語義貢獻(xiàn)向量;計(jì)算所述強(qiáng)化學(xué)習(xí)源狀態(tài)語義貢獻(xiàn)向量的每個(gè)特征值的絕對(duì)值的以二為底的對(duì)數(shù)函數(shù)值以得到強(qiáng)化學(xué)習(xí)源狀態(tài)語義貢獻(xiàn)對(duì)數(shù)向量;計(jì)算所述強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量與所述強(qiáng)化學(xué)習(xí)源狀態(tài)語義貢獻(xiàn)對(duì)數(shù)向量的按位置點(diǎn)乘,并將得到的點(diǎn)乘向量進(jìn)行逐位置點(diǎn)加以得到強(qiáng)化學(xué)習(xí)源狀態(tài)語義貢獻(xiàn)值;計(jì)算以自然常數(shù)e為底的,所述強(qiáng)化學(xué)習(xí)源狀態(tài)語義貢獻(xiàn)值為指數(shù)的指數(shù)函數(shù)以獲得所述強(qiáng)化學(xué)習(xí)源狀態(tài)語義貢獻(xiàn)度。

9、在上述基于大語言模型和強(qiáng)化學(xué)習(xí)的決策支持方法中,對(duì)所述強(qiáng)化學(xué)習(xí)源狀態(tài)語義貢獻(xiàn)度和所述數(shù)據(jù)增強(qiáng)語義貢獻(xiàn)度進(jìn)行歸一化處理,并使用歸一化后的強(qiáng)化學(xué)習(xí)源狀態(tài)語義貢獻(xiàn)度和歸一化后的數(shù)據(jù)增強(qiáng)語義貢獻(xiàn)度對(duì)所述強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述數(shù)據(jù)增強(qiáng)材料表示向量進(jìn)行加權(quán)調(diào)制以得到調(diào)制后強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和調(diào)制后數(shù)據(jù)增強(qiáng)材料表示向量,包括:計(jì)算所述強(qiáng)化學(xué)習(xí)源狀態(tài)語義貢獻(xiàn)度和所述數(shù)據(jù)增強(qiáng)語義貢獻(xiàn)度的加和值以得到強(qiáng)化學(xué)習(xí)-數(shù)據(jù)增強(qiáng)語義貢獻(xiàn)加和值;分別將所述強(qiáng)化學(xué)習(xí)源狀態(tài)語義貢獻(xiàn)度和所述數(shù)據(jù)增強(qiáng)語義貢獻(xiàn)度除以所述強(qiáng)化學(xué)習(xí)-數(shù)據(jù)增強(qiáng)語義貢獻(xiàn)加和值以得到所述歸一化后的強(qiáng)化學(xué)習(xí)源狀態(tài)語義貢獻(xiàn)度和所述歸一化后的數(shù)據(jù)增強(qiáng)語義貢獻(xiàn)度;將所述強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量與所述歸一化后的強(qiáng)化學(xué)習(xí)源狀態(tài)語義貢獻(xiàn)度進(jìn)行按位置點(diǎn)乘以得到所述調(diào)制后強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量;將所述數(shù)據(jù)增強(qiáng)材料表示向量與所述歸一化后的數(shù)據(jù)增強(qiáng)語義貢獻(xiàn)度進(jìn)行按位置點(diǎn)乘以得到所述調(diào)制后數(shù)據(jù)增強(qiáng)材料表示向量。

10、在上述基于大語言模型和強(qiáng)化學(xué)習(xí)的決策支持方法中,以所述調(diào)制后強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量作為查詢向量、以所述調(diào)制后數(shù)據(jù)增強(qiáng)材料表示向量作為鍵向量且以所述強(qiáng)化學(xué)習(xí)-數(shù)據(jù)增強(qiáng)條件特征向量作為值向量,將所述調(diào)制后強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量、所述調(diào)制后數(shù)據(jù)增強(qiáng)材料表示向量和所述強(qiáng)化學(xué)習(xí)-數(shù)據(jù)增強(qiáng)條件特征向量輸入基于轉(zhuǎn)換器結(jié)構(gòu)的特征間顯著引導(dǎo)交互模塊以得到增強(qiáng)源狀態(tài)表示向量,包括:將所述調(diào)制后強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量與所述調(diào)制后數(shù)據(jù)增強(qiáng)材料表示向量的轉(zhuǎn)置向量進(jìn)行向量相乘,將得到的調(diào)制后強(qiáng)化學(xué)習(xí)-數(shù)據(jù)增強(qiáng)關(guān)聯(lián)矩陣與所述調(diào)制后數(shù)據(jù)增強(qiáng)材料表示向量的長度的平方根進(jìn)行按位置相除以得到調(diào)制后強(qiáng)化學(xué)習(xí)-數(shù)據(jù)增強(qiáng)關(guān)聯(lián)縮放矩陣;使用softmax函數(shù)對(duì)所述調(diào)制后強(qiáng)化學(xué)習(xí)-數(shù)據(jù)增強(qiáng)關(guān)聯(lián)縮放矩陣進(jìn)行處理,將得到的調(diào)制后強(qiáng)化學(xué)習(xí)-數(shù)據(jù)增強(qiáng)關(guān)聯(lián)縮放激活矩陣與所述強(qiáng)化學(xué)習(xí)-數(shù)據(jù)增強(qiáng)條件特征向量進(jìn)行矩陣-向量相乘以得到所述增強(qiáng)源狀態(tài)表示向量。

11、根據(jù)本技術(shù)的另一個(gè)方面,提供了一種基于大語言模型和強(qiáng)化學(xué)習(xí)的決策支持系統(tǒng),其包括:強(qiáng)化學(xué)習(xí)源狀態(tài)表征數(shù)據(jù)收集模塊,用于獲取強(qiáng)化學(xué)習(xí)的源狀態(tài)表征;強(qiáng)化學(xué)習(xí)源狀態(tài)表征數(shù)據(jù)增強(qiáng)模塊,用于基于外部知識(shí)庫對(duì)所述強(qiáng)化學(xué)習(xí)的源狀態(tài)表征進(jìn)行數(shù)據(jù)增強(qiáng)以得到增強(qiáng)源狀態(tài)表征;增強(qiáng)源狀態(tài)表征轉(zhuǎn)換模塊,用于基于自然語言的描述器,將所述增強(qiáng)源狀態(tài)表征轉(zhuǎn)換為預(yù)設(shè)大語言模型的狀態(tài)表征,其中,所述預(yù)設(shè)大語言模型的狀態(tài)表征包括任務(wù)描述、狀態(tài)細(xì)節(jié)、輸出要求和反饋信息中的至少之一;狀態(tài)表征函數(shù)內(nèi)在獎(jiǎng)勵(lì)函數(shù)生成模塊,用于將所述預(yù)設(shè)大語言模型的狀態(tài)表征輸入至所述預(yù)設(shè)大語言模型,以生成強(qiáng)化學(xué)習(xí)智能體增強(qiáng)的狀態(tài)表征函數(shù)和內(nèi)在獎(jiǎng)勵(lì)函數(shù);平滑狀態(tài)更新模塊,用于基于所述增強(qiáng)的狀態(tài)表征函數(shù)和所述內(nèi)在獎(jiǎng)勵(lì)函數(shù)以更新維護(hù)對(duì)應(yīng)的利普西茨數(shù)組以產(chǎn)生滿足預(yù)設(shè)平滑條件的狀態(tài)表征;決策結(jié)果生成模塊,用于將所述滿足預(yù)設(shè)平滑條件的狀態(tài)表征輸入基于分類器的決策模型以得到?jīng)Q策結(jié)果。

12、本技術(shù)由于采用了以上的技術(shù)方案,具有顯著的技術(shù)效果:本技術(shù)提供的基于大語言模型和強(qiáng)化學(xué)習(xí)的決策支持系統(tǒng)及方法,其通過采用基于深度學(xué)習(xí)的數(shù)據(jù)分析和增強(qiáng)技術(shù)來對(duì)所述強(qiáng)化學(xué)習(xí)的源狀態(tài)表征和所述外部知識(shí)庫中的各條知識(shí)進(jìn)行語義嵌入編碼,接著,對(duì)嵌入編碼后的強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義特征和各個(gè)知識(shí)條目語義嵌入特征進(jìn)行語義關(guān)聯(lián)度量,然后從各個(gè)語義匹配系數(shù)中挑選數(shù)據(jù)增強(qiáng)材料表示,以此根據(jù)強(qiáng)化學(xué)習(xí)的源狀態(tài)表征語義特征和數(shù)據(jù)增強(qiáng)材料表示之間的多特征語義交互表征來作為所述增強(qiáng)源狀態(tài)表征。這樣,能夠增強(qiáng)智能體對(duì)環(huán)境的理解,并且通過引入了外部知識(shí)庫,可以篩選出與當(dāng)前狀態(tài)最相關(guān)的知識(shí)條目,以有效剔除源狀態(tài)表征中的冗余信息,保留關(guān)鍵特征信息,從而提高狀態(tài)表征的質(zhì)量,提高決策的可靠性。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1