多語言大模型優(yōu)化訓(xùn)練方法、電子設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品

文檔序號(hào)：40391349發(fā)布日期：2024-12-20 12:14閱讀：21來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本申請(qǐng)涉及人工智能，尤其涉及一種多語言大模型優(yōu)化訓(xùn)練方法、電子設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品。

背景技術(shù)：

1、在目前的多語言大語言模型（例如，bloom、llama等）中，當(dāng)嘗試在模型中加入一門新的語言時(shí)，常常會(huì)遇到“災(zāi)難性遺忘”問題，即模型會(huì)在學(xué)習(xí)新語言的同時(shí)，遺忘已有語言的知識(shí)。這是因?yàn)槟Ｐ驮谥匦掠?xùn)練時(shí)會(huì)更新整個(gè)網(wǎng)絡(luò)的權(quán)重，導(dǎo)致先前學(xué)到的知識(shí)被覆蓋。因此，亟需一種能夠解決多語言大語言模型中“災(zāi)難性遺忘”問題技術(shù)方案。

技術(shù)實(shí)現(xiàn)思路

1、本申請(qǐng)實(shí)施例提供一種多語言大模型優(yōu)化訓(xùn)練方法、電子設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品，用于至少解決上述技術(shù)問題之一。

2、第一方面，本申請(qǐng)實(shí)施例提供一種多語言大模型優(yōu)化訓(xùn)練方法，包括：

3、獲取第一初始多語言大模型所支持的多種語言的多語言數(shù)據(jù)集；

4、將所述多語言數(shù)據(jù)集中的至少一種語言數(shù)據(jù)輸入至所述第一初始多語言大模型以確定優(yōu)化訓(xùn)練目標(biāo)所對(duì)應(yīng)的神經(jīng)元集合；

5、根據(jù)所述優(yōu)化訓(xùn)練目標(biāo)對(duì)所述神經(jīng)元集合對(duì)應(yīng)的神經(jīng)元參數(shù)進(jìn)行預(yù)設(shè)處理，以得到第二初始多語言大模型；

6、采用所述優(yōu)化訓(xùn)練目標(biāo)所對(duì)應(yīng)的訓(xùn)練樣本集對(duì)所述第二初始多語言大模型進(jìn)行訓(xùn)練。

7、在一些實(shí)施例中，優(yōu)化訓(xùn)練目標(biāo)包括為多語言大模型增加新語種處理能力；所述優(yōu)化訓(xùn)練目標(biāo)所對(duì)應(yīng)的神經(jīng)元集合包括所述第一初始多語言大模型所支持的多種語言所對(duì)應(yīng)的關(guān)鍵神經(jīng)元集合。

8、在一些實(shí)施例中，根據(jù)所述優(yōu)化訓(xùn)練目標(biāo)對(duì)所述神經(jīng)元集合對(duì)應(yīng)的神經(jīng)元參數(shù)進(jìn)行預(yù)設(shè)處理，以得到第二初始多語言大模型，包括：

9、凍結(jié)所述第一初始多語言大模型所支持的多種語言所對(duì)應(yīng)的關(guān)鍵神經(jīng)元集合的相應(yīng)上下游權(quán)重參數(shù)，以得到第二初始多語言大模型。

10、在一些實(shí)施例中，優(yōu)化訓(xùn)練目標(biāo)包括增強(qiáng)多語言大模型對(duì)已支持舊語種的處理能力；所述優(yōu)化訓(xùn)練目標(biāo)所對(duì)應(yīng)的神經(jīng)元集合包括所述第一初始多語言大模型所支持的舊語種所對(duì)應(yīng)的關(guān)鍵神經(jīng)元集合。

11、在一些實(shí)施例中，根據(jù)所述優(yōu)化訓(xùn)練目標(biāo)對(duì)所述神經(jīng)元集合對(duì)應(yīng)的神經(jīng)元參數(shù)進(jìn)行預(yù)設(shè)處理，以得到第二初始多語言大模型，包括：

12、凍結(jié)所述第一初始多語言大模型所支持的舊語種所對(duì)應(yīng)的關(guān)鍵神經(jīng)元集合的相應(yīng)上下游權(quán)重參數(shù)，以得到第二初始多語言大模型。

13、在一些實(shí)施例中，根據(jù)所述優(yōu)化訓(xùn)練目標(biāo)對(duì)所述神經(jīng)元集合對(duì)應(yīng)的神經(jīng)元參數(shù)進(jìn)行預(yù)設(shè)處理，以得到第二初始多語言大模型，包括：

14、凍結(jié)所述第一初始多語言大模型所支持的舊語種之外的語種所對(duì)應(yīng)的關(guān)鍵神經(jīng)元集合的相應(yīng)上下游權(quán)重參數(shù)，以得到第二初始多語言大模型。

15、在一些實(shí)施例中，優(yōu)化訓(xùn)練目標(biāo)包括遺忘多語言大模型對(duì)已支持舊語種的處理能力；所述優(yōu)化訓(xùn)練目標(biāo)所對(duì)應(yīng)的神經(jīng)元集合包括所述第一初始多語言大模型中需要遺忘的舊語種所對(duì)應(yīng)的關(guān)鍵神經(jīng)元集合。

16、在一些實(shí)施例中，根據(jù)所述優(yōu)化訓(xùn)練目標(biāo)對(duì)所述神經(jīng)元集合對(duì)應(yīng)的神經(jīng)元參數(shù)進(jìn)行預(yù)設(shè)處理，以得到第二初始多語言大模型，包括：

17、置零所述第一初始多語言大模型中需要遺忘的舊語種所對(duì)應(yīng)的關(guān)鍵神經(jīng)元集合的相應(yīng)上下游權(quán)重參數(shù)，以得到第二初始多語言大模型。

18、第二方面，本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上的計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計(jì)算機(jī)程序以實(shí)現(xiàn)本申請(qǐng)任一實(shí)施例所述的多語言大模型優(yōu)化訓(xùn)練方法的步驟。

19、第三方面，本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序/指令，其特征在于，該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)本申請(qǐng)任一實(shí)施例所述的多語言大模型優(yōu)化訓(xùn)練方法的步驟。

20、第四方面，本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序/指令，其特征在于，該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)本申請(qǐng)任一實(shí)施例所述的多語言大模型優(yōu)化訓(xùn)練方法的步驟。

21、本申請(qǐng)?jiān)趯?duì)多語言大模型優(yōu)化訓(xùn)練時(shí)，先確定了優(yōu)化訓(xùn)練目標(biāo)所對(duì)應(yīng)的第一初始多語言大模型中神經(jīng)元集合，然后再根據(jù)優(yōu)化訓(xùn)練目標(biāo)對(duì)第一初始多語言大模型中對(duì)應(yīng)的神經(jīng)元參數(shù)進(jìn)行預(yù)設(shè)處理，最后才采用訓(xùn)練樣本集對(duì)多語言大模型進(jìn)行訓(xùn)練。通過預(yù)處理的步驟，使得采用訓(xùn)練樣本集對(duì)多語言大模型進(jìn)行訓(xùn)練時(shí)避免或者降低了對(duì)預(yù)處理所對(duì)應(yīng)神經(jīng)元參數(shù)產(chǎn)生影響，從而解決了現(xiàn)有技術(shù)中存在的“災(zāi)難性遺忘”的問題。

技術(shù)特征：

1.一種多語言大模型優(yōu)化訓(xùn)練方法，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述優(yōu)化訓(xùn)練目標(biāo)包括為多語言大模型增加新語種處理能力；所述優(yōu)化訓(xùn)練目標(biāo)所對(duì)應(yīng)的神經(jīng)元集合包括所述第一初始多語言大模型所支持的多種語言所對(duì)應(yīng)的關(guān)鍵神經(jīng)元集合。

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述優(yōu)化訓(xùn)練目標(biāo)包括增強(qiáng)多語言大模型對(duì)已支持舊語種的處理能力；所述優(yōu)化訓(xùn)練目標(biāo)所對(duì)應(yīng)的神經(jīng)元集合包括所述第一初始多語言大模型所支持的舊語種所對(duì)應(yīng)的關(guān)鍵神經(jīng)元集合。

5.根據(jù)權(quán)利要求4所述的方法，其特征在于，

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述優(yōu)化訓(xùn)練目標(biāo)包括遺忘多語言大模型對(duì)已支持舊語種的處理能力；所述優(yōu)化訓(xùn)練目標(biāo)所對(duì)應(yīng)的神經(jīng)元集合包括所述第一初始多語言大模型中需要遺忘的舊語種所對(duì)應(yīng)的關(guān)鍵神經(jīng)元集合。

7.根據(jù)權(quán)利要求6所述的方法，其特征在于，

8.一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上的計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計(jì)算機(jī)程序以實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述方法的步驟。

9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序/指令，其特征在于，該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述方法的步驟。

10.一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序/指令，其特征在于，該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述方法的步驟。

技術(shù)總結(jié)
本申請(qǐng)公開一種多語言大模型優(yōu)化訓(xùn)練方法、電子設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品，該方法包括：獲取第一初始多語言大模型所支持的多種語言的多語言數(shù)據(jù)集；將多語言數(shù)據(jù)集中的至少一種語言數(shù)據(jù)輸入至第一初始多語言大模型以確定優(yōu)化訓(xùn)練目標(biāo)所對(duì)應(yīng)的神經(jīng)元集合；根據(jù)優(yōu)化訓(xùn)練目標(biāo)對(duì)所述神經(jīng)元集合對(duì)應(yīng)的神經(jīng)元參數(shù)進(jìn)行預(yù)設(shè)處理，以得到第二初始多語言大模型；采用優(yōu)化訓(xùn)練目標(biāo)所對(duì)應(yīng)的訓(xùn)練樣本集對(duì)第二初始多語言大模型進(jìn)行訓(xùn)練。本申請(qǐng)結(jié)合優(yōu)化訓(xùn)練目標(biāo)所對(duì)應(yīng)神經(jīng)元集合對(duì)多語言大模型優(yōu)化訓(xùn)練，解決了現(xiàn)有技術(shù)中存在的災(zāi)難性遺忘的問題，提升了模型的訓(xùn)練效率。

技術(shù)研發(fā)人員：陳露,俞凱,曾泓川,韓森宇
受保護(hù)的技術(shù)使用者：上海交通大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳露,俞凱,曾泓川,韓森宇
技術(shù)所有人：上海交通大學(xué)
我是此專利的發(fā)明人

上一篇：一種落錘式彎沉檢測(cè)車的制作方法
上一篇：鞘流阻抗計(jì)數(shù)裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

多語言大模型優(yōu)化訓(xùn)練方法、電子設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品

多語言大模型優(yōu)化訓(xùn)練方法、電子設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品