本申請(qǐng)的實(shí)施例涉及人工智能,尤其涉及一種混合專家模型的優(yōu)化方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù):
1、模型優(yōu)化技術(shù)已廣泛應(yīng)用于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域中,旨在提高模型運(yùn)行性能、降低模型計(jì)算成本。隨著數(shù)據(jù)規(guī)模和模型復(fù)雜性的不斷增加,模型優(yōu)化技術(shù)日趨重要。
2、在模型優(yōu)化的過程中,相關(guān)技術(shù)大多基于反向傳播算法對(duì)每個(gè)參數(shù)進(jìn)行更新,以提升機(jī)器學(xué)習(xí)模型性能。上述方式存在模型優(yōu)化針對(duì)性差、耗時(shí)長以及效率低的問題。
技術(shù)實(shí)現(xiàn)思路
1、根據(jù)本申請(qǐng)的實(shí)施例,提供一種混合模型的優(yōu)化方案,能夠?qū)崿F(xiàn)靶向優(yōu)化模型以提高模型運(yùn)行性能,縮短模型優(yōu)化耗時(shí),提高模型優(yōu)化效率。
2、在本申請(qǐng)的第一方面,提供了一種混合專家模型的優(yōu)化方法。該方法包括:獲取模型的運(yùn)行參數(shù)信息;所述運(yùn)行參數(shù)信息包括:參數(shù)輸入數(shù)量信息、內(nèi)存占用信息、以及負(fù)載分布信息;根據(jù)運(yùn)行參數(shù)信息,執(zhí)行對(duì)應(yīng)的模型優(yōu)化策略以優(yōu)化模型。
3、在一些可行的實(shí)現(xiàn)方式中,模型包括:transformer架構(gòu),在參數(shù)輸入數(shù)量大于預(yù)設(shè)數(shù)量閾值的情況下,根據(jù)運(yùn)行參數(shù)信息,執(zhí)行對(duì)應(yīng)的模型優(yōu)化策略以優(yōu)化模型包括:替換模型原始編碼器層中的ffn層為moe層,生成目標(biāo)編碼器層以優(yōu)化模型,其中,目標(biāo)編碼器層包括:至少一個(gè)門控網(wǎng)絡(luò)和對(duì)應(yīng)的多個(gè)專家。
4、在一些可行的實(shí)現(xiàn)方式中,在內(nèi)存占用大于預(yù)設(shè)內(nèi)存占用閾值的情況下,根據(jù)運(yùn)行參數(shù)信息,執(zhí)行對(duì)應(yīng)的模型優(yōu)化策略以優(yōu)化模型包括:構(gòu)建權(quán)重改動(dòng)量;在模型的原始權(quán)重小于預(yù)設(shè)權(quán)重閾值的情況下,根據(jù)權(quán)重改動(dòng)量和原始權(quán)重,生成目標(biāo)權(quán)重;根據(jù)目標(biāo)權(quán)重,訓(xùn)練模型以使內(nèi)存占用小于或等于預(yù)設(shè)內(nèi)存占用閾值。
5、在一些可行的實(shí)現(xiàn)方式中,在模型的原始權(quán)重大于或等于預(yù)設(shè)權(quán)重閾值的情況下,上述方法還包括:拆解權(quán)重改動(dòng)量,生成第一矩陣和第二矩陣,其中,第一矩陣和第二矩陣的乘積等于原始權(quán)重;固定原始權(quán)重,訓(xùn)練第一矩陣的各項(xiàng)參數(shù)和/或第二矩陣的各項(xiàng)參數(shù)以使內(nèi)存占用小于或等于預(yù)設(shè)內(nèi)存占用閾值。
6、在一些可行的實(shí)現(xiàn)方式中,根據(jù)運(yùn)行參數(shù)信息,執(zhí)行對(duì)應(yīng)的模型優(yōu)化策略以優(yōu)化模型還包括:根據(jù)每個(gè)專家所接收的token數(shù),確定負(fù)載分布均衡度;在負(fù)載分布均衡度小于預(yù)設(shè)負(fù)載分布均衡度閾值的情況下,構(gòu)建損失函數(shù)以使負(fù)載分布均衡度大于或等于預(yù)設(shè)負(fù)載分布均衡度閾值;損失函數(shù)根據(jù)以下公式確定:
7、;
8、其中,為損失函數(shù),為平衡因子,為專家個(gè)數(shù),為分配給專家的token比例,?為在數(shù)據(jù)樣本barch中門控網(wǎng)絡(luò)分配給專家的路由系數(shù)的均值;
9、分配給專家的token比例根據(jù)以下公式確定:
10、;
11、其中,為分配給專家的token比例, ?為分配到專家的token個(gè)數(shù),為數(shù)據(jù)樣本barch中的token總數(shù);
12、在數(shù)據(jù)樣本barch中門控網(wǎng)絡(luò)分配給專家的路由系數(shù)的均值根據(jù)以下公式確定:
13、;
14、其中,為在數(shù)據(jù)樣本barch中門控網(wǎng)絡(luò)分配給專家的路由系數(shù)的均值, ?為數(shù)據(jù)樣本barch中的token總數(shù), ?為在數(shù)據(jù)樣本barch中門控網(wǎng)絡(luò)分配給專家的路由系數(shù)。
15、在一些可行的實(shí)現(xiàn)方式中,上述方法還包括:在門控網(wǎng)絡(luò)不可導(dǎo)的情況下,針對(duì)每個(gè)離散采樣數(shù)據(jù)生成對(duì)應(yīng)的gumbel噪音,以使數(shù)據(jù)采樣方式由離散采樣變更為連續(xù)采樣,其中,離散采樣的期望值與連續(xù)采樣的期望值相等;變更采樣函數(shù)為gumbel?softmax函數(shù),以使門控網(wǎng)絡(luò)可導(dǎo)。
16、在一些可行的實(shí)現(xiàn)方式中,上述方法還包括:預(yù)熱模型至目標(biāo)輪數(shù),以使模型習(xí)得目標(biāo)特征;拷貝模型的權(quán)重信息;拷貝預(yù)設(shè)次數(shù)ffn層,以作為多個(gè)專家,其中,預(yù)設(shè)次數(shù)等于多個(gè)專家的個(gè)數(shù);對(duì)應(yīng)于多個(gè)專家,插入門控網(wǎng)絡(luò);凍結(jié)其余參數(shù),訓(xùn)練門控網(wǎng)絡(luò)和專家以優(yōu)化模型。
17、在本申請(qǐng)的第二方面,提供了一種混合專家模型的優(yōu)化裝置,包括:獲取單元,用于獲取模型的運(yùn)行參數(shù)信息,其中,運(yùn)行參數(shù)信息包括:參數(shù)輸入數(shù)量信息、內(nèi)存占用信息、以及負(fù)載分布信息;執(zhí)行單元,用于根據(jù)運(yùn)行參數(shù)信息,執(zhí)行對(duì)應(yīng)的模型優(yōu)化策略以優(yōu)化模型。
18、在本申請(qǐng)的第三方面,提供了一種電子設(shè)備。該電子設(shè)備包括:存儲(chǔ)器和處理器,所述存儲(chǔ)器上存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如本申請(qǐng)的第一方面的方法。
19、在本申請(qǐng)的第四方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本申請(qǐng)的第一方面的方法。
20、本申請(qǐng)實(shí)施例提供的混合專家模型的優(yōu)化方法,通過獲取模型的運(yùn)行參數(shù)信息,其中,運(yùn)行參數(shù)信息包括:參數(shù)輸入數(shù)量信息、內(nèi)存占用信息、以及負(fù)載分布信息;根據(jù)運(yùn)行參數(shù)信息,執(zhí)行對(duì)應(yīng)的模型優(yōu)化策略以優(yōu)化模型,可以實(shí)現(xiàn)靶向優(yōu)化模型以提高模型運(yùn)行性能,縮短模型優(yōu)化耗時(shí),提高模型優(yōu)化效率。??應(yīng)當(dāng)理解,
技術(shù)實(shí)現(xiàn)要素:
部分中所描述的內(nèi)容并非旨在限定本申請(qǐng)的實(shí)施例的關(guān)鍵或重要特征,亦非用于限制本申請(qǐng)的范圍。本申請(qǐng)的其它特征將通過以下的描述變得容易理解。
1.一種混合專家模型的優(yōu)化方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述模型包括:transformer架構(gòu),在參數(shù)輸入數(shù)量大于預(yù)設(shè)數(shù)量閾值的情況下,所述根據(jù)所述運(yùn)行參數(shù)信息,執(zhí)行對(duì)應(yīng)的模型優(yōu)化策略以優(yōu)化所述模型包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,在內(nèi)存占用大于預(yù)設(shè)內(nèi)存占用閾值的情況下,所述根據(jù)所述運(yùn)行參數(shù)信息,執(zhí)行對(duì)應(yīng)的模型優(yōu)化策略以優(yōu)化所述模型包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述模型的原始權(quán)重大于或等于預(yù)設(shè)權(quán)重閾值的情況下,所述方法還包括:
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)所述運(yùn)行參數(shù)信息,執(zhí)行對(duì)應(yīng)的模型優(yōu)化策略以優(yōu)化所述模型還包括:
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,還包括:
7.根據(jù)權(quán)利要求2至6中任一項(xiàng)所述的方法,其特征在于,還包括:
8.一種混合模型優(yōu)化裝置,其特征在于,包括:
9.一種電子設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1~7中任一項(xiàng)所述的方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1~7中任一項(xiàng)所述的方法。