亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

大語言模型推理優(yōu)化方法、裝置、電子設備及存儲介質(zhì)

文檔序號:40377949發(fā)布日期:2024-12-20 12:00閱讀:8來源:國知局
大語言模型推理優(yōu)化方法、裝置、電子設備及存儲介質(zhì)

本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種大語言模型推理優(yōu)化方法、裝置、電子設備及存儲介質(zhì)。


背景技術:

1、隨著大語言模型參數(shù)的急劇增加,導致所需顯存也呈現(xiàn)逐步增加趨勢,對計算和存儲資源的使用帶來了巨大挑戰(zhàn)。如今涌現(xiàn)的大語言模型,其參數(shù)已經(jīng)達到數(shù)十億甚至數(shù)萬億。在進行模型推理時,需要使用大量顯存來存儲模型權重以及中間計算結果。但不可否認的是,模型參數(shù)的增加對模型性能的提升以及復雜問題的解決均能帶來有益效果。由此可見,大模型推理和訓練時所消耗的巨大計算和存儲資源是一個不容忽視的問題。

2、針對大語言模型推理,當前主要圍繞模型壓縮、協(xié)作推理以及卸載策略這幾個方向來減少計算和存儲資源的消耗。模型壓縮旨在實現(xiàn)一定范圍內(nèi)確保模型性能前提下,通過減少模型參數(shù)或者簡化模型結構的方式,減少模型所需的計算和存儲資源。協(xié)作推理主要通過多個設備或者多個模型的合作,共同完成模型推理的任務,以減少單個設備與單個模型的負擔,達到減少整體資源消耗的目的。卸載策略方法的核心思想在于將集中于某一設備上的計算任務卸載至其他設備上進行,從而減少設備負載以及實現(xiàn)資源的高效分配。

3、上述幾種方式中,前兩種方式通常假設模型適應gpu內(nèi)存,因此難以僅使用單個消費級gpu運行參數(shù)量較大的模型。在第三種方式的最新系統(tǒng)中,由于i/o調(diào)度和張量放置的低效,無法在單個gpu上實現(xiàn)可接受的吞吐量。


技術實現(xiàn)思路

1、本發(fā)明提供了一種大語言模型推理優(yōu)化方法、裝置、電子設備及存儲介質(zhì),用于解決或部分解決現(xiàn)有相關技術中龐大的參數(shù)量導致模型推理對計算和存儲資源需求較大,如何降低大模型推理時需要的巨大資源的問題。

2、本發(fā)明提供了一種大語言模型推理優(yōu)化方法,所述方法包括:

3、實時獲取大語言模型在模型推理時的配置參數(shù)數(shù)據(jù)以及計算資源數(shù)據(jù);

4、對所述配置參數(shù)數(shù)據(jù)進行靜態(tài)優(yōu)化分析,輸出配置分析結果;

5、結合所述配置參數(shù)數(shù)據(jù)與所述配置分析結果進行基于強化學習的配置參數(shù)自動調(diào)優(yōu),獲得最優(yōu)參數(shù)配置;

6、對所述計算資源數(shù)據(jù)進行基于卸載策略的動態(tài)優(yōu)化處理,獲得最優(yōu)資源配置;

7、根據(jù)所述最優(yōu)參數(shù)配置與所述最優(yōu)資源配置,對所述大語言模型在模型推理時的參數(shù)配置以及資源分配進行動態(tài)優(yōu)化。

8、本發(fā)明還提供了一種大語言模型推理優(yōu)化裝置,包括:

9、數(shù)據(jù)獲取模塊,用于實時獲取大語言模型在模型推理時的配置參數(shù)數(shù)據(jù)以及計算資源數(shù)據(jù);

10、靜態(tài)優(yōu)化分析模塊,用于對所述配置參數(shù)數(shù)據(jù)進行靜態(tài)優(yōu)化分析,輸出配置分析結果;

11、配置參數(shù)自動調(diào)優(yōu)模塊,用于結合所述配置參數(shù)數(shù)據(jù)與所述配置分析結果進行基于強化學習的配置參數(shù)自動調(diào)優(yōu),獲得最優(yōu)參數(shù)配置;

12、動態(tài)優(yōu)化處理模塊,用于對所述計算資源數(shù)據(jù)進行基于卸載策略的動態(tài)優(yōu)化處理,獲得最優(yōu)資源配置;

13、模型推理優(yōu)化模塊,用于根據(jù)所述最優(yōu)參數(shù)配置與所述最優(yōu)資源配置,對所述大語言模型在模型推理時的參數(shù)配置以及資源分配進行動態(tài)優(yōu)化。

14、本發(fā)明還提供了一種電子設備,所述設備包括處理器以及存儲器:

15、所述存儲器用于存儲程序代碼,并將所述程序代碼傳輸給所述處理器;

16、所述處理器用于根據(jù)所述程序代碼中的指令執(zhí)行如上任一項所述的大語言模型推理優(yōu)化方法。

17、本發(fā)明還提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)用于存儲程序代碼,所述程序代碼用于執(zhí)行如上任一項所述的大語言模型推理優(yōu)化方法。

18、從以上技術方案可以看出,本發(fā)明具有以下優(yōu)點:

19、提供了一種大語言模型推理優(yōu)化方法。實時獲取大語言模型在模型推理時的配置參數(shù)數(shù)據(jù)以及計算資源數(shù)據(jù);對配置參數(shù)數(shù)據(jù)進行靜態(tài)優(yōu)化分析,輸出配置分析結果,以方便用戶對其中的部分參數(shù)進行修改來優(yōu)化大語言模型的推理性能;結合配置參數(shù)數(shù)據(jù)與配置分析結果進行基于強化學習的配置參數(shù)自動調(diào)優(yōu),獲得最優(yōu)參數(shù)配置,以對其中的部分配置參數(shù)作進一步優(yōu)化;對計算資源數(shù)據(jù)進行基于卸載策略的動態(tài)優(yōu)化處理,獲得最優(yōu)資源配置,以實現(xiàn)在硬件資源的約束下進行靈活配置;根據(jù)最優(yōu)參數(shù)配置與最優(yōu)資源配置,對大語言模型在模型推理時的參數(shù)配置以及資源分配進行動態(tài)優(yōu)化。通過本發(fā)明技術方案,不僅可以提高大模型推理時的吞吐量,實現(xiàn)對配置參數(shù)的自動調(diào)優(yōu)。還可以幫助用戶在后續(xù)模型推理時對某些配置參數(shù)進行調(diào)整來提高大模型推理過程的整體性能。



技術特征:

1.一種大語言模型推理優(yōu)化方法,其特征在于,包括:

2.根據(jù)權利要求1所述的大語言模型推理優(yōu)化方法,其特征在于,所述結合所述配置參數(shù)數(shù)據(jù)與所述配置分析結果進行基于強化學習的配置參數(shù)自動調(diào)優(yōu),獲得最優(yōu)參數(shù)配置,包括:

3.根據(jù)權利要求2所述的大語言模型推理優(yōu)化方法,其特征在于,所述系統(tǒng)管理和控制多臺服務器,每一臺所述服務器對應多個應用程序,所述方法還包括:

4.根據(jù)權利要求2所述的大語言模型推理優(yōu)化方法,其特征在于,所述對所述計算資源數(shù)據(jù)進行基于卸載策略的動態(tài)優(yōu)化處理,獲得最優(yōu)資源配置,包括:

5.根據(jù)權利要求4所述的大語言模型推理優(yōu)化方法,其特征在于,所述對所述圖遍歷問題進行多參數(shù)搜索求解,獲得卸載策略,包括:

6.根據(jù)權利要求4或5所述的大語言模型推理優(yōu)化方法,其特征在于,所述根據(jù)所述最優(yōu)參數(shù)配置與所述最優(yōu)資源配置,對所述大語言模型在模型推理時的參數(shù)配置以及資源分配進行動態(tài)優(yōu)化,包括:

7.根據(jù)權利要求1所述的大語言模型推理優(yōu)化方法,其特征在于,所述配置參數(shù)數(shù)據(jù)包括系統(tǒng)的gpu配置信息、所述大語言模型的模型配置信息與模型架構信息,所述對所述配置參數(shù)數(shù)據(jù)進行靜態(tài)優(yōu)化分析,輸出配置分析結果,包括:

8.一種大語言模型推理優(yōu)化裝置,其特征在于,包括:

9.一種電子設備,其特征在于,所述設備包括處理器以及存儲器:

10.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)用于存儲程序代碼,所述程序代碼用于執(zhí)行權利要求1-7任一項所述的大語言模型推理優(yōu)化方法。


技術總結
本發(fā)明公開了一種大語言模型推理優(yōu)化方法、裝置、電子設備及存儲介質(zhì),用于解決現(xiàn)有相關技術中龐大的參數(shù)量導致模型推理對計算和存儲資源需求較大,如何降低大模型推理時需要的巨大資源的問題。所述方法包括:實時獲取大語言模型在模型推理時的配置參數(shù)數(shù)據(jù)以及計算資源數(shù)據(jù);對配置參數(shù)數(shù)據(jù)進行靜態(tài)優(yōu)化分析,輸出配置分析結果;結合配置參數(shù)數(shù)據(jù)與配置分析結果進行基于強化學習的配置參數(shù)自動調(diào)優(yōu),獲得最優(yōu)參數(shù)配置;對計算資源數(shù)據(jù)進行基于卸載策略的動態(tài)優(yōu)化處理,獲得最優(yōu)資源配置;根據(jù)最優(yōu)參數(shù)配置與最優(yōu)資源配置,對大語言模型在模型推理時的參數(shù)配置以及資源分配進行動態(tài)優(yōu)化。

技術研發(fā)人員:陳鵬飛,何競凱,鄭子彬
受保護的技術使用者:中山大學
技術研發(fā)日:
技術公布日:2024/12/19
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1