亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

分布式計算系統(tǒng)的訓練方法、裝置、程序產品及介質與流程

文檔序號:40405758發(fā)布日期:2024-12-20 12:29閱讀:7來源:國知局
分布式計算系統(tǒng)的訓練方法、裝置、程序產品及介質與流程

本發(fā)明涉及分布式計算系統(tǒng)領域,特別涉及一種分布式計算系統(tǒng)的訓練方法、裝置、程序產品及介質。


背景技術:

1、隨著對訓練數據規(guī)模和模型參數的不斷探索,深度學習模型在計算機視覺、自然語言處理和自動駕駛等領域得到了廣泛應用。然而,單機訓練的內存和計算能力常常無法滿足需求,因此,基于多機多卡的分布式訓練模式成為主流策略。這種模式通過多個計算工作者協同合作,加速模型訓練。

2、盡管許多優(yōu)秀的分布式深度學習框架已被提出,它們通常假設計算節(jié)點是同構的,即性能和硬件特性相同。然而,實際訓練場景中,各計算節(jié)點表現出顯著的異構性,導致計算能力、內存能力和硬件特性差異明顯。這種異構性不僅影響計算能力,還涉及計算節(jié)點間的通信帶寬差異,尤其是在不同網絡設備和層級中,通信效率往往低下。

3、傳統(tǒng)的整體同步訓練方法要求所有異構的計算節(jié)點保持相同的迭代步調,導致速度較快的計算節(jié)點需等待較慢的計算節(jié)點,這種“拖累者效應”使訓練過程受到最慢節(jié)點的制約,顯著降低訓練速度。可見,異構的計算節(jié)點的性能差異通常會造成資源閑置,且異構的計算節(jié)點之間的頻繁通信也會降低訓練效率。在處理這種訓練過程時,計算節(jié)點(也即實體硬件設備,如服務器或服務器中的cpu(central?processing?unit,中央處理器)/gpu(graphics?processing?unit,圖形處理器))面臨資源利用不均衡和效率低下的問題。此外,較快的計算節(jié)點在等待時無法有效降低功耗,可能導致額外的功耗和熱量產生,從而增加硬件負擔,影響長期穩(wěn)定性和可靠性。同時,頻繁的數據傳輸和冗余交換增加了網絡帶寬的占用和延遲,進一步增大了計算節(jié)點的通信開銷。

4、因此,需要提出一種面向異構分布式計算系統(tǒng)的優(yōu)化方案,該方案應充分考慮各節(jié)點的性能差異,同時考慮異構的計算節(jié)點的計算與通信能力,以提升計算節(jié)點的資源利用率和運行效率,減小計算節(jié)點的通信開銷。


技術實現思路

1、本發(fā)明的目的是提供一種分布式計算系統(tǒng)的訓練方法、裝置、程序產品及介質,不僅優(yōu)化了訓練過程的整體效率,還避免了計算節(jié)點之間的相互等待,計算節(jié)點在運行此訓練過程時,降低了功耗和熱量產生,也降低了通信開銷,從而提高了計算節(jié)點的長期穩(wěn)定性和可靠性。

2、一方面,本技術提供了一種分布式計算系統(tǒng)的訓練方法,應用于分布式計算系統(tǒng),所述分布式計算系統(tǒng)包括多個異構的計算節(jié)點,所述分布式計算系統(tǒng)的訓練方法包括:獲取每個所述計算節(jié)點的計算能力;根據每個所述計算節(jié)點的計算能力為每個所述計算節(jié)點分配目標模型的訓練任務,所述訓練任務的任務量與所述計算能力呈正相關;確定每個所述計算節(jié)點執(zhí)行和自身對應的訓練任務的單次迭代時長;根據每個所述計算節(jié)點對應的單次迭代時長確定每個所述計算節(jié)點在通信間隔時間內的迭代次數;每隔所述通信間隔時間,獲取每個所述計算節(jié)點完成各自迭代次數后的局部模型參數,并根據全部所述局部模型參數確定全局模型參數,直至滿足迭代結束條件。

3、其中,獲取每個所述計算節(jié)點的計算能力,包括:獲取每個所述計算節(jié)點的性能指標參數;根據所述性能指標參數確定每個所述計算節(jié)點的第一能力參數;控制每個所述計算節(jié)點執(zhí)行預設測試任務,并根據每個所述計算節(jié)點執(zhí)行所述預設測試任務的測試結果確定第二能力參數;根據每個所述計算節(jié)點對應的所述第一能力參數和所述第二能力參數,確定每個所述計算節(jié)點的計算能力。

4、其中,所述性能指標參數包括浮點運算性能、內存帶寬、內存延遲、輸入/輸出吞吐率、錯誤率及單位能效中的一種或多種的組合;根據所述性能指標參數確定每個所述計算節(jié)點的第一能力參數,包括:獲取所述浮點運算性能、所述內存帶寬、所述內存延遲、所述輸入/輸出吞吐率、所述錯誤率分別對應的權重系數;根據所述浮點運算性能、所述內存帶寬、所述內存延遲、所述輸入/輸出吞吐率、所述錯誤率分別對應的權重系數、所述單位能效,確定所述第一能力參數;所述第一能力參數與所述浮點運算性能、所述內存帶寬、所述輸入/輸出吞吐率、所述單位能效呈正相關,所述第一能力參數與所述內存延遲和所述錯誤率呈負相關。

5、其中,根據所述浮點運算性能、所述內存帶寬、所述內存延遲、所述輸入/輸出吞吐率、所述錯誤率分別對應的權重系數、所述單位能效,確定所述第一能力參數,包括:根據計算所述第一能力參數;com1為所述第一能力參數,c為所述浮點運算性能,為所述浮點運算性能的權重,m為所述內存帶寬,為所述內存帶寬的權重,io為所述輸入/輸出吞吐率,為所述輸入/輸出吞吐率的權重,d為所述內存延遲,為所述內存延遲的權重,et為所述錯誤率,為所述錯誤率的權重,w為所述單位能效。

6、其中,控制每個所述計算節(jié)點執(zhí)行預設測試任務,并根據每個所述計算節(jié)點執(zhí)行所述預設測試任務的測試結果確定第二能力參數,包括:控制每個所述計算節(jié)點執(zhí)行多次預設測試任務;統(tǒng)計所述計算節(jié)點執(zhí)行多次所述預設測試任務的運行時長和分類精度;根據所述運行時長和所述分類精度確定每個所述計算節(jié)點的單位精度,所述單位精度為所述第二能力參數。

7、其中,根據每個所述計算節(jié)點的計算能力為每個所述計算節(jié)點分配目標模型的訓練任務,包括:根據每個所述計算節(jié)點的計算能力確定每個所述計算節(jié)點的能力占比;根據每個所述計算節(jié)點的能力占比及所述目標模型的初始化樣本容量,確定分配給每個所述計算節(jié)點的樣本容量。

8、其中,還包括:獲取當前的網絡狀態(tài)參數,根據當前的所述網絡狀態(tài)參數實時調整所述通信間隔時間。

9、其中,獲取當前的網絡狀態(tài)參數,包括:監(jiān)測當前網絡的網絡延遲和/或丟包率,根據所述網絡延遲和/或所述丟包率確定當前的網絡擁塞程度,所述網絡狀態(tài)參數包括所述網絡擁塞程度。

10、其中,還包括:獲取每個所述訓練任務的優(yōu)先級;根據當前的所述網絡狀態(tài)參數實時調整所述通信間隔時間,包括:根據當前的所述網絡狀態(tài)參數、每個所述訓練任務的所述優(yōu)先級實時調整所述通信間隔時間。

11、其中,所述網絡狀態(tài)參數為網絡擁塞程度,根據當前的所述網絡狀態(tài)參數、每個所述訓練任務的所述優(yōu)先級實時調整所述通信間隔時間,包括:根據cit=cit0/(1+ncd+dtp)計算目標通信間隔時間,并將所述通信間隔時間更新為所述目標通信間隔時間;cit為所述目標通信間隔時間,cit0為更新前的初始通信間隔時間,ncd為所述網絡擁塞程度,dtp為所述優(yōu)先級。

12、其中,獲取每個所述訓練任務的優(yōu)先級,包括:獲取每個所述訓練任務的第一權重、第一評分、第二權重和第二評分,所述第一權重和所述第一評分用于表征所述訓練任務的重要程度,所述第二權重和所述第二評分用于表征所述訓練任務的緊迫程度;根據每個所述訓練任務對應的所述第一權重、所述第一評分、所述第二權重和所述第二評分,確定每個所述訓練任務的優(yōu)先級。

13、其中,根據每個所述訓練任務對應的所述第一權重、所述第一評分、所述第二權重和所述第二評分,確定每個所述訓練任務的優(yōu)先級,包括:根據dtp=wi·is+wu·us計算每個所述訓練任務的優(yōu)先級;dtp為所述優(yōu)先級,wi為所述第一權重,is為所述第一評分,wu為所述第二權重,us為所述第二評分。

14、另一方面,本技術提供了一種分布式計算系統(tǒng)的訓練裝置,包括:存儲器,用于存儲計算機程序;處理器,用于在執(zhí)行計算機程序時,實現上述所述的分布式計算系統(tǒng)的訓練方法的步驟。

15、另一方面,本技術提供了一種計算機程序產品,包括計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現上述所述分布式計算系統(tǒng)的訓練方法的步驟。

16、另一方面,本技術提供了一種非易失性存儲介質,所述非易失性存儲介質上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現上述所述的分布式計算系統(tǒng)的訓練方法的步驟。

17、本發(fā)明提供了一種分布式計算系統(tǒng)的訓練方法、裝置、程序產品及介質,用于解決異構計算節(jié)點性能差異和通信效率低下的問題。該方案通過充分考慮每個計算節(jié)點的計算能力,實現了任務的動態(tài)分配和迭代優(yōu)化;具體而言,通過獲取每個計算節(jié)點的計算能力并為其分配與之相匹配的訓練任務,避免了資源閑置和效率低下的問題;確定單次迭代時長并根據此調整通信間隔內的迭代次數,使得各計算節(jié)點可以在合適的時機進行數據交換,減少了頻繁通信帶來的網絡帶寬占用和延遲,不僅優(yōu)化了訓練過程的整體效率,還避免了計算節(jié)點之間的相互等待,硬件設備在運行此訓練過程時,降低了功耗和熱量產生,也降低了通信開銷,從而提高了硬件設備的長期穩(wěn)定性和可靠性。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1