本發(fā)明涉及驅(qū)動管理,尤其是涉及一種異構(gòu)算力設(shè)備的驅(qū)動管理方法及裝置、介質(zhì)、設(shè)備。
背景技術(shù):
1、近些年來,隨著人工智能的發(fā)展以及各種云邊設(shè)備的發(fā)展,各種異構(gòu)設(shè)備應用也越來越廣泛,例如,各種圖形處理器gpu的使用,同時隨著容器技術(shù)的發(fā)展以及容器編排系統(tǒng)kubernetes的發(fā)展,各種異構(gòu)設(shè)備也被應用到了容器中,容器技術(shù)解決了異構(gòu)設(shè)備的應用調(diào)度問題。其中,異構(gòu)設(shè)備是指多個不同種類設(shè)備的集合,比如各種不同的計算設(shè)備,不同類型的gpu、cpu等。但是使用異構(gòu)設(shè)備的前提是在宿主機上安裝對應的驅(qū)動,而對于驅(qū)動的管理目前是一塊相對空缺的領(lǐng)域,更多的靠人工或者腳本部署,效率低下。
技術(shù)實現(xiàn)思路
1、針對以上至少一個技術(shù)問題,本發(fā)明實施例提供一種異構(gòu)算力設(shè)備的驅(qū)動管理方法及裝置、介質(zhì)、設(shè)備。
2、第一方面,本發(fā)明實施例提供的異構(gòu)算力設(shè)備的驅(qū)動管理方法由部署在控制節(jié)點上的控制器執(zhí)行,所述方法包括:
3、對異構(gòu)算力設(shè)備的自定義驅(qū)動資源進行監(jiān)聽;其中,所述自定義驅(qū)動資源為基于預先定義的自定義驅(qū)動資源模板而創(chuàng)建;
4、當監(jiān)聽到所述自定義驅(qū)動資源發(fā)生變更時,確定目標節(jié)點;所述變更包括創(chuàng)建、刪除、擴容、縮容和升級中的一種;
5、根據(jù)預先定義的自定義驅(qū)動實例資源模板,生成節(jié)點級別的自定義驅(qū)動實例資源或者對相節(jié)點級別的自定義驅(qū)動實例資源進行標記處理,以觸發(fā)所述目標節(jié)點上部署的執(zhí)行器執(zhí)行相應的動作,并將執(zhí)行結(jié)果上報至所述控制器;
6、在接收到所述執(zhí)行結(jié)果時,對所述目標節(jié)點上的自定義驅(qū)動實例資源的狀態(tài)進行展示。
7、在一個實施例中,所述自定義驅(qū)動資源模板中包括:自定義驅(qū)動資源的類型、異構(gòu)算力設(shè)備的名稱、自定義驅(qū)動資源的命名空間、驅(qū)動版本、針對自定義驅(qū)動資源而選擇的節(jié)點和安裝驅(qū)動所需要的鏡像;
8、和/或,所述自定義驅(qū)動實例資源模板中包括:自定義驅(qū)動實例資源的類型、包括異構(gòu)算力設(shè)備的名稱和節(jié)點名稱的自定義驅(qū)動實例名稱、自定義驅(qū)動實例資源的命名空間、驅(qū)動版本、自定義驅(qū)動實例資源的節(jié)點和安裝驅(qū)動所需要的鏡像。
9、在一個實施例中,所述當監(jiān)聽到所述自定義驅(qū)動資源發(fā)生變更時,確定目標節(jié)點,包括:若所述變更為創(chuàng)建,則將所述自定義驅(qū)動資源中定義的所述針對自定義驅(qū)動資源而選擇的各個節(jié)點均作為所述目標節(jié)點;對應的,所述根據(jù)預先定義的自定義驅(qū)動實例資源模板,生成節(jié)點級別的自定義驅(qū)動實例資源或者對相節(jié)點級別的自定義驅(qū)動實例資源進行標記處理,以觸發(fā)所述目標節(jié)點上部署的執(zhí)行器執(zhí)行相應的動作,包括:生成節(jié)點級別的自定義驅(qū)動實例資源,以觸發(fā)所述目標節(jié)點上部署的執(zhí)行器在所述目標節(jié)點上部署所述節(jié)點級別的自定義驅(qū)動實例資源,以實現(xiàn)在所述目標節(jié)點上創(chuàng)建所述節(jié)點級別的自定義驅(qū)動實例資源;
10、和/或,所述當監(jiān)聽到所述自定義驅(qū)動資源發(fā)生變更時,確定目標節(jié)點,包括:若所述變更為擴容,則將所述自定義驅(qū)動資源中定義的所述針對自定義驅(qū)動資源而選擇的節(jié)點中的新增節(jié)點作為所述目標節(jié)點;對應的,所述根據(jù)預先定義的自定義驅(qū)動實例資源模板,生成節(jié)點級別的自定義驅(qū)動實例資源或者對相節(jié)點級別的自定義驅(qū)動實例資源進行標記處理,以觸發(fā)所述目標節(jié)點上部署的執(zhí)行器執(zhí)行相應的動作,包括:生成節(jié)點級別的自定義驅(qū)動實例資源,以觸發(fā)所述目標節(jié)點上部署的執(zhí)行器在所述目標節(jié)點上部署所述節(jié)點級別的自定義驅(qū)動實例資源,以實現(xiàn)對所述節(jié)點級別的自定義驅(qū)動實例資源的擴容。
11、在一個實施例中,所述執(zhí)行器在進行部署操作或者擴容操作之前,對異構(gòu)算力設(shè)備的類型、型號、cpu架構(gòu)和操作系統(tǒng)進行自動匹配操作,在自動匹配成功后,執(zhí)行相應的部署或擴容操作。
12、在一個實施例中,所述當監(jiān)聽到所述自定義驅(qū)動資源發(fā)生變更時,確定目標節(jié)點,包括:
13、若所述變更為縮容,則將所述自定義驅(qū)動資源中定義的所述針對自定義驅(qū)動資源而選擇的節(jié)點中的減少節(jié)點作為所述目標節(jié)點;
14、對應的,所述根據(jù)預先定義的自定義驅(qū)動實例資源模板,生成節(jié)點級別的自定義驅(qū)動實例資源或者對相節(jié)點級別的自定義驅(qū)動實例資源進行標記處理,以觸發(fā)所述目標節(jié)點上部署的執(zhí)行器執(zhí)行相應的動作,包括:
15、對所述目標節(jié)點上的節(jié)點級別的自定義驅(qū)動實例資源進行縮容標記,以觸發(fā)所述目標節(jié)點上部署的執(zhí)行器刪除所述目標節(jié)點上的所述節(jié)點級別的自定義驅(qū)動實例資源,以實現(xiàn)所述節(jié)點級別的自定義驅(qū)動實例資源的縮容。
16、在一個實施例中,所述當監(jiān)聽到所述自定義驅(qū)動資源發(fā)生變更時,確定目標節(jié)點,包括:
17、若所述變更為刪除,則將所述自定義驅(qū)動資源中定義的所述針對自定義驅(qū)動資源而選擇的節(jié)點中需要刪除的節(jié)點作為所述目標節(jié)點;
18、對應的,所述根據(jù)預先定義的自定義驅(qū)動實例資源模板,生成節(jié)點級別的自定義驅(qū)動實例資源或者對相節(jié)點級別的自定義驅(qū)動實例資源進行標記處理,以觸發(fā)所述目標節(jié)點上部署的執(zhí)行器執(zhí)行相應的動作,包括:
19、對所述目標節(jié)點上的節(jié)點級別的自定義驅(qū)動實例資源進行刪除標記,以觸發(fā)所述目標節(jié)點上部署的執(zhí)行器刪除所述目標節(jié)點上的所述節(jié)點級別的自定義驅(qū)動實例資源。
20、在一個實施例中,所述當監(jiān)聽到所述自定義驅(qū)動資源發(fā)生變更時,確定目標節(jié)點,包括:
21、若所述變更為升級,則將所述自定義驅(qū)動資源中定義的所述針對自定義驅(qū)動資源而選擇的節(jié)點中需要升級的節(jié)點作為所述目標節(jié)點;
22、對應的,所述根據(jù)預先定義的自定義驅(qū)動實例資源模板,生成節(jié)點級別的自定義驅(qū)動實例資源或者對相節(jié)點級別的自定義驅(qū)動實例資源進行標記處理,以觸發(fā)所述目標節(jié)點上部署的執(zhí)行器執(zhí)行相應的動作,包括:
23、對所述目標節(jié)點上的節(jié)點級別的自定義驅(qū)動實例資源進行升級標記,以觸發(fā)所述目標節(jié)點上部署的執(zhí)行器對所述目標節(jié)點上的所述節(jié)點級別的自定義驅(qū)動實例資源進行升級操作。
24、根據(jù)第二方面,本發(fā)明實施例提供的異構(gòu)算力設(shè)備的驅(qū)動管理裝置部署在控制節(jié)點上的控制器上,所述裝置包括:
25、資源監(jiān)聽模塊,用于對異構(gòu)算力設(shè)備的自定義驅(qū)動資源進行監(jiān)聽;其中,所述自定義驅(qū)動資源為基于預先定義的自定義驅(qū)動資源模板而創(chuàng)建;
26、目標確定模塊,用于當監(jiān)聽到所述自定義驅(qū)動資源發(fā)生變更時,確定目標節(jié)點;所述變更包括創(chuàng)建、刪除、擴容、縮容和升級中的一種;
27、實例處理模塊,用于根據(jù)預先定義的自定義驅(qū)動實例資源模板,生成節(jié)點級別的自定義驅(qū)動實例資源或者對相節(jié)點級別的自定義驅(qū)動實例資源進行標記處理,以觸發(fā)所述目標節(jié)點上部署的執(zhí)行器執(zhí)行相應的動作,并將執(zhí)行結(jié)果上報至所述控制器;
28、狀態(tài)展示模塊,用于在接收到所述執(zhí)行結(jié)果時,對所述目標節(jié)點上的自定義驅(qū)動實例資源的狀態(tài)進行展示。
29、根據(jù)第三方面,本發(fā)明實施例提供計算機可讀存儲介質(zhì),其上存儲有計算機程序,當所述計算機程序在計算機中執(zhí)行時,令計算機執(zhí)行實現(xiàn)第一方面提供的方法。
30、根據(jù)第四方面,本發(fā)明實施例提供的計算設(shè)備,包括存儲器和處理器,所述存儲器中存儲有可執(zhí)行代碼,所述處理器執(zhí)行所述可執(zhí)行代碼時,實現(xiàn)第一方面提供的方法。
31、本發(fā)明實施例提供的異構(gòu)算力設(shè)備的驅(qū)動管理方法及裝置、介質(zhì)、設(shè)備,控制器對異構(gòu)算力設(shè)備的自定義驅(qū)動資源進行監(jiān)聽,當監(jiān)聽到所述自定義驅(qū)動資源發(fā)生變更時,確定目標節(jié)點,然后生成節(jié)點級別的自定義驅(qū)動實例資源或者對相節(jié)點級別的自定義驅(qū)動實例資源進行標記處理,這樣所述目標節(jié)點上部署的執(zhí)行器執(zhí)行相應的動作,并將執(zhí)行結(jié)果上報至所述控制器,進而控制器會對所述目標節(jié)點上的自定義驅(qū)動實例資源的狀態(tài)進行展示??梢?,本發(fā)明實施例通過自定義資源的方式對異構(gòu)算力設(shè)備的驅(qū)動資源進行管理,從而實現(xiàn)驅(qū)動的自動變更,相對于靠人工或者腳本部署的傳統(tǒng)方式,本發(fā)明實施例可以提高運維及管理效率。