本發(fā)明涉及計算系統(tǒng)資源狀態(tài)監(jiān)控,具體涉及一種異構人工智能一體機的資源狀態(tài)監(jiān)控系統(tǒng)及方法。
背景技術:
1、隨著人工智能技術的飛速發(fā)展,異構人工智能一體機在各個領域得到了廣泛應用。這些一體機集成了多種關鍵模塊,如芯片模塊用于進行復雜的運算處理,通信模塊實現(xiàn)數(shù)據(jù)的快速傳輸,存儲模塊負責數(shù)據(jù)的存儲,輸入輸出模塊滿足與用戶的交互以及數(shù)據(jù)的展示,供電模塊為整個設備提供穩(wěn)定的電力支持。
2、然而,在實際應用過程中,如何有效地監(jiān)控和管理這些一體機的資源狀態(tài)成為了一個關鍵問題。目前現(xiàn)有的監(jiān)控技術存在諸多不足,例如無法全面地對芯片使用率、芯片負載狀態(tài)、運行時間、磁盤讀寫狀態(tài)、磁盤讀寫速度、可用內存容量、通信連接數(shù)、通信速度、任務數(shù)量、設備計算量和計算速度等多種關鍵資源狀態(tài)信息進行準確監(jiān)控。
3、傳統(tǒng)的監(jiān)控系統(tǒng)往往只能監(jiān)測單一模塊或者部分關鍵指標,難以形成一個全面的資源狀態(tài)監(jiān)控體系。這導致無法準確了解一體機的整體運行狀況,難以在資源利用不合理時進行及時有效的調整和優(yōu)化。例如,當芯片負載過高而其他模塊資源閑置時,無法快速有效地進行資源調配,可能導致一體機性能下降,影響任務的執(zhí)行效率和質量。
4、同時,現(xiàn)有的分析手段也較為有限,無法對監(jiān)控到的數(shù)據(jù)進行深入的元分析和計算,難以將資源狀態(tài)數(shù)據(jù)與硬件和軟件使用參數(shù)進行精準對比,也就無法為一體機的資源狀態(tài)優(yōu)化提供有力的數(shù)據(jù)支持和決策依據(jù)。而且,許多監(jiān)控系統(tǒng)在運行過程中會占用一體機的設備硬件資源,影響一體機本身的性能和算力,進一步降低了一體機的工作效率。
5、因此,迫切需要一種能夠全面、高效且不影響一體機自身性能的資源狀態(tài)監(jiān)控系統(tǒng)及方法,以實現(xiàn)對異構人工智能一體機的精細化管理和優(yōu)化。
技術實現(xiàn)思路
1、發(fā)明目的:針對現(xiàn)有技術的不足,本發(fā)明提供一種異構人工智能一體機的資源狀態(tài)監(jiān)控系統(tǒng)及方法,對一體機的資源狀態(tài)進行監(jiān)控和分析,提升異構人工智能一體機的計算性能和運行穩(wěn)定性。
2、技術方案:第一方面,提供一種異構人工智能一體機的資源狀態(tài)監(jiān)控系統(tǒng),所述人工智能一體機包括芯片模塊、通信模塊、存儲模塊、輸入輸出模塊和供電模塊,所述監(jiān)控系統(tǒng)包括資源監(jiān)控模塊、數(shù)據(jù)分析模塊和調用模塊,所述資源監(jiān)控模塊用于對所述人工智能一體機的芯片模塊、通信模塊和存儲模塊進行資源狀態(tài)數(shù)據(jù)狀態(tài)監(jiān)控,同時用于根據(jù)資源狀態(tài)數(shù)據(jù)生成數(shù)據(jù)大模型,并提供數(shù)據(jù)直觀化展示通道;所述數(shù)據(jù)分析模塊用于對所述數(shù)據(jù)監(jiān)控模塊監(jiān)控的資源狀態(tài)數(shù)據(jù)進行整合分析,同時用于后續(xù)人工智能一體化機的資源狀態(tài)優(yōu)化;所述調用模塊用于根據(jù)數(shù)據(jù)分析模塊的分析結果對人工智能一體機的芯片模塊、通信模塊和存儲模塊資源狀態(tài)進行實時的調節(jié)調用。
3、進一步的,所述資源監(jiān)控模塊包括數(shù)據(jù)采集端口、數(shù)據(jù)收集模塊、數(shù)據(jù)調用模塊、數(shù)據(jù)模型生成模塊和數(shù)據(jù)模型處理模塊;所述數(shù)據(jù)采集端口用于對所述人工智能一體機物理狀態(tài)和運行資源狀態(tài)數(shù)據(jù)進行采集傳輸;所述數(shù)據(jù)收集模塊用于將所述數(shù)據(jù)采集端口傳輸?shù)臄?shù)據(jù)進行數(shù)據(jù)收集,并且進行短暫的存儲;所述數(shù)據(jù)調用模塊用于將所述數(shù)據(jù)收集模塊收集存儲的數(shù)據(jù)進行調用,調用數(shù)據(jù)中監(jiān)控的關鍵數(shù)據(jù);所述數(shù)據(jù)模型生成模塊用于將所述數(shù)據(jù)調用模塊輸入的關鍵資源狀態(tài)數(shù)據(jù),建立資源狀態(tài)的數(shù)據(jù)大模型;所述數(shù)據(jù)模型處理模塊用于將建立的數(shù)據(jù)大模型進行直觀數(shù)據(jù)化處理,方便用戶資源狀態(tài)更直觀地查看。
4、進一步的,所述人工智能一體機物理狀態(tài)包括:設備溫度、環(huán)境濕度、供電電壓中的一項或多項;所述人工智能一體機運行資源狀態(tài)數(shù)據(jù)包括;芯片使用率、芯片負載狀態(tài)、運行時間、磁盤讀寫狀態(tài)、磁盤讀寫速度、可用內存容量、通信連接數(shù)、通信速度、任務數(shù)量、設備計算量和計算速度中的一項或多項。
5、進一步的,所述數(shù)據(jù)采集端口對人工智能一體機物理狀態(tài)的監(jiān)測是通過讀取設置在人工智能一體機關鍵位置處的溫度傳感器、濕度傳感器或電壓傳感器上送的信號來完成的。
6、進一步的,所述數(shù)據(jù)采集端口對人工智能一體機運行資源狀態(tài)數(shù)據(jù)的監(jiān)測包括:
7、對于芯片使用率的采集,數(shù)據(jù)采集端口通過與芯片內置的性能監(jiān)測寄存器或相關的系統(tǒng)管理接口進行連接通信,定期讀取這些寄存器中的數(shù)據(jù),并根據(jù)預設的算法計算出芯片在一定時間內的實際工作時間與總時間的比值,從而得出芯片使用率;
8、對于芯片負載狀態(tài)的監(jiān)測,利用芯片提供的負載監(jiān)測接口或者通過監(jiān)測芯片的電源電流和電壓變化來間接判斷負載狀態(tài),數(shù)據(jù)采集端口連接到芯片的電源管理電路部分,通過電流和電壓傳感器實時監(jiān)測芯片工作時的電流和電壓波動情況,根據(jù)預設的電流和電壓閾值范圍來判斷芯片的負載狀態(tài);
9、對于運行時間的采集,數(shù)據(jù)采集端口與芯片的系統(tǒng)時鐘模塊進行連接,讀取芯片的系統(tǒng)時間信息,在人工智能一體機啟動時,數(shù)據(jù)采集端口記錄下啟動時間,并在后續(xù)的每個采集周期中,通過與當前時間的差值計算出芯片的運行時間;
10、對于磁盤讀寫狀態(tài)的監(jiān)測,數(shù)據(jù)采集端口與磁盤控制器進行通信,通過讀取磁盤控制器的狀態(tài)寄存器,了解磁盤的讀寫狀態(tài);
11、對于磁盤讀寫速度的測量,數(shù)據(jù)采集端口通過記錄一段時間內磁盤讀寫的數(shù)據(jù)量,并除以時間間隔來計算磁盤讀寫速度;
12、對于可用內存容量的監(jiān)測,數(shù)據(jù)采集端口與內存管理單元進行連接,通過讀取內存管理單元的相關寄存器,獲取內存使用情況的數(shù)據(jù),并計算出可用內存容量;
13、對于通信連接數(shù)的統(tǒng)計,數(shù)據(jù)采集端口與通信模塊進行交互,通過讀取通信模塊的連接狀態(tài)寄存器或者相關的統(tǒng)計數(shù)據(jù)接口,獲取通信連接數(shù)的數(shù)據(jù);
14、對于通信速度的監(jiān)測,數(shù)據(jù)采集端口通過分析一段時間內通信模塊傳輸?shù)臄?shù)據(jù)量來計算通信速度;
15、對于任務數(shù)量的統(tǒng)計,數(shù)據(jù)采集端口通過與操作系統(tǒng)的任務管理模塊進行通信,定期查詢任務管理模塊,獲取任務數(shù)量的數(shù)據(jù);
16、對于設備計算量的監(jiān)測,數(shù)據(jù)采集端口通過分析芯片在一段時間內處理的數(shù)據(jù)量和執(zhí)行的計算指令數(shù)量來估算設備計算量;
17、對于計算速度的測量,數(shù)據(jù)采集端口通過記錄完成一定計算任務所需的時間來計算計算速度。
18、進一步的,所述數(shù)據(jù)模型模塊建立大數(shù)據(jù)模型的過程如下:
19、將數(shù)據(jù)進行匯總,獲取通過數(shù)據(jù)采集端口采集的狀態(tài)數(shù)據(jù),并根據(jù)不同的計算任務類型分類收集計算數(shù)據(jù);
20、按照數(shù)據(jù)的類型進行分類,將狀態(tài)數(shù)據(jù)和計算數(shù)據(jù)分別歸類整理;
21、運用數(shù)據(jù)建模技術,根據(jù)分類后的數(shù)據(jù)特點和相互之間的關聯(lián)關系,構建數(shù)據(jù)模型的基本框架,將不同類型的數(shù)據(jù)用不用的數(shù)據(jù)結構進行存儲;
22、通過屬性分析,為數(shù)據(jù)模型添加屬性標簽和索引,以便能夠快速查看在不同屬性上的同類型數(shù)據(jù)分布情況,便于統(tǒng)計不同特征的數(shù)據(jù)總量。
23、進一步的,所述數(shù)據(jù)分析模塊包括元分析模塊、數(shù)據(jù)對比模塊和數(shù)據(jù)存儲模塊;所述元分析模塊用于對所述人工智能一體機資源狀態(tài)數(shù)據(jù)進行深度的元分析和計算;所述數(shù)據(jù)對比模塊用于將深度分析計算的資源狀態(tài)數(shù)據(jù)對現(xiàn)有執(zhí)行的硬件和軟件使用參數(shù)進行對比;所述數(shù)據(jù)存儲模塊用于將深度分析和計算的結果進行存儲,方便后續(xù)所述人工智能一體機在相同計算時,快速地調用資源狀態(tài)的分配數(shù)據(jù)。
24、進一步的,所述元分析模塊對所述人工智能一體機資源狀態(tài)數(shù)據(jù)進行深度的元分析和計算包括:
25、輸入元分析模塊的數(shù)據(jù)主要包括人工智能一體機在運行過程中的各項關鍵數(shù)據(jù),包括運行計算量、計算進度、計算量內容、計算速度和計算種類;
26、元分析模塊以人工智能一體機的運行計算量為基礎,統(tǒng)計計算內容利用人工智能一體機芯片的實際利用率,根據(jù)多組的計算進度、計算量內容、計算速度和計算種類進行分配計算內容所需的核心利用率的評估;根據(jù)不同的任務特征和當前的計算狀態(tài),綜合分析并計算出在保證各個計算任務順利進行的前提下,芯片應該分配給每個任務的最佳資源比例,即核心利用率;最終輸出人工智能一體機計算過程中當前計算量所需的硬件和軟件更優(yōu)調用參數(shù)。
27、進一步的,所述資源監(jiān)控模塊和數(shù)據(jù)分析模塊均采用硬件混合納管技術,利用分布式計算實現(xiàn)資源監(jiān)控和數(shù)據(jù)分析。
28、第二方面,提供一種異構人工智能一體機的資源狀態(tài)監(jiān)控方法,所述人工智能一體機包括芯片模塊、通信模塊、存儲模塊、輸入輸出模塊和供電模塊,所述人工智能一體機連接有資源監(jiān)控模塊、數(shù)據(jù)分析模塊、調用模塊,人工智能一體機對輸入的數(shù)據(jù)進行任務計算;所述資源監(jiān)控模塊包括數(shù)據(jù)采集端口、數(shù)據(jù)收集模塊、數(shù)據(jù)調用模塊、數(shù)據(jù)模型生成模塊和數(shù)據(jù)模型處理模塊;所述數(shù)據(jù)分析模塊包括元分析模塊、數(shù)據(jù)對比模塊和數(shù)據(jù)存儲模塊;所述方法包括:
29、人工智能一體機通過輸入輸出模塊的輸入端口,將所需計算運行的軟件和數(shù)據(jù)輸入到人工智能一體機內;人工智能一體機的芯片模塊、通信模塊和存儲模塊對數(shù)據(jù)進行計算或軟件進行運行,運行過程中產(chǎn)生不同的硬件資源利用,資源監(jiān)控模塊對人工智能一體機的資源狀態(tài)信息包括芯片使用率、芯片負載狀態(tài)、運行時間、磁盤讀寫狀態(tài)、磁盤讀寫速度、可用內存容量、通信連接數(shù)、通信速度、任務數(shù)量、設備計算量和計算速度進行資源狀態(tài)的監(jiān)控,監(jiān)控數(shù)據(jù)通過數(shù)據(jù)采集端口被采集到資源監(jiān)控模塊中,然后資源狀態(tài)數(shù)據(jù)輸送到數(shù)據(jù)收集模塊,數(shù)據(jù)收集模塊將所采集的資源狀態(tài)數(shù)據(jù)進行短暫的存儲,此時通過數(shù)據(jù)調用模塊,將采集的資源狀態(tài)數(shù)據(jù)中關鍵數(shù)據(jù)進行調用傳輸?shù)綌?shù)據(jù)模型生成模塊內,數(shù)據(jù)模型生成模塊將資源狀態(tài)數(shù)據(jù)生成數(shù)據(jù)大模型,并生成直觀的圖像數(shù)據(jù),方便用戶的查看,隨后生成的數(shù)據(jù)傳輸?shù)綌?shù)據(jù)模型處理模塊,然后數(shù)據(jù)模型處理模塊將模型數(shù)據(jù)生成處理數(shù)據(jù),之后傳輸?shù)綌?shù)據(jù)分析模塊中;數(shù)據(jù)分析模塊中的元分析模塊,通過對數(shù)據(jù)進行分析計算,得到異常值,之后利用數(shù)據(jù)比對模塊對此次計算運行的資源狀態(tài)異常值進行比對,比對后生成更適合本次人工智能一體機運行所需的資源分配狀態(tài),隨后將此數(shù)據(jù)反饋到人工智能一體機內,人工智能一體機調用不同的芯片,用于更適配此次計算或是軟件運行的芯片。
30、有益效果:和現(xiàn)有技術相比,本發(fā)明具有以下有益效果:
31、1、監(jiān)控全面性
32、多模塊詳細監(jiān)控:
33、本發(fā)明能夠對人工智能一體機的芯片模塊、通信模塊和存儲模塊進行全方位的資源狀態(tài)數(shù)據(jù)狀態(tài)監(jiān)控。例如,在芯片模塊方面,不僅可以監(jiān)測芯片使用率和芯片負載狀態(tài),還能關注到運行時間等細微但關鍵的指標,這有助于精確掌握芯片的工作情況,及時發(fā)現(xiàn)潛在的性能瓶頸。
34、對于通信模塊,能夠詳細監(jiān)控通信連接數(shù)和通信速度,確保數(shù)據(jù)傳輸?shù)姆€(wěn)定性和高效性。例如在大規(guī)模數(shù)據(jù)傳輸?shù)膱鼍跋?,如高清視頻流的實時傳輸或大規(guī)模數(shù)據(jù)文件的下載,能夠準確評估通信模塊的負載情況,以便及時調整數(shù)據(jù)傳輸策略,避免因通信擁堵導致的數(shù)據(jù)傳輸延遲或丟失。
35、在存儲模塊方面,不僅關注磁盤讀寫狀態(tài),還能精確監(jiān)測磁盤讀寫速度和可用內存容量,這對于需要頻繁讀寫數(shù)據(jù)的應用程序(如數(shù)據(jù)庫管理系統(tǒng)或視頻編輯軟件)至關重要,可以根據(jù)這些詳細的監(jiān)控數(shù)據(jù)優(yōu)化數(shù)據(jù)存儲和讀取策略,提高整體系統(tǒng)性能。
36、輸入輸出模塊監(jiān)控納入:
37、本發(fā)明還將輸入輸出模塊納入監(jiān)控范圍,包括數(shù)據(jù)輸入模塊、圖像輸出模塊、文字輸出模塊和音頻輸出模塊。這使得在監(jiān)控過程中能夠全面了解一體機與用戶交互的情況,例如在一些需要實時響應的應用場景中,如虛擬現(xiàn)實交互系統(tǒng)或在線語音識別系統(tǒng),可以根據(jù)輸入輸出模塊的資源狀態(tài)數(shù)據(jù),調整系統(tǒng)資源分配,確保用戶體驗的流暢性。
38、例如,當檢測到大量數(shù)據(jù)輸入或高分辨率圖像輸出需求時,可以動態(tài)調整資源分配,優(yōu)先保障輸入輸出模塊的性能,避免因資源不足導致的卡頓或延遲。
39、2、數(shù)據(jù)處理與分析能力
40、先進的數(shù)據(jù)模型生成與處理:
41、本發(fā)明的資源監(jiān)控模塊具有獨特的數(shù)據(jù)模型生成和處理能力。通過數(shù)據(jù)模型生成模塊,能夠將關鍵資源狀態(tài)數(shù)據(jù)建立為資源狀態(tài)的數(shù)據(jù)大模型。這個大模型能夠整合多個模塊的復雜數(shù)據(jù)關系,例如將芯片使用率、通信速度和磁盤讀寫速度等數(shù)據(jù)進行關聯(lián)分析,以便更全面地了解一體機的整體運行狀態(tài)。
42、數(shù)據(jù)模型處理模塊能夠將建立的數(shù)據(jù)大模型進行直觀數(shù)據(jù)化處理,方便用戶更直觀地查看資源狀態(tài)。例如,以圖表的形式展示資源使用趨勢、模塊之間的資源分配比例等,使管理員能夠快速準確地理解和評估一體機的資源狀況,從而做出更科學的決策。
43、深度元分析與對比:
44、數(shù)據(jù)分析模塊中的元分析模塊能夠對資源狀態(tài)數(shù)據(jù)進行深度的元分析和計算。這種深度分析可以挖掘數(shù)據(jù)背后的隱藏模式和潛在問題,例如通過對一段時間內的資源狀態(tài)數(shù)據(jù)進行時間序列分析,發(fā)現(xiàn)某些周期性的資源使用高峰或低谷,以便提前做好資源調配準備。
45、數(shù)據(jù)對比模塊能夠將深度分析計算的資源狀態(tài)數(shù)據(jù)與現(xiàn)有執(zhí)行的硬件和軟件使用參數(shù)進行對比,這為資源優(yōu)化提供了精準的依據(jù)。例如,當發(fā)現(xiàn)實際資源使用情況與軟件設計的最佳資源配置存在差異時,可以針對性地調整軟件參數(shù)或硬件資源分配,以實現(xiàn)最佳的性能表現(xiàn)。
46、3、資源優(yōu)化能力
47、實時資源調用與優(yōu)化:
48、本發(fā)明的人工智能一體機配備了調用模塊,能夠將芯片模塊、通信模塊和存儲模塊資源狀態(tài)進行實時的調節(jié)調用。例如,當檢測到某個任務需要大量計算資源時,可以動態(tài)地將更多的芯片資源分配給該任務;當網(wǎng)絡通信負載較高時,可以調整通信模塊的參數(shù)以提高通信效率。
49、通過數(shù)據(jù)分析模塊提供的優(yōu)化建議,能夠實現(xiàn)人工智能一體機的使用資源狀態(tài)優(yōu)化。例如,根據(jù)數(shù)據(jù)分析結果,自動調整任務調度策略,將資源優(yōu)先分配給關鍵任務或用戶優(yōu)先級較高的任務,從而提高整體系統(tǒng)的運行效率和響應速度。
50、不占用一體機設備硬件資源:
51、本發(fā)明的資源監(jiān)控模塊和數(shù)據(jù)分析模塊均采用硬件混合納管技術,利用分布式計算實現(xiàn)資源監(jiān)控和數(shù)據(jù)分析,完全不占用人工智能一體機的設備硬件。這與傳統(tǒng)監(jiān)控系統(tǒng)相比,極大地減少了對一體機本身性能的影響。
52、例如,在一些資源有限的應用場景中,如嵌入式人工智能設備或小型邊緣計算一體機,傳統(tǒng)監(jiān)控系統(tǒng)可能會因為占用設備硬件資源而導致一體機性能下降,影響其正常運行。而本發(fā)明的這種設計可以確保一體機在進行資源監(jiān)控和分析的同時,仍然能夠保持高效的運算能力和響應速度。
53、4、云計算支持下的高效算力保障
54、算力獨立的數(shù)據(jù)分析:
55、元分析模塊采用云計算方式,使數(shù)據(jù)分析模塊在對人工智能一體機資源狀態(tài)的監(jiān)控分析時,不會占用人工智能一體機本身的算力。這意味著一體機可以將全部算力集中用于執(zhí)行用戶任務,保證了一體機在進行復雜計算任務時的性能穩(wěn)定性。
56、例如,在進行大規(guī)模數(shù)據(jù)訓練或實時智能推理等需要大量算力的應用場景中,傳統(tǒng)監(jiān)控系統(tǒng)可能會因為與一體機共享算力而導致計算任務延遲或性能下降。而本發(fā)明的云計算支持的數(shù)據(jù)分析模塊可以在不影響一體機算力的情況下,快速完成資源狀態(tài)數(shù)據(jù)的分析和處理,為一體機的資源優(yōu)化提供及時的支持。
57、快速資源調用響應:
58、云計算的支持還使得數(shù)據(jù)分析模塊能夠快速處理大量的資源狀態(tài)數(shù)據(jù),并根據(jù)分析結果及時提供資源優(yōu)化建議。例如,在應對突發(fā)的高負載任務時,云計算可以迅速分析一體機的資源狀況,并指導調用模塊進行快速的資源調配,確保一體機能夠在最短的時間內適應任務需求的變化,提高系統(tǒng)的可靠性和靈活性。