本發(fā)明涉及it運維,尤其是涉及一種基于大模型的告警分類分級方法及裝置、介質(zhì)、設(shè)備。
背景技術(shù):
1、隨著信息技術(shù)的迅猛發(fā)展和企業(yè)對it系統(tǒng)的依賴性增加,it運維行業(yè)的重要性日益凸顯。it運維即it?operations是指對企業(yè)信息技術(shù)系統(tǒng)的運行、維護(hù)和優(yōu)化進(jìn)行管理的一系列活動,以確保系統(tǒng)的穩(wěn)定性、安全性和高效性。在it運維過程中,告警是一種常見的現(xiàn)象,告警指的是系統(tǒng)或應(yīng)用程序發(fā)生異常或故障時發(fā)出的警報。告警的目的是及時通知運維人員有關(guān)系統(tǒng)問題的信息,以便他們可以迅速采取行動解決問題,減少業(yè)務(wù)中斷和損失。然而,隨著it系統(tǒng)的復(fù)雜性和規(guī)模的增加,運維人員面臨著日益增長的告警數(shù)據(jù)量。這些告警數(shù)據(jù)可能包括系統(tǒng)監(jiān)控數(shù)據(jù)、日志文件、用戶反饋等多種類型,其數(shù)量之大和處理難度之高,使得傳統(tǒng)的告警處理方法已經(jīng)無法滿足現(xiàn)代it運維的需求。
2、傳統(tǒng)的告警處理方法主要依賴于人工經(jīng)驗,通過設(shè)置閾值和規(guī)則來觸發(fā)告警,并進(jìn)行人工的篩選和分類。這種方法存在一些問題。首先,人工處理效率低下,無法快速響應(yīng)大量的告警信息。其次,人工經(jīng)驗容易出現(xiàn)誤判和漏判,導(dǎo)致重要的告警被忽略或次要的告警被過度處理。
技術(shù)實現(xiàn)思路
1、針對以上至少一個技術(shù)問題,本發(fā)明實施例提供一種基于大模型的告警分類分級方法及裝置、介質(zhì)、設(shè)備。
2、根據(jù)第一方面,本發(fā)明實施例提供的基于大模型的告警分類分級方法包括:
3、獲取告警事件的告警數(shù)據(jù);
4、對所述告警數(shù)據(jù)進(jìn)行預(yù)處理;
5、從預(yù)處理后的告警數(shù)據(jù)中提取出告警特征;其中,所述告警特征中包括與告警分類分級相關(guān)的特征以及告警上下文特征;
6、將所述告警特征輸入至預(yù)先訓(xùn)練得到的告警分析大模型中,得到所述告警事件的分析結(jié)果;其中,所述告警事件的分析結(jié)果中包括所述告警事件的嚴(yán)重程度和影響范圍;
7、根據(jù)所述嚴(yán)重程度和所述影響范圍,確定所述告警事件的緊急程度;
8、根據(jù)所述與告警分類分級相關(guān)的特征,確定所述告警事件的類型;
9、將所述告警事件的類型和緊急程度返回至相關(guān)的運維人員。
10、在一個實施例中,所述對所述告警數(shù)據(jù)進(jìn)行預(yù)處理,包括:
11、對所述告警數(shù)據(jù)進(jìn)行清洗處理;其中,清洗方式包括去重、糾錯和填補缺失值中的至少一項;
12、對清洗處理后的告警數(shù)據(jù)中的文本數(shù)據(jù)轉(zhuǎn)換為數(shù)值數(shù)據(jù),并將清洗處理后的告警數(shù)據(jù)中的時間數(shù)據(jù)的格式轉(zhuǎn)換為統(tǒng)一格式;
13、將格式轉(zhuǎn)換后的告警數(shù)據(jù)歸一化到預(yù)設(shè)范圍;
14、將歸一化后的告警數(shù)據(jù)轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布形式;
15、將轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布形式的告警數(shù)據(jù)整理為表格或者向量。
16、在一個實施例中,所述將所述告警特征輸入至預(yù)先訓(xùn)練得到的告警分析大模型中之前,所述方法還包括如下至少一項:
17、從所述告警特征中進(jìn)行有效特征篩選,得到有效告警特征;
18、采用主成分分析方法或者線性判別分析方法,將所述告警特征進(jìn)行降維,得到降維后的告警特征;
19、對應(yīng)的,所述將所述告警特征輸入至預(yù)先訓(xùn)練得到的告警分析大模型,包括:將所述有效告警特征或者所述降維后的告警特征輸入至所述告警分析大模型中。
20、在一個實施例中,所述與告警分類分級相關(guān)的特征包括告警事件的類型、發(fā)生時間、持續(xù)時間和告警源中的至少一項;所述告警上下文特征包括系統(tǒng)負(fù)載、網(wǎng)絡(luò)流量和用戶行為中的至少一項。
21、在一個實施例中,所述告警分析大模型具體用于:若類型為物理機告警,則分析所述告警特征中的物理機信息,所述物理機信息包括硬件狀態(tài)和性能指標(biāo),并根據(jù)所述物理機信息輸出所述嚴(yán)重程度和所述影響范圍;若類型為虛機告警,則分析所述告警特征的虛機特征信息,所述虛機特征信息中包括虛擬化環(huán)境中的資源使用情況和網(wǎng)絡(luò)連接狀態(tài),并根據(jù)所述虛機特征信息輸出所述嚴(yán)重程度和所述影響范圍;若類型為服務(wù)組件告警,則分析所述告警特征的服務(wù)組件特征信息,所述服務(wù)組件特征信息包括性能指標(biāo)和故障狀態(tài),并根據(jù)所述服務(wù)組件特征信息輸出所述嚴(yán)重程度和所述影響范圍;若類型為應(yīng)用系統(tǒng)告警,則分析所述告警特征的應(yīng)用系統(tǒng)特征信息,所述應(yīng)用系統(tǒng)特征信息包括業(yè)務(wù)流程狀態(tài)和應(yīng)用程序性能,并根據(jù)所述應(yīng)用系統(tǒng)特征信息輸出所述嚴(yán)重程度和所述影響范圍。
22、在一個實施例中,所述告警分析大模型的訓(xùn)練過程包括:
23、從多種數(shù)據(jù)源采集多種類型告警事件的歷史告警數(shù)據(jù);
24、對所述歷史告警數(shù)據(jù)進(jìn)行預(yù)處理;
25、從預(yù)處理后的歷史告警數(shù)據(jù)中提取出歷史告警特征;
26、對每一個告警事件的歷史告警特征打標(biāo)簽,得到一條訓(xùn)練樣本;其中,標(biāo)簽內(nèi)容為該告警事件的的嚴(yán)重程度和影響范圍;
27、將多條訓(xùn)練樣本劃分為訓(xùn)練集和測試集;
28、基于告警事件特點,選擇匹配的模型算法;
29、利用所述訓(xùn)練集,在所述模型算法的基礎(chǔ)上進(jìn)行模型訓(xùn)練,得到收斂的所述告警分析大模型;
30、利用所述測試集對所述告警分析大模型進(jìn)行性能評估,并根據(jù)性能評估結(jié)果對所述告警分析大模型進(jìn)行調(diào)優(yōu),得到調(diào)優(yōu)后的告警分析大模型。
31、在一個實施例中,所述告警分析大模型為多個子模型融合后的大模型,所述子模型的模型算法包括決策樹算法、支持向量機算法、隨機森林算法和神經(jīng)網(wǎng)絡(luò)算法中的至少兩個。
32、根據(jù)第二方面,本發(fā)明實施例提供的基于大模型的告警分類分級裝置包括:
33、數(shù)據(jù)獲取模塊,用于獲取告警事件的告警數(shù)據(jù);
34、預(yù)處理模塊,用于對所述告警數(shù)據(jù)進(jìn)行預(yù)處理;
35、特征提取模塊,用于從預(yù)處理后的告警數(shù)據(jù)中提取出告警特征;其中,所述告警特征中包括與告警分類分級相關(guān)的特征以及告警上下文特征;
36、模型分析模塊,用于將所述告警特征輸入至預(yù)先訓(xùn)練得到的告警分析大模型中,得到所述告警事件的分析結(jié)果;其中,所述告警事件的分析結(jié)果中包括所述告警事件的嚴(yán)重程度和影響范圍;
37、分級確定模塊,用于根據(jù)所述嚴(yán)重程度和所述影響范圍,確定所述告警事件的緊急程度;
38、類型確定模塊,用于根據(jù)所述與告警分類分級相關(guān)的特征,確定所述告警事件的類型;
39、結(jié)果推送模塊,用于將所述告警事件的類型和緊急程度返回至相關(guān)的運維人員。
40、根據(jù)第三方面,本發(fā)明實施例提供計算機可讀存儲介質(zhì),其上存儲有計算機程序,當(dāng)所述計算機程序在計算機中執(zhí)行時,令計算機執(zhí)行實現(xiàn)第一方面提供的方法。
41、根據(jù)第四方面,本發(fā)明實施例提供的計算設(shè)備,包括存儲器和處理器,所述存儲器中存儲有可執(zhí)行代碼,所述處理器執(zhí)行所述可執(zhí)行代碼時,實現(xiàn)第一方面提供的方法。
42、本發(fā)明實施例提供的基于大模型的告警分類分級方法及裝置、介質(zhì)、設(shè)備,獲取告警事件的告警數(shù)據(jù),對所述告警數(shù)據(jù)進(jìn)行預(yù)處理,從預(yù)處理后的告警數(shù)據(jù)中提取出告警特征,進(jìn)而將所述告警特征輸入至告警分析大模型中,得到所述告警事件的分析結(jié)果,根據(jù)分析結(jié)果中的所述嚴(yán)重程度和所述影響范圍確定所述告警事件的緊急程度;從與告警分類分級相關(guān)的特征中得知所述告警事件的類型,最后將告警事件的類型和緊急程度返回至相關(guān)的運維人員。由于告警分析大模型可以自動處理大量數(shù)據(jù),運維團隊可以減少對告警數(shù)據(jù)的手動分析,減少人工干預(yù)的工作量,提高告警處理的效率?;诖竽P偷妮敵鲂畔⑦M(jìn)行告警分級,能夠更準(zhǔn)確地判斷告警事件的緊急程度,避免漏報和誤報的情況發(fā)生,大大提高運維處理的準(zhǔn)確性。由于告警分析大模型是基于大量數(shù)據(jù)訓(xùn)練得到的,它能夠更好地捕捉到告警數(shù)據(jù)中的復(fù)雜關(guān)系和潛在規(guī)律,從而提高告警分類分級的準(zhǔn)確性??傊?,本發(fā)明實施例利用了人工智能技術(shù)的優(yōu)勢,通過對告警數(shù)據(jù)進(jìn)行提取分析,并引入大模型技術(shù)實現(xiàn)告警的快速分級,有效提高運維處理的效率和準(zhǔn)確性。