本發(fā)明涉及異常檢測(cè),特別是涉及一種面向高性能計(jì)算系統(tǒng)的異常檢測(cè)方法及系統(tǒng)。
背景技術(shù):
1、現(xiàn)代高性能計(jì)算系統(tǒng)在社會(huì)和科學(xué)領(lǐng)域的各種數(shù)據(jù)密集型應(yīng)用中發(fā)揮著至關(guān)重要的作用,這些系統(tǒng)通常由大量的計(jì)算結(jié)點(diǎn)通過(guò)高帶寬、低延遲的網(wǎng)絡(luò)相互連接而組成,形成一個(gè)集群或超級(jí)計(jì)算機(jī)。每個(gè)結(jié)點(diǎn)都配有多個(gè)處理器核心和顯著的內(nèi)存容量。然而,高度動(dòng)態(tài)的作業(yè)調(diào)度和緊密耦合的系統(tǒng)交互使得計(jì)算結(jié)點(diǎn)的異常更加常見,有時(shí)會(huì)導(dǎo)致系統(tǒng)范圍內(nèi)的崩潰。因此,異常檢測(cè)在系統(tǒng)管理中對(duì)于識(shí)別異常行為結(jié)點(diǎn)和提高系統(tǒng)穩(wěn)定性至關(guān)重要。
2、目前高性能計(jì)算系統(tǒng)中的各種異常檢測(cè)方法大致可分為三組:有監(jiān)督方法、半監(jiān)督方法和無(wú)監(jiān)督方法。
3、有監(jiān)督方法:tpds18和albadross利用特征提取和特征選擇技術(shù)對(duì)從高性能計(jì)算系統(tǒng)中收集到的監(jiān)控指標(biāo)進(jìn)行處理。然后,訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)分類器來(lái)檢測(cè)不同的性能異常。這些方法需要使用有標(biāo)記的數(shù)據(jù)來(lái)進(jìn)行包含正常樣本和異常樣本的訓(xùn)練。然而,這需要廣泛的領(lǐng)域知識(shí)和專家的標(biāo)注成本,這往往是耗時(shí)和昂貴的。因此,這些方法應(yīng)用于大規(guī)模高性能計(jì)算系統(tǒng)具有挑戰(zhàn)性。
4、半監(jiān)督方法:proctor和examon采用自編碼器進(jìn)行異常檢測(cè)。proctor學(xué)習(xí)隱藏層特征后通過(guò)有監(jiān)督分類器來(lái)檢測(cè)異常。而examon結(jié)合了重構(gòu)誤差和分類概率的結(jié)果。與有監(jiān)督方法相比,這些方法只需要相對(duì)較少的標(biāo)注數(shù)據(jù)和大量的未標(biāo)注數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練。然而,這一限制限制了對(duì)異常樣本的建模能力。
5、無(wú)監(jiān)督方法:isc’20采用貝葉斯高斯混合模型和馬氏距離來(lái)擬合高斯分布。ruad利用長(zhǎng)短期記憶網(wǎng)絡(luò)捕獲時(shí)間依賴性。prodigy是一種基于變分自編碼器的異常檢測(cè)框架。然而,這些方法需要長(zhǎng)時(shí)間數(shù)據(jù)來(lái)訓(xùn)練模型,不適合及時(shí)的異常檢測(cè)。這在高性能計(jì)算系統(tǒng)中并不有效,因?yàn)橛?jì)算結(jié)點(diǎn)進(jìn)行頻繁和動(dòng)態(tài)地作業(yè)切換,導(dǎo)致缺乏足夠的相應(yīng)數(shù)據(jù)。此外,它們需要為每個(gè)計(jì)算結(jié)點(diǎn)訓(xùn)練特定的深度模型,而不是采用通用的設(shè)置,從而導(dǎo)致額外的存儲(chǔ)和調(diào)度需求。
6、考慮到高性能計(jì)算系統(tǒng)中異常檢測(cè)的復(fù)雜性和重要性,計(jì)算結(jié)點(diǎn)在作業(yè)執(zhí)行和空閑等待之間表現(xiàn)出顯著的模式差異。在作業(yè)執(zhí)行過(guò)程中,計(jì)算結(jié)點(diǎn)有具有不同模式的段,以及具有相似模式的段。這種現(xiàn)象通常在其他結(jié)點(diǎn)甚至跨結(jié)點(diǎn)中觀察到。高性能計(jì)算系統(tǒng)的自動(dòng)異常檢測(cè)一直是多年來(lái)人們關(guān)注的一個(gè)重要課題?,F(xiàn)有的方法不能區(qū)分不同結(jié)點(diǎn)在不同狀態(tài)下所表現(xiàn)出的不同模式。此外,一些方法通過(guò)對(duì)所有計(jì)算結(jié)點(diǎn)訓(xùn)練模型進(jìn)行推廣,不能準(zhǔn)確地適應(yīng)每個(gè)結(jié)點(diǎn)的特定模式。它們通常從不同的片段中提取相同的特征。這忽略了監(jiān)控指標(biāo)的時(shí)間信息,不能實(shí)現(xiàn)實(shí)時(shí)地檢測(cè)。此外,為每個(gè)結(jié)點(diǎn)訓(xùn)練一個(gè)模型也變得不切實(shí)際。因?yàn)楝F(xiàn)代高性能計(jì)算系統(tǒng)由大量的計(jì)算結(jié)點(diǎn)組成。這些觀察結(jié)果和局限性表明,通過(guò)聚類相似和可重復(fù)的模式和訓(xùn)練共享模型,有可能減少開銷。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問(wèn)題之一。
2、為此,本發(fā)明提出了一種面向高性能計(jì)算系統(tǒng)的異常檢測(cè)方法,能夠快速、準(zhǔn)確地檢測(cè)出高性能計(jì)算系統(tǒng)的計(jì)算結(jié)點(diǎn)是否存在異常。
3、本發(fā)明的另一個(gè)目的在于提出一種面向高性能計(jì)算系統(tǒng)的異常檢測(cè)系統(tǒng)。
4、本發(fā)明的第三個(gè)目的在于提出一種計(jì)算機(jī)設(shè)備。
5、本發(fā)明的第四個(gè)目的在于提出一種非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
6、為達(dá)上述目的,本發(fā)明一方面提出一種面向高性能計(jì)算系統(tǒng)的異常檢測(cè)方法,包括:
7、獲取計(jì)算系統(tǒng)中計(jì)算結(jié)點(diǎn)對(duì)應(yīng)的監(jiān)控指標(biāo)切分后的數(shù)據(jù)片段;
8、提取所述數(shù)據(jù)片段的特征向量,并對(duì)所述特征向量進(jìn)行聚類得到聚類簇;
9、利用所述數(shù)據(jù)片段中靠近聚類簇質(zhì)心的部分?jǐn)?shù)據(jù)片段訓(xùn)練共享模型,以得到訓(xùn)練好的共享模型;
10、利用提取的實(shí)時(shí)的監(jiān)控指標(biāo)的特征與聚類簇進(jìn)行模式匹配,并根據(jù)模式匹配結(jié)果利用訓(xùn)練好的共享模型檢測(cè)目標(biāo)結(jié)點(diǎn)中的異常數(shù)據(jù)以得到異常數(shù)據(jù)檢測(cè)結(jié)果。
11、本發(fā)明實(shí)施例的面向高性能計(jì)算系統(tǒng)的異常檢測(cè)方法還可以具有以下附加技術(shù)特征:
12、在本發(fā)明的一個(gè)實(shí)施例中,獲取計(jì)算系統(tǒng)中計(jì)算結(jié)點(diǎn)對(duì)應(yīng)的監(jiān)控指標(biāo)切分后的數(shù)據(jù)片段,包括:
13、對(duì)計(jì)算系統(tǒng)中計(jì)算結(jié)點(diǎn)的原始監(jiān)控指標(biāo)進(jìn)行數(shù)據(jù)清洗得到清洗后數(shù)據(jù);
14、對(duì)清洗后數(shù)據(jù)進(jìn)行數(shù)據(jù)聚合得到聚合監(jiān)控指標(biāo);
15、對(duì)所述聚合監(jiān)控指標(biāo)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化得到標(biāo)準(zhǔn)化數(shù)據(jù);
16、確定結(jié)點(diǎn)的狀態(tài)轉(zhuǎn)換點(diǎn),并將每個(gè)狀態(tài)轉(zhuǎn)換點(diǎn)之間的標(biāo)準(zhǔn)化數(shù)據(jù)作為獨(dú)立的數(shù)據(jù)片段。
17、在本發(fā)明的一個(gè)實(shí)施例中,利用提取的實(shí)時(shí)的監(jiān)控指標(biāo)的特征與聚類簇進(jìn)行模式匹配,包括:
18、獲取計(jì)算系統(tǒng)中計(jì)算結(jié)點(diǎn)對(duì)應(yīng)的實(shí)時(shí)的監(jiān)控指標(biāo);
19、在結(jié)點(diǎn)狀態(tài)轉(zhuǎn)換后的預(yù)設(shè)時(shí)間段內(nèi)提取實(shí)時(shí)的監(jiān)控指標(biāo)的特征數(shù)據(jù);其中,所述特征數(shù)據(jù),包括統(tǒng)計(jì)域、時(shí)間域和光譜域特征;
20、計(jì)算所述特征數(shù)據(jù)和目前的聚類簇質(zhì)心之間的距離,以匹配聚類簇最相似的模式得到模式匹配結(jié)果。
21、在本發(fā)明的一個(gè)實(shí)施例中,所述監(jiān)控指標(biāo),包括系統(tǒng)層面指標(biāo)、應(yīng)用層面指標(biāo)、網(wǎng)絡(luò)層面指標(biāo);其中,所述系統(tǒng)層面指標(biāo),包括cpu使用率、內(nèi)存使用率、磁盤i/o、磁盤空間、網(wǎng)絡(luò)流量、進(jìn)程狀態(tài)和系統(tǒng)負(fù)載;
22、所述應(yīng)用層面指標(biāo),包括響應(yīng)時(shí)間、錯(cuò)誤率、事務(wù)吞吐量和資源使用情況;
23、所述網(wǎng)絡(luò)層面指標(biāo),包括丟包率、延遲時(shí)間、連接數(shù)和帶寬利用率。
24、在本發(fā)明的一個(gè)實(shí)施例中,利用所述數(shù)據(jù)片段中靠近聚類簇質(zhì)心的部分?jǐn)?shù)據(jù)片段訓(xùn)練共享模型,包括:
25、利用基于共享的混合專家網(wǎng)層構(gòu)建深度學(xué)習(xí)共享模型;其中,所述混合專家網(wǎng)層,包括由多個(gè)表示為專家網(wǎng)絡(luò)的前饋網(wǎng)絡(luò)層和門控單元;
26、將數(shù)據(jù)片段中靠近聚類簇質(zhì)心的部分?jǐn)?shù)據(jù)片段作為訓(xùn)練數(shù)據(jù)輸入深度學(xué)習(xí)共享模型,并通過(guò)門控單元利用激活函數(shù)確定分配給每個(gè)專家網(wǎng)絡(luò)以處理傳入令牌的權(quán)重,以根據(jù)令牌的處理權(quán)重將數(shù)據(jù)分配對(duì)應(yīng)的專家網(wǎng)絡(luò)進(jìn)行處理,以訓(xùn)練深度學(xué)習(xí)共享模型。
27、在本發(fā)明的一個(gè)實(shí)施例中,所述方法,還包括:
28、將計(jì)算結(jié)點(diǎn)的實(shí)時(shí)的監(jiān)控指標(biāo)作為輸入數(shù)據(jù)輸入訓(xùn)練好的共享模型生成重構(gòu)數(shù)據(jù);
29、將輸入數(shù)據(jù)與重構(gòu)數(shù)據(jù)之間的重構(gòu)誤差表示輸入的實(shí)時(shí)的監(jiān)控指標(biāo)接近正常行為的概率即異常分?jǐn)?shù);利用加權(quán)均方誤差計(jì)算異常分?jǐn)?shù):
30、
31、其中,m是監(jiān)控指標(biāo)的維數(shù),wi是第i維監(jiān)控指標(biāo)分配的權(quán)重,利用平均絕對(duì)變化衡量數(shù)據(jù)的穩(wěn)定性:
32、
33、其中,t為數(shù)據(jù)點(diǎn)的數(shù)量,xt為第t個(gè)觀測(cè)值;根據(jù)每個(gè)聚類簇的訓(xùn)練數(shù)據(jù)計(jì)算每維監(jiān)控指標(biāo)的平均絕對(duì)變化以得到分配的權(quán)重。
34、在本發(fā)明的一個(gè)實(shí)施例中,所述方法,還包括沿著時(shí)間軸定義滑動(dòng)窗口,當(dāng)所述異常分?jǐn)?shù)超過(guò)k-sigma的上界時(shí),則判斷數(shù)據(jù)點(diǎn)為異常;其中,k是控制異常分?jǐn)?shù)閾值靈敏度的預(yù)定義參數(shù)。
35、為達(dá)上述目的,本發(fā)明另一方面提出一種面向高性能計(jì)算系統(tǒng)的異常檢測(cè)系統(tǒng),包括:
36、片段切分模塊,用于獲取計(jì)算系統(tǒng)中計(jì)算結(jié)點(diǎn)對(duì)應(yīng)的監(jiān)控指標(biāo)切分后的數(shù)據(jù)片段;
37、特征聚類模塊,用于提取所述數(shù)據(jù)片段的特征向量,并對(duì)所述特征向量進(jìn)行聚類得到聚類簇;
38、模型訓(xùn)練模塊,用于利用所述數(shù)據(jù)片段中靠近聚類簇質(zhì)心的部分?jǐn)?shù)據(jù)片段訓(xùn)練共享模型,以得到訓(xùn)練好的共享模型;
39、異常檢測(cè)模塊,用于利用提取的實(shí)時(shí)的監(jiān)控指標(biāo)的特征與聚類簇進(jìn)行模式匹配,并根據(jù)模式匹配結(jié)果利用訓(xùn)練好的共享模型檢測(cè)目標(biāo)結(jié)點(diǎn)中的異常數(shù)據(jù)以得到異常數(shù)據(jù)檢測(cè)結(jié)果。
40、本發(fā)明實(shí)施例的面向高性能計(jì)算系統(tǒng)的異常檢測(cè)方法和系統(tǒng),能夠快速、準(zhǔn)確地檢測(cè)出高性能計(jì)算系統(tǒng)計(jì)算結(jié)點(diǎn)是否存在異常。該方法以一種創(chuàng)新的方式整合了片段聚類、transformer和混合專家模型架構(gòu)。這種獨(dú)特的組合提高了框架的可伸縮性和效率,同時(shí)顯著提高了其異常檢測(cè)精度和泛化能力。
41、為達(dá)上述目的,本技術(shù)第三方面實(shí)施例提出了一種計(jì)算機(jī)設(shè)備,包括:處理器和存儲(chǔ)器;其中,所述處理器通過(guò)讀取所述存儲(chǔ)器中存儲(chǔ)的可執(zhí)行程序代碼來(lái)運(yùn)行與所述可執(zhí)行程序代碼對(duì)應(yīng)的程序,以用于實(shí)現(xiàn)如第一方面實(shí)施例所述的面向高性能計(jì)算系統(tǒng)的異常檢測(cè)方法。
42、為達(dá)上述目的,本技術(shù)第四方面實(shí)施例提出了一種非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面實(shí)施例所述的面向高性能計(jì)算系統(tǒng)的異常檢測(cè)方法。
43、本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。