一種面向高性能計(jì)算系統(tǒng)的異常檢測(cè)方法及系統(tǒng)

文檔序號(hào)：40443077發(fā)布日期：2024-12-24 15:17閱讀：10來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及異常檢測(cè)，特別是涉及一種面向高性能計(jì)算系統(tǒng)的異常檢測(cè)方法及系統(tǒng)。

背景技術(shù)：

1、現(xiàn)代高性能計(jì)算系統(tǒng)在社會(huì)和科學(xué)領(lǐng)域的各種數(shù)據(jù)密集型應(yīng)用中發(fā)揮著至關(guān)重要的作用，這些系統(tǒng)通常由大量的計(jì)算結(jié)點(diǎn)通過(guò)高帶寬、低延遲的網(wǎng)絡(luò)相互連接而組成，形成一個(gè)集群或超級(jí)計(jì)算機(jī)。每個(gè)結(jié)點(diǎn)都配有多個(gè)處理器核心和顯著的內(nèi)存容量。然而，高度動(dòng)態(tài)的作業(yè)調(diào)度和緊密耦合的系統(tǒng)交互使得計(jì)算結(jié)點(diǎn)的異常更加常見，有時(shí)會(huì)導(dǎo)致系統(tǒng)范圍內(nèi)的崩潰。因此，異常檢測(cè)在系統(tǒng)管理中對(duì)于識(shí)別異常行為結(jié)點(diǎn)和提高系統(tǒng)穩(wěn)定性至關(guān)重要。

2、目前高性能計(jì)算系統(tǒng)中的各種異常檢測(cè)方法大致可分為三組：有監(jiān)督方法、半監(jiān)督方法和無(wú)監(jiān)督方法。

3、有監(jiān)督方法：tpds18和albadross利用特征提取和特征選擇技術(shù)對(duì)從高性能計(jì)算系統(tǒng)中收集到的監(jiān)控指標(biāo)進(jìn)行處理。然后，訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)分類器來(lái)檢測(cè)不同的性能異常。這些方法需要使用有標(biāo)記的數(shù)據(jù)來(lái)進(jìn)行包含正常樣本和異常樣本的訓(xùn)練。然而，這需要廣泛的領(lǐng)域知識(shí)和專家的標(biāo)注成本，這往往是耗時(shí)和昂貴的。因此，這些方法應(yīng)用于大規(guī)模高性能計(jì)算系統(tǒng)具有挑戰(zhàn)性。

4、半監(jiān)督方法：proctor和examon采用自編碼器進(jìn)行異常檢測(cè)。proctor學(xué)習(xí)隱藏層特征后通過(guò)有監(jiān)督分類器來(lái)檢測(cè)異常。而examon結(jié)合了重構(gòu)誤差和分類概率的結(jié)果。與有監(jiān)督方法相比，這些方法只需要相對(duì)較少的標(biāo)注數(shù)據(jù)和大量的未標(biāo)注數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練。然而，這一限制限制了對(duì)異常樣本的建模能力。

5、無(wú)監(jiān)督方法：isc’20采用貝葉斯高斯混合模型和馬氏距離來(lái)擬合高斯分布。ruad利用長(zhǎng)短期記憶網(wǎng)絡(luò)捕獲時(shí)間依賴性。prodigy是一種基于變分自編碼器的異常檢測(cè)框架。然而，這些方法需要長(zhǎng)時(shí)間數(shù)據(jù)來(lái)訓(xùn)練模型，不適合及時(shí)的異常檢測(cè)。這在高性能計(jì)算系統(tǒng)中并不有效，因?yàn)橛?jì)算結(jié)點(diǎn)進(jìn)行頻繁和動(dòng)態(tài)地作業(yè)切換，導(dǎo)致缺乏足夠的相應(yīng)數(shù)據(jù)。此外，它們需要為每個(gè)計(jì)算結(jié)點(diǎn)訓(xùn)練特定的深度模型，而不是采用通用的設(shè)置，從而導(dǎo)致額外的存儲(chǔ)和調(diào)度需求。

6、考慮到高性能計(jì)算系統(tǒng)中異常檢測(cè)的復(fù)雜性和重要性，計(jì)算結(jié)點(diǎn)在作業(yè)執(zhí)行和空閑等待之間表現(xiàn)出顯著的模式差異。在作業(yè)執(zhí)行過(guò)程中，計(jì)算結(jié)點(diǎn)有具有不同模式的段，以及具有相似模式的段。這種現(xiàn)象通常在其他結(jié)點(diǎn)甚至跨結(jié)點(diǎn)中觀察到。高性能計(jì)算系統(tǒng)的自動(dòng)異常檢測(cè)一直是多年來(lái)人們關(guān)注的一個(gè)重要課題?，F(xiàn)有的方法不能區(qū)分不同結(jié)點(diǎn)在不同狀態(tài)下所表現(xiàn)出的不同模式。此外，一些方法通過(guò)對(duì)所有計(jì)算結(jié)點(diǎn)訓(xùn)練模型進(jìn)行推廣，不能準(zhǔn)確地適應(yīng)每個(gè)結(jié)點(diǎn)的特定模式。它們通常從不同的片段中提取相同的特征。這忽略了監(jiān)控指標(biāo)的時(shí)間信息，不能實(shí)現(xiàn)實(shí)時(shí)地檢測(cè)。此外，為每個(gè)結(jié)點(diǎn)訓(xùn)練一個(gè)模型也變得不切實(shí)際。因?yàn)楝F(xiàn)代高性能計(jì)算系統(tǒng)由大量的計(jì)算結(jié)點(diǎn)組成。這些觀察結(jié)果和局限性表明，通過(guò)聚類相似和可重復(fù)的模式和訓(xùn)練共享模型，有可能減少開銷。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問(wèn)題之一。

2、為此，本發(fā)明提出了一種面向高性能計(jì)算系統(tǒng)的異常檢測(cè)方法，能夠快速、準(zhǔn)確地檢測(cè)出高性能計(jì)算系統(tǒng)的計(jì)算結(jié)點(diǎn)是否存在異常。

3、本發(fā)明的另一個(gè)目的在于提出一種面向高性能計(jì)算系統(tǒng)的異常檢測(cè)系統(tǒng)。

4、本發(fā)明的第三個(gè)目的在于提出一種計(jì)算機(jī)設(shè)備。

5、本發(fā)明的第四個(gè)目的在于提出一種非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。

6、為達(dá)上述目的，本發(fā)明一方面提出一種面向高性能計(jì)算系統(tǒng)的異常檢測(cè)方法，包括：

7、獲取計(jì)算系統(tǒng)中計(jì)算結(jié)點(diǎn)對(duì)應(yīng)的監(jiān)控指標(biāo)切分后的數(shù)據(jù)片段；

8、提取所述數(shù)據(jù)片段的特征向量，并對(duì)所述特征向量進(jìn)行聚類得到聚類簇；

9、利用所述數(shù)據(jù)片段中靠近聚類簇質(zhì)心的部分?jǐn)?shù)據(jù)片段訓(xùn)練共享模型，以得到訓(xùn)練好的共享模型；

10、利用提取的實(shí)時(shí)的監(jiān)控指標(biāo)的特征與聚類簇進(jìn)行模式匹配，并根據(jù)模式匹配結(jié)果利用訓(xùn)練好的共享模型檢測(cè)目標(biāo)結(jié)點(diǎn)中的異常數(shù)據(jù)以得到異常數(shù)據(jù)檢測(cè)結(jié)果。

11、本發(fā)明實(shí)施例的面向高性能計(jì)算系統(tǒng)的異常檢測(cè)方法還可以具有以下附加技術(shù)特征：

12、在本發(fā)明的一個(gè)實(shí)施例中，獲取計(jì)算系統(tǒng)中計(jì)算結(jié)點(diǎn)對(duì)應(yīng)的監(jiān)控指標(biāo)切分后的數(shù)據(jù)片段，包括：

13、對(duì)計(jì)算系統(tǒng)中計(jì)算結(jié)點(diǎn)的原始監(jiān)控指標(biāo)進(jìn)行數(shù)據(jù)清洗得到清洗后數(shù)據(jù)；

14、對(duì)清洗后數(shù)據(jù)進(jìn)行數(shù)據(jù)聚合得到聚合監(jiān)控指標(biāo)；

15、對(duì)所述聚合監(jiān)控指標(biāo)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化得到標(biāo)準(zhǔn)化數(shù)據(jù)；

16、確定結(jié)點(diǎn)的狀態(tài)轉(zhuǎn)換點(diǎn)，并將每個(gè)狀態(tài)轉(zhuǎn)換點(diǎn)之間的標(biāo)準(zhǔn)化數(shù)據(jù)作為獨(dú)立的數(shù)據(jù)片段。

17、在本發(fā)明的一個(gè)實(shí)施例中，利用提取的實(shí)時(shí)的監(jiān)控指標(biāo)的特征與聚類簇進(jìn)行模式匹配，包括：

18、獲取計(jì)算系統(tǒng)中計(jì)算結(jié)點(diǎn)對(duì)應(yīng)的實(shí)時(shí)的監(jiān)控指標(biāo)；

19、在結(jié)點(diǎn)狀態(tài)轉(zhuǎn)換后的預(yù)設(shè)時(shí)間段內(nèi)提取實(shí)時(shí)的監(jiān)控指標(biāo)的特征數(shù)據(jù)；其中，所述特征數(shù)據(jù)，包括統(tǒng)計(jì)域、時(shí)間域和光譜域特征；

20、計(jì)算所述特征數(shù)據(jù)和目前的聚類簇質(zhì)心之間的距離，以匹配聚類簇最相似的模式得到模式匹配結(jié)果。

21、在本發(fā)明的一個(gè)實(shí)施例中，所述監(jiān)控指標(biāo)，包括系統(tǒng)層面指標(biāo)、應(yīng)用層面指標(biāo)、網(wǎng)絡(luò)層面指標(biāo)；其中，所述系統(tǒng)層面指標(biāo)，包括cpu使用率、內(nèi)存使用率、磁盤i/o、磁盤空間、網(wǎng)絡(luò)流量、進(jìn)程狀態(tài)和系統(tǒng)負(fù)載；

22、所述應(yīng)用層面指標(biāo)，包括響應(yīng)時(shí)間、錯(cuò)誤率、事務(wù)吞吐量和資源使用情況；

23、所述網(wǎng)絡(luò)層面指標(biāo)，包括丟包率、延遲時(shí)間、連接數(shù)和帶寬利用率。

24、在本發(fā)明的一個(gè)實(shí)施例中，利用所述數(shù)據(jù)片段中靠近聚類簇質(zhì)心的部分?jǐn)?shù)據(jù)片段訓(xùn)練共享模型，包括：

25、利用基于共享的混合專家網(wǎng)層構(gòu)建深度學(xué)習(xí)共享模型；其中，所述混合專家網(wǎng)層，包括由多個(gè)表示為專家網(wǎng)絡(luò)的前饋網(wǎng)絡(luò)層和門控單元；

26、將數(shù)據(jù)片段中靠近聚類簇質(zhì)心的部分?jǐn)?shù)據(jù)片段作為訓(xùn)練數(shù)據(jù)輸入深度學(xué)習(xí)共享模型，并通過(guò)門控單元利用激活函數(shù)確定分配給每個(gè)專家網(wǎng)絡(luò)以處理傳入令牌的權(quán)重，以根據(jù)令牌的處理權(quán)重將數(shù)據(jù)分配對(duì)應(yīng)的專家網(wǎng)絡(luò)進(jìn)行處理，以訓(xùn)練深度學(xué)習(xí)共享模型。

27、在本發(fā)明的一個(gè)實(shí)施例中，所述方法，還包括：

28、將計(jì)算結(jié)點(diǎn)的實(shí)時(shí)的監(jiān)控指標(biāo)作為輸入數(shù)據(jù)輸入訓(xùn)練好的共享模型生成重構(gòu)數(shù)據(jù)；

29、將輸入數(shù)據(jù)與重構(gòu)數(shù)據(jù)之間的重構(gòu)誤差表示輸入的實(shí)時(shí)的監(jiān)控指標(biāo)接近正常行為的概率即異常分?jǐn)?shù)；利用加權(quán)均方誤差計(jì)算異常分?jǐn)?shù)：

30、

31、其中，m是監(jiān)控指標(biāo)的維數(shù)，wi是第i維監(jiān)控指標(biāo)分配的權(quán)重，利用平均絕對(duì)變化衡量數(shù)據(jù)的穩(wěn)定性：

32、

33、其中，t為數(shù)據(jù)點(diǎn)的數(shù)量，xt為第t個(gè)觀測(cè)值；根據(jù)每個(gè)聚類簇的訓(xùn)練數(shù)據(jù)計(jì)算每維監(jiān)控指標(biāo)的平均絕對(duì)變化以得到分配的權(quán)重。

34、在本發(fā)明的一個(gè)實(shí)施例中，所述方法，還包括沿著時(shí)間軸定義滑動(dòng)窗口，當(dāng)所述異常分?jǐn)?shù)超過(guò)k-sigma的上界時(shí)，則判斷數(shù)據(jù)點(diǎn)為異常；其中，k是控制異常分?jǐn)?shù)閾值靈敏度的預(yù)定義參數(shù)。

35、為達(dá)上述目的，本發(fā)明另一方面提出一種面向高性能計(jì)算系統(tǒng)的異常檢測(cè)系統(tǒng)，包括：

36、片段切分模塊，用于獲取計(jì)算系統(tǒng)中計(jì)算結(jié)點(diǎn)對(duì)應(yīng)的監(jiān)控指標(biāo)切分后的數(shù)據(jù)片段；

37、特征聚類模塊，用于提取所述數(shù)據(jù)片段的特征向量，并對(duì)所述特征向量進(jìn)行聚類得到聚類簇；

38、模型訓(xùn)練模塊，用于利用所述數(shù)據(jù)片段中靠近聚類簇質(zhì)心的部分?jǐn)?shù)據(jù)片段訓(xùn)練共享模型，以得到訓(xùn)練好的共享模型；

39、異常檢測(cè)模塊，用于利用提取的實(shí)時(shí)的監(jiān)控指標(biāo)的特征與聚類簇進(jìn)行模式匹配，并根據(jù)模式匹配結(jié)果利用訓(xùn)練好的共享模型檢測(cè)目標(biāo)結(jié)點(diǎn)中的異常數(shù)據(jù)以得到異常數(shù)據(jù)檢測(cè)結(jié)果。

40、本發(fā)明實(shí)施例的面向高性能計(jì)算系統(tǒng)的異常檢測(cè)方法和系統(tǒng)，能夠快速、準(zhǔn)確地檢測(cè)出高性能計(jì)算系統(tǒng)計(jì)算結(jié)點(diǎn)是否存在異常。該方法以一種創(chuàng)新的方式整合了片段聚類、transformer和混合專家模型架構(gòu)。這種獨(dú)特的組合提高了框架的可伸縮性和效率，同時(shí)顯著提高了其異常檢測(cè)精度和泛化能力。

41、為達(dá)上述目的，本技術(shù)第三方面實(shí)施例提出了一種計(jì)算機(jī)設(shè)備，包括：處理器和存儲(chǔ)器；其中，所述處理器通過(guò)讀取所述存儲(chǔ)器中存儲(chǔ)的可執(zhí)行程序代碼來(lái)運(yùn)行與所述可執(zhí)行程序代碼對(duì)應(yīng)的程序，以用于實(shí)現(xiàn)如第一方面實(shí)施例所述的面向高性能計(jì)算系統(tǒng)的異常檢測(cè)方法。

42、為達(dá)上述目的，本技術(shù)第四方面實(shí)施例提出了一種非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面實(shí)施例所述的面向高性能計(jì)算系統(tǒng)的異常檢測(cè)方法。

43、本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過(guò)本發(fā)明的實(shí)踐了解到。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孫永謙,夏思博,潘希杰,袁遠(yuǎn),胡紹宇,張圣林
技術(shù)所有人：南開大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

高性能計(jì)算系統(tǒng)相關(guān)技術(shù)

異常檢測(cè)系統(tǒng)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種面向高性能計(jì)算系統(tǒng)的異常檢測(cè)方法及系統(tǒng)