本發(fā)明涉及計算機視覺以及自然語言處理,具體為一種基于譜聚類構(gòu)圖的的圖卷積神經(jīng)網(wǎng)絡(luò)協(xié)議分類方法。
背景技術(shù):
1、隨著云計算技術(shù)的快速發(fā)展,云平臺作為承載高并發(fā)業(yè)務(wù)和復(fù)雜計算任務(wù)的核心基礎(chǔ)設(shè)施,正日益成為現(xiàn)代信息化建設(shè)的重要支柱。然而,云平臺的復(fù)雜性和動態(tài)特性使得其在運行過程中經(jīng)常出現(xiàn)性能瓶頸和服務(wù)故障問題。特別是在以微服務(wù)為核心架構(gòu)的云環(huán)境中,服務(wù)之間通過大量的網(wǎng)絡(luò)協(xié)議進行通信,這些協(xié)議交互的復(fù)雜性和動態(tài)變化對系統(tǒng)的故障識別與快速響應(yīng)提出了更高要求。傳統(tǒng)的故障檢測與處置方法多采用規(guī)則驅(qū)動模式,基于預(yù)定義的閾值或規(guī)則對監(jiān)控數(shù)據(jù)進行分析和判斷。然而,這類方法對多變的協(xié)議交互特征的適應(yīng)能力有限,面對云平臺中協(xié)議數(shù)據(jù)量大、類型多樣化等問題,難以實現(xiàn)高效的協(xié)議分類與精準處理。
2、在云平臺的實際運行環(huán)境中,協(xié)議分類是實現(xiàn)高效資源管理和故障定位的關(guān)鍵技術(shù)之一。協(xié)議分類的目的是基于協(xié)議的流量特征或交互行為,將網(wǎng)絡(luò)數(shù)據(jù)準確歸類到對應(yīng)的協(xié)議類型?,F(xiàn)有的協(xié)議分類方法主要依賴特征工程和傳統(tǒng)機器學(xué)習模型,這些方法對手工設(shè)計的特征高度依賴,模型的性能受限于特征提取的質(zhì)量和泛化能力,難以有效應(yīng)對復(fù)雜協(xié)議數(shù)據(jù)的非線性特征。
3、近年來,基于圖結(jié)構(gòu)數(shù)據(jù)的分析方法逐漸受到關(guān)注。由于云平臺中協(xié)議交互數(shù)據(jù)本質(zhì)上具有網(wǎng)絡(luò)化和關(guān)聯(lián)性的特點,通過圖建模能夠更加直觀地刻畫協(xié)議之間的關(guān)系和交互模式。然而,傳統(tǒng)的圖分析方法在提取全局結(jié)構(gòu)特征和處理大規(guī)模數(shù)據(jù)方面存在明顯不足。為此,圖神經(jīng)網(wǎng)絡(luò)(graph?neural?network,?gnn)作為一種新興的深度學(xué)習技術(shù),通過將節(jié)點特征和圖結(jié)構(gòu)信息結(jié)合建模,展現(xiàn)了優(yōu)異的圖結(jié)構(gòu)數(shù)據(jù)處理能力。然而,直接應(yīng)用圖神經(jīng)網(wǎng)絡(luò)進行協(xié)議分類時,還面臨以下技術(shù)難題:首先,如何從復(fù)雜的協(xié)議交互數(shù)據(jù)中有效提取特征并構(gòu)建具有顯著聚類特性的圖結(jié)構(gòu);其次,如何通過設(shè)計高效的圖神經(jīng)網(wǎng)絡(luò)模型,充分利用圖的全局和局部特征,實現(xiàn)高精度的協(xié)議分類;最后,如何在處理海量協(xié)議數(shù)據(jù)時保持算法的高效性,以滿足云平臺實時故障處置的要求。
4、針對上述問題,本發(fā)明提出了一種基于譜聚類構(gòu)圖的圖卷積神經(jīng)網(wǎng)絡(luò)協(xié)議分類方法。通過引入譜聚類算法對協(xié)議數(shù)據(jù)進行預(yù)處理,生成具有高度聚類特性的圖結(jié)構(gòu)模型,結(jié)合圖卷積神經(jīng)網(wǎng)絡(luò)在圖結(jié)構(gòu)數(shù)據(jù)上的強大建模能力,實現(xiàn)了對協(xié)議交互數(shù)據(jù)的高效分類。該方法能夠充分利用協(xié)議數(shù)據(jù)的結(jié)構(gòu)特征,在保持較高分類精度的同時顯著提升分類效率,為云平臺的故障識別和處置提供了強有力的技術(shù)支撐。
技術(shù)實現(xiàn)思路
1、針對上述技術(shù)所存在的問題,本發(fā)明的目的在于提供一種基于譜聚類構(gòu)圖的的圖卷積神經(jīng)網(wǎng)絡(luò)協(xié)議分類方法。
2、為了達到上述目的,本發(fā)明采取的技術(shù)方案如下:
3、一種基于譜聚類構(gòu)圖的圖卷積神經(jīng)網(wǎng)絡(luò)協(xié)議分類方法,包括以下步驟:
4、步驟1、從收集的網(wǎng)絡(luò)協(xié)議數(shù)據(jù)中篩選關(guān)鍵字段并生成數(shù)據(jù)集;
5、步驟2、優(yōu)化傳統(tǒng)譜聚類構(gòu)圖算法,對篩選出的數(shù)據(jù)進行聚類,將數(shù)據(jù)處理成適合圖神經(jīng)網(wǎng)絡(luò)的圖結(jié)構(gòu)形式;
6、步驟3、將步驟2中譜聚類結(jié)果圖進行圖結(jié)構(gòu)優(yōu)化操作;
7、步驟4、利用譜聚類得到的圖結(jié)構(gòu)作為圖卷積神經(jīng)網(wǎng)絡(luò)的輸入,提出s-gcn模型,采用隨機初始化的三層gcn進行建模,對節(jié)點三階鄰域進行卷積,在最后一層通過對節(jié)點特征聚合來實現(xiàn)網(wǎng)絡(luò)協(xié)議分類。
8、步驟1中:原始的數(shù)據(jù)集中,報文包含了從物理層到應(yīng)用層在內(nèi)的所有字段,需要對數(shù)據(jù)集進行處理,篩選關(guān)鍵字段,
9、步驟1-1,對數(shù)據(jù)集進行流量切分,
10、步驟1-2,對數(shù)據(jù)集進行流量去冗余,
11、步驟1-3,對數(shù)據(jù)集進行字段選取,
12、步驟1-4,統(tǒng)一數(shù)據(jù)集長度和標簽,
13、步驟1-5,生成新的數(shù)據(jù)集。
14、步驟2中:在對數(shù)據(jù)進行預(yù)處理之后,將協(xié)議數(shù)據(jù)變?yōu)榫仃囆问?,每一行為一條報文,每一列是報文的不同特征,得到數(shù)據(jù)矩陣,由個數(shù)據(jù)組成的數(shù)據(jù)矩陣,每個樣本都有個特征,使用譜聚類構(gòu)圖算法進行構(gòu)圖,具體如下:
15、步驟2-1、依據(jù)輸入的數(shù)據(jù)矩陣構(gòu)建相似圖矩陣,
16、步驟2-2、依據(jù)相似圖矩陣構(gòu)建拉普拉斯矩陣,
17、步驟2-3、對進行特征分解,提取前個最小特征值所對應(yīng)的特征向量,構(gòu)建譜表示矩陣,
18、步驟2-4、利用k-means聚類對譜表示進行劃分,獲得聚類結(jié)果,
19、步驟2-5、對聚類結(jié)果進行結(jié)果分析和驗證。
20、對譜聚類構(gòu)圖算法進行優(yōu)化,具體如下:
21、對于原始樣本和,其相似度為,通過轉(zhuǎn)換矩陣把原始數(shù)據(jù)從原特征空間投影到低維特征子空間,同時,低維空間中的樣本與之間的局部結(jié)構(gòu)不變,數(shù)學(xué)表示為:
22、(1)
23、
24、其中,是高斯核的參數(shù),在計算距離時均采用布雷柯蒂斯距離,其公式如下:
25、(2)
26、其中,,分別為向量,的各個特征分量,
27、采用正交約束項對轉(zhuǎn)換矩陣進行約束,由此得到lpp的目標函數(shù)如下:
28、?(3)
29、其中,,表示對角矩陣,是單位陣,是正交約束用于生成不相關(guān)譜向量,對角元素等于相似圖矩陣的行向量和,
30、即,用超圖構(gòu)建拉普拉斯矩陣,接著用超圖拉普拉斯矩陣約束譜表示,公式(3)改寫為:
31、(4)
32、其中,是一個超圖拉普拉斯矩陣,
33、將屬性選擇嵌入到子空間學(xué)習框架中,
34、(5)
35、其中,是行稀疏矩陣,非負數(shù)是在學(xué)習過程中平衡子空間學(xué)習和屬性選擇的調(diào)節(jié)參數(shù)。
36、在后續(xù)聚類過程中,采用譜旋轉(zhuǎn)聚類方法,將譜旋轉(zhuǎn)聚類嵌入到譜表示學(xué)習框架中完成一步聚類,目標函數(shù)如公式:
37、
38、(6)
39、其中,為調(diào)優(yōu)系數(shù)。
40、求解目標函數(shù)公式(6),
41、首先,初始化指示矩陣、轉(zhuǎn)換矩陣以及單位矩陣,隨后,進入一個迭代循環(huán),該循環(huán)將持續(xù)執(zhí)行,直至滿足公式(6)所定義的收斂準則,
42、在此迭代過程中,轉(zhuǎn)換矩陣的更新遵循以下三個步驟:
43、步驟(1)啟動一個內(nèi)層迭代循環(huán),該循環(huán)將執(zhí)行直至轉(zhuǎn)換矩陣的更新滿足由公式(7)所規(guī)定的收斂條件,
44、步驟(2)在內(nèi)層循環(huán)中,首先根據(jù)公式(11)對轉(zhuǎn)換矩陣進行更新,隨后gpi框架對矩陣進行更新,最終根據(jù)公式(13)對矩陣進行更新。
45、步驟(3)這些步驟將循環(huán)執(zhí)行,直至轉(zhuǎn)換矩陣的更新達到公式(7)所設(shè)定的收斂標準。
46、上述內(nèi)層循環(huán)完成后,根據(jù)公式(15)對矩陣進行更新,接著根據(jù)公式(16)對矩陣進行更新,完成這些更新步驟后,返回至外層迭代循環(huán),繼續(xù)更新轉(zhuǎn)換矩陣,直至滿足由公式(6)定義的收斂準則,整個迭代過程持續(xù)進行,直至轉(zhuǎn)換矩陣的更新滿足外層循環(huán)的收斂條件,
47、對的更新,
48、在對進行更新的時候,需要固定和,則求解目標函數(shù)相當于求解公式(7),
49、
50、(7)
51、使用迭代加權(quán)最小二乘的框架解決公式(7)不光滑的問題,則公式(7)變成下式:
52、
53、(8)
54、其中是超圖對角矩陣,其對角元素為,
55、采用交替方向乘法算子框架將復(fù)雜問題分解為多個易求解的子問題,設(shè)則公式(8)變?yōu)橄率剑?/p>
56、
57、(9)
58、經(jīng)過上式的轉(zhuǎn)換,將優(yōu)化問題轉(zhuǎn)換為三個式的子問題來進行解決:
59、(10)
60、針對、,進行更新,將值設(shè)置為1,將的導(dǎo)數(shù)設(shè)置為0,即得到的閉解:
61、(11)
62、而的更新通過變換直接實現(xiàn):
63、
64、(12)
65、其中,
66、當計算出和后,得到的優(yōu)化,通過公式(13)進行的優(yōu)化:
67、(13)
68、對的更新,
69、在更新的時候,需要固定和,則目標函數(shù)就變成了下式:
70、(14)
71、是一個指示矩陣,其中元素只有0和1兩個值,是對的逼近,公式(14)的解如下:
72、(15)
73、對的更新,
74、更新需要對和進行固定,則目標函數(shù)就等價于下式:
75、
76、(16)
77、對公式(16)進行最小化,經(jīng)過變換后其等價于:
78、
79、(17)
80、再設(shè)和分別是關(guān)于點的奇異值分解的左右奇異矩陣,即:
81、?(18)
82、利用標準正交的縮放聚類指標矩陣替換非標準正交的聚類指標矩陣,使兩個標準正交矩陣之間的差異最小化,得到的閉式解:
83、?(19)。
84、步驟3將步驟2中譜聚類結(jié)果圖進行圖結(jié)構(gòu)優(yōu)化操作,具體如下:
85、將步驟2處理后的數(shù)據(jù)集,定義第個樣本和所有數(shù)據(jù)點概率為連接到的一個鄰居,概率通過下式來確定:
86、(20)
87、找到一個線性組合,使其最接近低維流形的原始特征,如下式:
88、(21)
89、約定一個約束函,其中是相似圖矩陣中的連通分量的個數(shù),使用下式讓與初始圖擬合:
90、(22)
91、其中是更新后的拉普拉斯矩陣,初始圖是由步驟3得到的圖,
92、使用圖學(xué)習和基于的稀疏學(xué)習來解決噪聲和異常值問題,如下式:
93、(23)
94、其中約束取決于,是的第個特征值,當是半正定時,有且約束函數(shù)表示,再由樊畿定理得到得到:
95、(24)
96、公式(23)通過以下式子求解:
97、
98、(25)
99、是非負調(diào)諧參數(shù),表示特征空間在規(guī)約后的特點,通過求解公式(25),得到一個高質(zhì)量的圖,
100、步驟4中,構(gòu)建基于譜聚類構(gòu)圖的圖卷積神經(jīng)網(wǎng)絡(luò)模型,將步驟3中優(yōu)化的圖結(jié)構(gòu)數(shù)據(jù)輸入模型中進行網(wǎng)絡(luò)協(xié)議分類,
101、使用超圖進行節(jié)點的半監(jiān)督分類,定義一個無向超圖,其中表示頂點,表示邊,同時還有一個標記超節(jié)點的小集合,每個超節(jié)點都關(guān)聯(lián)一個特征向量,其中是維度數(shù),
102、的關(guān)鍵是圖的拉普拉斯算子,拉普拉斯算子的定義方法如下,
103、計算公式如下,
104、1)對于每個超邊,令,
105、2)將權(quán)值為的邊添加到頂點上,構(gòu)造一個加權(quán)圖,其中為超邊的權(quán)值,然后在每個頂點上添加自循環(huán),使頂點在中的度等于,設(shè)表示的加權(quán)鄰接矩陣,
106、3)對稱歸一化超圖拉普拉斯函數(shù)為:
107、(26)
108、在得到鄰接矩陣和所有節(jié)點特征組成的特征矩陣后,通過公式(27)在節(jié)點之間傳遞聚合信息進行圖卷積操作,使用隨機初始化權(quán)重的3層gcn來捕獲整個圖的結(jié)構(gòu),在最后一層對節(jié)點特征進行聚合以進行分類,最后使用全局注意力機制來進行輸出。
109、(27)
110、其中,為添加了自連接的無向圖的鄰接矩陣,是單位陣;是每層特定的可訓(xùn)練權(quán)重矩陣;表示激活函數(shù);是第層的激活矩陣,且,
111、相對于現(xiàn)有技術(shù),本技術(shù)的優(yōu)點如下:
112、本技術(shù)在傳統(tǒng)譜聚類的基礎(chǔ)上,對譜聚類算法進行了優(yōu)化,具體地,結(jié)合子空間學(xué)習和屬性選擇進行降維,可以動態(tài)地選擇固有的重要屬性,構(gòu)建低維空間中魯棒的譜表示,避免冗余屬性和離群值的影響。本技術(shù)使用了高質(zhì)量的圖結(jié)構(gòu)對gcn模型的分類性能優(yōu)化。引入了一種自適應(yīng)圖學(xué)習來捕捉數(shù)據(jù)的內(nèi)在低級相關(guān)性,并使用超圖來建立數(shù)據(jù)之間的關(guān)系。針對數(shù)據(jù)的冗余信息本技術(shù)使用了稀疏學(xué)習和低秩約束與圖學(xué)習,將兩者加以結(jié)合,提高了結(jié)果的準確性和模型的魯棒性。實驗結(jié)果表明,所提出的基于譜聚類的構(gòu)圖方法以及優(yōu)化的分類方法s-gcn在協(xié)議分類和識別效果上優(yōu)于其他對比方法。