專利名稱:同源僵尸網(wǎng)絡(luò)判別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)安全領(lǐng)域,特別涉及同源僵尸網(wǎng)絡(luò)判別方法。
背景技術(shù):
僵尸網(wǎng)絡(luò)(botnet)是指攻擊者出于惡意目的,傳播僵尸程序控制大量主機,并通過一對多的命令與控制信道(Command and Control,C&C)所組成的網(wǎng)絡(luò)。僵尸網(wǎng)絡(luò)為攻擊者提供了隱匿、靈活且高效的一對多命令與控制機制,僵尸網(wǎng)絡(luò)的控制者可以控制大量僵尸主機來實現(xiàn)信息竊取、分布式拒絕服務(wù)攻擊和垃圾郵件發(fā)送等攻擊目的。僵尸網(wǎng)絡(luò)正步入快速發(fā)展期,對因特網(wǎng)安全造成了嚴重威脅。僵尸網(wǎng)絡(luò)主要分為IRC(Internet Relay chat)僵尸網(wǎng)絡(luò)、HTTP僵尸網(wǎng)絡(luò)和P2P僵尸網(wǎng)絡(luò)。IRC僵尸網(wǎng)絡(luò)是最早產(chǎn)生而且目前仍然大量存在的一類僵尸網(wǎng)絡(luò),該類僵尸網(wǎng)絡(luò)的控制者基于標準IRC協(xié)議在IRC聊天服務(wù)器上構(gòu)建命令與控制信道,并通過所述的命令與控制信道實現(xiàn)對大量受控主機的僵尸程序版本更新、惡意攻擊等行為的控制。在圖1中示出了 IRC僵尸網(wǎng)絡(luò)中的控制者、命令與控制服務(wù)器(如IRC服務(wù)器)、受控主機(bot)以及被攻擊對象間的關(guān)系。HTTP僵尸網(wǎng)絡(luò)與IRC僵尸網(wǎng)絡(luò)的功能結(jié)構(gòu)相似,所不同的是HTTP 僵尸網(wǎng)絡(luò)控制器是以WEB網(wǎng)站方式構(gòu)建的。P2P僵尸網(wǎng)絡(luò)是一種較新型的僵尸網(wǎng)絡(luò),在P2P 僵尸網(wǎng)絡(luò)中僵尸程序同時承擔(dān)客戶端和服務(wù)器的雙重角色。由于圖1所示的IRC僵尸網(wǎng)絡(luò)的結(jié)構(gòu)特點,使得僵尸網(wǎng)絡(luò)具有健壯性差、存在單點失效等問題,因此,網(wǎng)絡(luò)安全管理人員可通過摧毀單個IRC服務(wù)器來切斷僵尸網(wǎng)絡(luò)控制者與bot間的聯(lián)系,導(dǎo)致整個僵尸網(wǎng)絡(luò)癱瘓。為了逃避網(wǎng)絡(luò)安全人員的監(jiān)管,如圖2(a)所示, 部署在bot上的僵尸程序使用域名而非固定的IP地址來連接IRC服務(wù)器,僵尸網(wǎng)絡(luò)控制者使用動態(tài)域名服務(wù)將僵尸程序連接的域名映射到其控制的多臺IRC服務(wù)器上,一旦正在工作的某一臺IRC服務(wù)器失效,僵尸網(wǎng)絡(luò)的受控主機會連接到其他的IRC服務(wù)器,從而保證了整個僵尸網(wǎng)絡(luò)的繼續(xù)運轉(zhuǎn)。另外,在現(xiàn)實生活中也存在將僵尸網(wǎng)絡(luò)的控制權(quán)轉(zhuǎn)移從而換取經(jīng)濟利益的行為,在這一行為中也會涉及到IRC服務(wù)器的改變。以上通過主動或被動方式改變僵尸網(wǎng)絡(luò)中的IRC服務(wù)器的行為被稱為僵尸網(wǎng)絡(luò)的遷移。在現(xiàn)實生活中,某些大型僵尸網(wǎng)絡(luò)采用了分層管理模式,如圖2 (b)所示,多個IRC服務(wù)器控制各自不同的bot群體,而所有的IRC服務(wù)器同時由僵尸網(wǎng)絡(luò)控制者統(tǒng)一控制。從上面對僵尸網(wǎng)絡(luò)遷移以及僵尸網(wǎng)絡(luò)的分層管理模式的描述可以看出,現(xiàn)有的僵尸網(wǎng)絡(luò)存在以下特點IRC服務(wù)器與僵尸網(wǎng)絡(luò)控制者之間并不一定是一一對應(yīng)關(guān)系,而且 IRC服務(wù)器與僵尸網(wǎng)絡(luò)控制者的對應(yīng)關(guān)系可能隨時間發(fā)生轉(zhuǎn)變。現(xiàn)有技術(shù)中已經(jīng)存在對僵尸網(wǎng)絡(luò)進行檢測的相關(guān)技術(shù),利用這些檢測技術(shù)可以得到大量關(guān)于僵尸網(wǎng)絡(luò)的數(shù)據(jù)。為了便于網(wǎng)絡(luò)安全管理,需要從檢測到的大量僵尸網(wǎng)絡(luò)中識別出哪些僵尸網(wǎng)絡(luò)屬于同一僵尸網(wǎng)絡(luò),這一識別過程通過僵尸網(wǎng)絡(luò)相似性度量模型完成。 本申請中所述的同一僵尸網(wǎng)絡(luò)是指控制者相同的僵尸網(wǎng)絡(luò)。在現(xiàn)有技術(shù)中也存在對僵尸網(wǎng)絡(luò)做相似性度量的方法和系統(tǒng)。如在參考文獻1 "Guofei Gu, Roberto Perdisci, Junjie Zhang, and Wenke Lee. BotMiner !Clustering Analysis of Network Traffic for Protocol—and Structure-IndependentBotnet Detection. USENIX Security, 2008. 139-1 ”中公開了一種采用聚類的數(shù)據(jù)分析方法。利用僵尸網(wǎng)絡(luò)中IRC服務(wù)器與bot的一對多映射關(guān)系,該方法可以有效地檢測IRC服務(wù)器與 bot的C&C通訊,以此獲得IRC服務(wù)器與bot的對應(yīng)關(guān)系,并將檢測到的一個IRC服務(wù)器看成一個僵尸網(wǎng)絡(luò)。但實際上,IRC服務(wù)器與僵尸網(wǎng)絡(luò)之間并不必然地存在一一對應(yīng)關(guān)系。將一個IRC服務(wù)器看作一個僵尸網(wǎng)絡(luò)的做法會導(dǎo)致分析僵尸網(wǎng)絡(luò)情況時出現(xiàn)錯誤和偏差。在 IRC僵尸網(wǎng)絡(luò)中,bot與控制者是實體,IRC服務(wù)器只是中間橋梁,因此如果要準確地掌握僵尸網(wǎng)絡(luò),應(yīng)當(dāng)掌握的是僵尸網(wǎng)絡(luò)控制者與bot間的對應(yīng)關(guān)系。但由于在前文中所提到的僵尸網(wǎng)絡(luò)的特點使得現(xiàn)有技術(shù)很難用數(shù)據(jù)分析方法來獲得僵尸網(wǎng)絡(luò)控制者與IRC服務(wù)器對應(yīng)關(guān)系??傊?,參考文獻1所列出的方法在識別僵尸網(wǎng)絡(luò)時由于方法本身的缺陷,很容易發(fā)生識別錯誤的現(xiàn)象。在參考文獻 2 "Raiab MA, Zarfoss J,Monrose F, Terzis A. My botnet isbigger than yours(maybe, better than yours) :ffhy size estimates remainchallenging. In :Proc.of the 1st Workshop on Hot Topics in UnderstandingBotnets(HotBots 2007). 2007”中從評估僵尸網(wǎng)絡(luò)規(guī)模的角度提出了僵尸網(wǎng)絡(luò)相似性度量問題,指出評估僵尸網(wǎng)絡(luò)規(guī)模的難點之一是僵尸網(wǎng)絡(luò)的動態(tài)性,通過蜜網(wǎng)蜜罐跟蹤僵尸網(wǎng)絡(luò)獲取其僵尸程序版本、IRC服務(wù)器IP、IRC服務(wù)器域名、IRC頻道名、控制者ID等信息,進而提出了僵尸網(wǎng)絡(luò)相似性度量模型。在該參考文獻中所提出的僵尸網(wǎng)絡(luò)相似性度量模型由于其所采用的指標都是控制端特征,缺少被控端特征,因此并不能完全反映僵尸網(wǎng)絡(luò)區(qū)別于其他僵尸網(wǎng)絡(luò)的本質(zhì)特征,使得利用模型進行相似性度量的準確性差。特別是在新型的IRC僵尸網(wǎng)絡(luò)中,僵尸程序版本、IRC服務(wù)器IP、IRC服務(wù)器域名、IRC頻道名、控制者ID并非僵尸網(wǎng)絡(luò)本身的顯著特征,因此相似性度量結(jié)果的準確性更加值得懷疑。此外,該參考文獻中只對僵尸網(wǎng)絡(luò)的遷移作了初步感性的分析,沒有將僵尸網(wǎng)絡(luò)的相似性和遷移聯(lián)系起來;對于僵尸網(wǎng)絡(luò)遷移的分析,只針對僵尸網(wǎng)絡(luò)在同一個IRC服務(wù)器上不同頻道間遷移的情況做了說明,沒有對僵尸網(wǎng)絡(luò)在不同IRC服務(wù)器上遷移的情況加以分析??傊?,參考文獻2所公開的方法同樣具有識別準確性差的缺陷,而且也不能對僵尸網(wǎng)絡(luò)的遷移現(xiàn)象加以識別。
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有的僵尸網(wǎng)絡(luò)同源判別方法識別準確性差、不能對僵尸網(wǎng)絡(luò)的遷移現(xiàn)象加以識別的缺陷,從而提供一種識別準確性好、能夠識別僵尸網(wǎng)絡(luò)遷移現(xiàn)象的判別方法。為了實現(xiàn)上述目的,本發(fā)明提供了一種同源僵尸網(wǎng)絡(luò)判別方法,包括步驟1)、根據(jù)僵尸網(wǎng)絡(luò)數(shù)據(jù)計算僵尸網(wǎng)絡(luò)的通訊量特征與通訊頻率特征,得到相應(yīng)的通訊量日周期曲線與通訊頻率日周期曲線;步驟2)、從所述通訊量日周期曲線與通訊頻率日周期曲線中提取各自的特征點, 根據(jù)所述特征點分別生成通訊量標準化形狀曲線以及通訊頻率標準化形狀曲線;步驟3)、計算所要比較的僵尸網(wǎng)絡(luò)對的通訊量標準化形狀曲線間的第一歐式距離以及通訊頻率標準化形狀曲線的第二歐氏距離,根據(jù)所述第一歐式距離與所述第二歐式距
5離判斷所要比較的僵尸網(wǎng)絡(luò)對是否屬于同源僵尸網(wǎng)絡(luò)。上述技術(shù)方案中,在所述的步驟幻中,所述的根據(jù)所述第一歐式距離與所述第二歐式距離判斷所要比較的僵尸網(wǎng)絡(luò)對是否屬于同源僵尸網(wǎng)絡(luò)包括若所述第一歐式距離與所述第二歐式距離都大于第一閾值,則所要比較的僵尸網(wǎng)絡(luò)對屬于不同源的僵尸網(wǎng)絡(luò),否則,所要比較的僵尸網(wǎng)絡(luò)對屬于同源僵尸網(wǎng)絡(luò)。上述技術(shù)方案中,還包括對步驟幻中認為是同源僵尸網(wǎng)絡(luò)的僵尸網(wǎng)絡(luò)對做進一步判別的步驟;所述步驟包括步驟4)、將所述通訊量日周期曲線和通訊頻率日周期曲線連接生成通訊特征曲線.步驟5)、計算所要比較的僵尸網(wǎng)絡(luò)對的通訊特征曲線的DTW距離,若所述DTW距離大于第二閾值,則所要比較的僵尸網(wǎng)絡(luò)對為不同源僵尸網(wǎng)絡(luò),否則屬于同源僵尸網(wǎng)絡(luò)。上述技術(shù)方案中,所述的步驟幻包括步驟2-1)、從所述通訊量日周期曲線與通訊頻率日周期曲線中提取各自的特征點,得到關(guān)于特征點的集合{s[ij,S[i2],…,ShBdSHSti+yGh] (1彡j彡q)分別為特征點S[ij]的橫、縱坐標,其中HSh]) <x(S[iJ), (1 ^ 1 < m ^ q);步驟2-2)、將所述特征點集合中的所有q個特征點按大小順序映射到區(qū)間
;步驟2-3)、將集合{y(S[i』)|1彡j ( q}按升序排列得到數(shù)組C,記g為集合 {StiJ^tiJ^-^StiJ}到集合 Ulie Z+, i ^ q}的映射,若 y(S[ij] = C[k],(l^ j^q, 1 彡 k彡 q),則 g(S[ij.]) = k;步驟2-4)、將所述特征點集合中的q個特征點通過變換得到標準形狀曲線的特征
點集合11^7^ q);
q步驟2- 、由所述標準形狀曲線中的特征點擬合生成標準形狀曲線。上述技術(shù)方案中,在所述的步驟2-1)中,所述的從所述通訊量日周期曲線與通訊頻率日周期曲線中提取各自的特征點包括步驟2-1-1)、從所述通訊量日周期曲線與通訊頻率日周期曲線中選擇曲線的起始點和結(jié)束點作為特征點;步驟2-1-2)、從所述通訊量日周期曲線與通訊頻率日周期曲線中取出極值點,將所述極值點中橫坐標間距離大于第三閾值的極值點作為特征點。上述技術(shù)方案中,在所述的步驟2-1)中,所述的從所述通訊量日周期曲線與通訊頻率日周期曲線中提取各自的特征點包括步驟2-2-1)、遍歷所述的通訊量日周期曲線與通訊頻率日周期曲線,找到其中的所有極值點,所述極值點包括極大值點與極小值點;步驟2-2-2)、按時間屬性的大小順序,判斷極值點與前一極值點間的距離是否大于閾值德爾塔,若大于,則該極值點為特征點,否則就不是;所述閾值德爾塔由實驗確定。上述技術(shù)方案中,在所述的步驟4)中,在連接所述通訊量曲線和通訊頻率曲線前,按比例縮小其中一條曲線,以使得兩者的數(shù)量級相同。上述技術(shù)方案中,所述的步驟幻包括
步驟5-1)、將長度為N的僵尸網(wǎng)絡(luò)通訊特征曲線S1, S2,…,&轉(zhuǎn)化為長度為f的序列=PAA(S1),…,PAA(Sf);其中,f = q-1, q為最優(yōu)特征點的數(shù)量;步驟5-2)、對于僵尸網(wǎng)絡(luò)通訊特征曲線S1, &,…,&中的曲線Si;l彡i彡n,計算其上下界,分別記為巧、L1;步驟5-3)、從僵尸網(wǎng)絡(luò)通訊特征曲線S1, S2,…,&中找出j<n),使得 ^]e(l^]-p,UJk] + p),l<k<fm^m P 為曲線彎曲率;步驟5-4)、計算LB_PAA(Si; Sj),若計算結(jié)果小于或等于所述的第二閾值,則計算 DTffp (Si, I),否則,所要比較的僵尸網(wǎng)絡(luò)為不同源僵尸網(wǎng)絡(luò);步驟5-5)、若DTWp (SijSj)小于或等于所述的第二閾值,則所要比較的僵尸網(wǎng)絡(luò)對為不同源僵尸網(wǎng)絡(luò),否則屬于同源僵尸網(wǎng)絡(luò)。本發(fā)明的優(yōu)點在于1、本發(fā)明的方法判別同源僵尸網(wǎng)絡(luò)的準確率較高。2、本發(fā)明的方法可以有效提高判別的準確率,并且過濾掉大量不同僵尸網(wǎng)絡(luò)數(shù)據(jù),減小計算量。3、本發(fā)明的方法使用改進的LB_PAA距離作為DTW距離的下界,對僵尸網(wǎng)絡(luò)通訊特征序列數(shù)據(jù)進行過濾,相比直接計算僵尸網(wǎng)絡(luò)通訊特征曲線DTW距離,有效減小了計算量, 提高了效率。
圖1為IRC僵尸網(wǎng)絡(luò)的結(jié)構(gòu)示意圖;圖2(a)為僵尸網(wǎng)絡(luò)遷移的示意圖;圖2(b)為采用分層管理模式的僵尸網(wǎng)絡(luò)的示意圖;圖3為僵尸網(wǎng)絡(luò)的通訊量日周期曲線的示意圖;圖4為僵尸網(wǎng)絡(luò)的不同天的通訊頻率的示意圖;圖5為共用IP與其所屬僵尸網(wǎng)絡(luò)的通訊頻率曲線對比圖;圖6為同源僵尸網(wǎng)絡(luò)在時間軸上的通訊特征曲線對比示意圖;圖7為同源僵尸網(wǎng)絡(luò)的通訊量日周期曲線的對比示意圖;圖8為同源僵尸網(wǎng)絡(luò)的通訊頻率日周期曲線的對比示意圖;圖9為同源僵尸網(wǎng)絡(luò)的又一通訊量日周期函數(shù)曲線的對比示意圖;圖10(a)為特征點數(shù)量對棄真錯誤率的影響的示意圖;圖10(b)為特征點數(shù)量對取偽錯誤率的影響的示意圖;圖10(c)為特征點數(shù)量對錯誤率的影響的示意圖;圖11為閾值Jl1對各類錯誤率的影響的示意圖;圖12(a)為德爾塔值對棄真錯誤率的影響的示意圖;圖12(b)為德爾塔值對取偽錯誤率的影響的示意圖;圖12(c)為德爾塔值對錯誤率的影響的示意圖;圖13為閾值η2對各類錯誤率的影響的示意圖;圖14(a)為彎曲率P對棄真錯誤率的影響的示意圖;圖14(b)為彎曲率P對取偽錯誤率的影響的示意圖14(c)為彎曲率P對錯誤率的影響的示意圖;圖15為本發(fā)明的方法的流程圖。
具體實施例方式下面結(jié)合附圖和具體實施方式
對本發(fā)明加以說明。要實現(xiàn)僵尸網(wǎng)絡(luò)的相似性度量,首先應(yīng)當(dāng)有與僵尸網(wǎng)絡(luò)有關(guān)的數(shù)據(jù)。在背景技術(shù)中已經(jīng)提到,利用現(xiàn)有技術(shù)可以在網(wǎng)絡(luò)中檢測出僵尸網(wǎng)絡(luò),并將這些僵尸網(wǎng)絡(luò)的數(shù)據(jù)記錄下來。因此,在下面的實施例中可以直接采用僵尸網(wǎng)絡(luò)數(shù)據(jù),而不再對如何獲取這些數(shù)據(jù)的過程加以說明。僵尸網(wǎng)絡(luò)數(shù)據(jù)是指控制主機與被控制主機(bot)的通訊記錄,一般包括控制主機 IP,被控主機IP,通訊時間等信息。為了實現(xiàn)相似性度量,在本發(fā)明中,從僵尸網(wǎng)絡(luò)數(shù)據(jù)中提取了兩類特征,一為通訊量特征,二為通訊頻率特征,然后利用上述特征分別得到通訊量日周期曲線與通訊頻率日周期曲線,所得到的上述兩條曲線相連接后所得到的曲線被稱為通訊特征曲線,通過計算不同僵尸網(wǎng)絡(luò)間的通訊特征曲線距離可以實現(xiàn)不同僵尸網(wǎng)絡(luò)是否屬于同一僵尸網(wǎng)絡(luò)的判斷。以上是本發(fā)明方法的基本實現(xiàn)過程,在下面的詳細描述過程中,首先對從僵尸網(wǎng)絡(luò)中所提取的通訊量特征和通訊頻率特征分別予以說明。通訊量特征通訊量特征反映了 bot群體的普遍上線時間習(xí)慣,由于僵尸網(wǎng)絡(luò)可能針對特定的漏洞(比如Windows 2000SP2漏洞)發(fā)展而成,因此bot群體的上線時間習(xí)慣具有一定的相似性。例如,由于大多數(shù)計算機在夜間關(guān)機下線,僵尸網(wǎng)絡(luò)的通訊量在夜間有明顯的下降,因此呈現(xiàn)了如圖3所示的明顯的周期性,且從該圖中還可以看出,僵尸網(wǎng)絡(luò)通訊量每一天的變化曲線相似。考慮到僵尸網(wǎng)絡(luò)中通訊量特征的上述特點,因此需要在僵尸網(wǎng)絡(luò)識別過程中提取通訊量特征。在對通訊量特征的提取過程做詳細說明前,出于說明方便的考慮,下面首先給出兩個定義通訊量(communicate count) CCi (t)表示僵尸網(wǎng)絡(luò)i的通訊量隨時間變化的函數(shù), 它是一個統(tǒng)計值函數(shù),需要給定統(tǒng)計時間間隔大小W。其中i為僵尸網(wǎng)絡(luò)標號,在不引起岐義的情況下,下文中通常省掉i。在線(online)bot數(shù)量Oboti (t)表示僵尸網(wǎng)絡(luò)i中在線bot數(shù)量的統(tǒng)計函數(shù)。對通訊量特征的提取較為簡單,在一個實現(xiàn)方式中,首先計算每一天的通訊量 CC (t),對每一天通訊量的計算可通過對現(xiàn)有檢測技術(shù)的檢測結(jié)果實現(xiàn);然后對每一天的數(shù)據(jù)進行歸一化;由于通訊量特征是反映一定時間長度內(nèi)僵尸網(wǎng)絡(luò)的通訊量特征,因此需要將η天內(nèi)的數(shù)據(jù)做累加,然后計算平均值;最后對該平均值做歸一化,得到僵尸網(wǎng)絡(luò)的通訊量日周期函數(shù)C(t) (0^t ^ 24h)。通訊量日周期函數(shù)以曲線的方式表示就能得到通訊量日周期曲線。由于bot群體的相似性,上線時段集中,存在上線高峰和低谷,因此圖3所示的通訊量日周期曲線有明顯的波峰、波谷。需要說明的是,雖然在本實施例中,以一天為時間單位,對通訊量特征加以計算從而得到通訊量日周期函數(shù),但本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)了解, 實現(xiàn)通訊量特征提取的單位時間可以發(fā)生變化,如可以是2天,也可以是12小時。
通訊頻率特征通訊頻率特征表示單位bot主機的通訊量,它反映的是僵尸網(wǎng)絡(luò)IRC服務(wù)器與bot 間通訊的頻繁程度。實驗結(jié)果顯示,僵尸網(wǎng)絡(luò)的通訊頻率每一天的平均值趨于常量,圖4反映了這一顯示結(jié)果。但與此同時,僵尸網(wǎng)絡(luò)的通訊頻率在一天內(nèi)并不恒定,而是呈現(xiàn)出明顯的周期性。因此,可以利用已知數(shù)據(jù)計算僵尸網(wǎng)絡(luò)通訊頻率日周期函數(shù)。下面假設(shè)已經(jīng)有 η天的統(tǒng)計數(shù)據(jù),對如何計算僵尸網(wǎng)絡(luò)通訊頻率日周期函數(shù)CF' (t) (O^t ^ 24h)的過程說明如下。步驟1)、把每天的通訊數(shù)據(jù)分成24h/w份(w為統(tǒng)計時間間隔大小,它的含義是 認為在w間隔內(nèi)有通訊的IP數(shù)為該時間跨度的在線肉機數(shù)Obot (t)。根據(jù)僵尸網(wǎng)絡(luò)IRC服務(wù)器與bot通訊數(shù)據(jù)的特點,在本實施例中w取10分鐘),每一份時間跨度為w,計算每一份數(shù)據(jù)中不同IP個數(shù),得到在線肉機函數(shù)Obot (t)的統(tǒng)計值;步驟2)、計算通訊量CC(t),然后進一步計算通訊頻率函數(shù)CF(t) = CC(t)/ Obot (t),從而得到單位bot的通訊量。若Obot (t) = 0,則使用線性插值的方法計算CF (t)。步驟3)、平均η天的數(shù)據(jù),得到CF' (t) (O彡t彡24h)。以上是對計算僵尸網(wǎng)絡(luò)通訊頻率日周期函數(shù)CF' (t)的基本步驟的說明,作為一種優(yōu)選實現(xiàn)方式,為了去掉噪聲的影響,還可以使用多項式擬合所述的CF' (t),從而得到擬合后的曲線CFS (t)。在計算通訊頻率特征時,還要考慮到下面一種情況由于互聯(lián)網(wǎng)IP地址緊缺,一些局域網(wǎng)內(nèi)部網(wǎng)絡(luò)采用了 NAT (Network Address Translation)技術(shù),通過該技術(shù)使得多臺計算機能夠使用一個IP來共享hternet連接,在局域網(wǎng)內(nèi)部網(wǎng)絡(luò)中使用內(nèi)部地址,而當(dāng)內(nèi)部節(jié)點要與外部網(wǎng)絡(luò)進行通訊時,就在網(wǎng)關(guān)將內(nèi)部地址替換成公用地址。顯而易見,由于 NAT技術(shù)的上述特點,使得bot中這類IP的通訊頻率明顯大于所屬僵尸網(wǎng)絡(luò)的通訊頻率,如圖5所示,圖中兩曲線分別代表僵尸網(wǎng)絡(luò)通訊頻率以及該僵尸網(wǎng)絡(luò)某bot IP的通訊頻率。 因此在計算僵尸網(wǎng)絡(luò)通訊頻率時,應(yīng)該剔除掉這些IP。由于共用bot IP為靜態(tài)IP,通訊時間跨度較長,在計算僵尸網(wǎng)絡(luò)通訊頻率時,可以通過剔除通訊時間跨度超過閾值m的IP來剔除共用bot IP,在本實施例中,m可以取10天。通訊特征曲線距離的計算在上述對通訊量特征以及通訊頻率特征的說明中,已經(jīng)就通訊量日周期曲線以及通訊頻率日周期曲線如何生成做了說明。在得到僵尸網(wǎng)絡(luò)的通訊量日周期曲線以及通訊頻率日周期曲線后,將兩條曲線結(jié)合得到通訊特征曲線,然后可以通過計算不同僵尸網(wǎng)絡(luò)的通訊特征曲線間的距離來衡量不同僵尸網(wǎng)絡(luò)是否屬于同源僵尸網(wǎng)絡(luò),如計算通訊特征曲線間的歐式距離。但采用上述方法會存在以下問題問題(1)、僵尸網(wǎng)絡(luò)通訊特征曲線是從有限時間段的通訊數(shù)據(jù)提取而來,由于樣本容量的限制,曲線本身存在一定的誤差。另外由于獲取數(shù)據(jù)時間延遲等因素,也可能導(dǎo)致曲線的偏差。曲線間的歐氏距離要求曲線的點與點之間必須一一對應(yīng),對時間軸上的偏移非常敏感,因此可能導(dǎo)致距離計算結(jié)果的誤差甚至很大的錯誤。極端的例子如圖6所示,兩個同源的僵尸網(wǎng)絡(luò)通訊特征曲線在時間軸上產(chǎn)生了偏移。其歐氏距離為1.04,若根據(jù)通訊特征曲線歐氏距離判別同源僵尸網(wǎng)絡(luò),則很可能做出錯誤的判別。問題O)、由于bot群體的相似性,上線時段集中,有上線高峰和低谷,通訊量特征曲線有明顯的曲線峰、谷特征點,通訊頻率特征曲線也是如此。實驗發(fā)現(xiàn),同源的僵尸網(wǎng)絡(luò), 通訊特征曲線形狀可能有差異(差異主要指兩種情況曲線間按一定比例壓縮拉伸或者局部按一定比例壓縮拉伸,如圖7如示;曲線間按一定的比例放大或縮小,如圖8所示),并且歐氏距離較大,但它們曲線的峰、谷特征點對應(yīng)的時間點基本一致。因此計算特征曲線距離時,要考慮曲線峰、谷特征點的因素,但在計算特征曲線間的歐式距離時并沒有考慮曲線的峰、谷特征點。針對采用歐式距離計算通訊特征曲線間距離的方法所存在的上述問題,本發(fā)明將通訊特征曲線視為一時間序列,然后針對前面所提到的問題(1)引入動態(tài)時間彎曲距離 (dynamic time warping distance),簡稱DTW距離。DTW距離可以有效地消除歐氏距離對時間點必須一一對應(yīng)這一限制的缺陷,允許序列在時間軸上的偏移。DTW距離是時間序列挖掘中,為比較序列的相似性而普遍使用的序列距離度量方法。簡單介紹DTW距離所涉及的相關(guān)概念如下在下面的表1中首先給出DTW距離的定義
權(quán)利要求
1.一種同源僵尸網(wǎng)絡(luò)判別方法,包括步驟1)、根據(jù)僵尸網(wǎng)絡(luò)數(shù)據(jù)計算僵尸網(wǎng)絡(luò)的通訊量特征與通訊頻率特征,得到相應(yīng)的通訊量日周期曲線與通訊頻率日周期曲線;步驟幻、從所述通訊量日周期曲線與通訊頻率日周期曲線中提取各自的特征點,根據(jù)所述特征點分別生成通訊量標準化形狀曲線以及通訊頻率標準化形狀曲線;步驟3)、計算所要比較的僵尸網(wǎng)絡(luò)對的通訊量標準化形狀曲線間的第一歐式距離以及通訊頻率標準化形狀曲線的第二歐氏距離,根據(jù)所述第一歐式距離與所述第二歐式距離判斷所要比較的僵尸網(wǎng)絡(luò)對是否屬于同源僵尸網(wǎng)絡(luò)。
2.根據(jù)權(quán)利要求1所述的同源僵尸網(wǎng)絡(luò)判別方法,其特征在于,在所述的步驟3)中,所述的根據(jù)所述第一歐式距離與所述第二歐式距離判斷所要比較的僵尸網(wǎng)絡(luò)對是否屬于同源僵尸網(wǎng)絡(luò)包括若所述第一歐式距離與所述第二歐式距離都大于第一閾值,則所要比較的僵尸網(wǎng)絡(luò)對屬于不同源的僵尸網(wǎng)絡(luò),否則,所要比較的僵尸網(wǎng)絡(luò)對屬于同源僵尸網(wǎng)絡(luò)。
3.根據(jù)權(quán)利要求1或2所述的同源僵尸網(wǎng)絡(luò)判別方法,其特征在于,還包括對步驟3) 中認為是同源僵尸網(wǎng)絡(luò)的僵尸網(wǎng)絡(luò)對做進一步判別的步驟;所述步驟包括步驟4)、將所述通訊量日周期曲線和通訊頻率日周期曲線連接生成通訊特征曲線;步驟5)、計算所要比較的僵尸網(wǎng)絡(luò)對的通訊特征曲線的DTW距離,若所述DTW距離大于第二閾值,則所要比較的僵尸網(wǎng)絡(luò)對為不同源僵尸網(wǎng)絡(luò),否則屬于同源僵尸網(wǎng)絡(luò)。
4.根據(jù)權(quán)利要求1或2或3所述同源僵尸網(wǎng)絡(luò)判別方法,其特征在于,所述的步驟2) 包括步驟2-1)、從所述通訊量日周期曲線與通訊頻率日周期曲線中提取各自的特征點,得到關(guān)于特征點的集合{S[iJ,S[i2],…^[。丨,記叉饑、.])]^…])(1彡j彡q)分別為特征點 S[ij]的橫、縱坐標,其中 X(Sti1) <x(S[iJ), (1 ^ 1 < m ^ q);步驟2- 、將所述特征點集合中的所有q個特征點按大小順序映射到區(qū)間W,l];步驟2-3)、將集合{y (S[ij]) I 1彡j彡q}按升序排列得到數(shù)組C,記g為集合{S[iJ, S[i2],…,S[iq]}到集合{i|i e z+,i 彡 q}的映射,若 y(S[ij.]) = C[k], (1 彡 j 彡 q, 1 彡 k彡 q),則 g(S[ij.]) = k;步驟2-4)、將所述特征點集合中的q個特征點通過變換得到標準形狀曲線的特征點集合:{W 岷]ι步驟2- 、由所述標準形狀曲線中的特征點擬合生成標準形狀曲線。
5.根據(jù)權(quán)利要求4所述同源僵尸網(wǎng)絡(luò)判別方法,其特征在于,在所述的步驟2-1)中,所述的從所述通訊量日周期曲線與通訊頻率日周期曲線中提取各自的特征點包括步驟2-1-1)、從所述通訊量日周期曲線與通訊頻率日周期曲線中選擇曲線的起始點和結(jié)束點作為特征點;步驟2-1-2)、從所述通訊量日周期曲線與通訊頻率日周期曲線中取出極值點,將所述極值點中橫坐標間距離大于第三閾值的極值點作為特征點。
6.根據(jù)權(quán)利要求4所述同源僵尸網(wǎng)絡(luò)判別方法,其特征在于,在所述的步驟2-1)中,所述的從所述通訊量日周期曲線與通訊頻率日周期曲線中提取各自的特征點包括步驟2-2-1)、遍歷所述的通訊量日周期曲線與通訊頻率日周期曲線,找到其中的所有極值點,所述極值點包括極大值點與極小值點;步驟2-2-2)、按時間屬性的大小順序,判斷極值點與前一極值點間的距離是否大于閾值德爾塔,若大于,則該極值點為特征點,否則就不是;所述閾值德爾塔由實驗確定。
7.根據(jù)權(quán)利要求3所述同源僵尸網(wǎng)絡(luò)判別方法,其特征在于,在所述的步驟4)中,在連接所述通訊量曲線和通訊頻率曲線前,按比例縮小其中一條曲線,以使得兩者的數(shù)量級相同。
8.根據(jù)權(quán)利要求3所述同源僵尸網(wǎng)絡(luò)判別方法,其特征在于,所述的步驟幻包括 步驟5-1)、將長度為N的僵尸網(wǎng)絡(luò)通訊特征曲線S1, S2,…,&轉(zhuǎn)化為長度為f的序列PAA(S1),…,PAA(Sf);其中,f = q-1, q為最優(yōu)特征點的數(shù)量;步驟5-2)、對于僵尸網(wǎng)絡(luò)通訊特征曲線S1, S2,…,&中的曲線Si;l彡i彡n,計算其上下界,分別記為矻、A;步驟5-3)、從僵尸網(wǎng)絡(luò)通訊特征曲線S1, S2,…,&中找出< j彡n),使得 ^]e(ijk]-p,ujk]+p)A<k<f]n^m ρ 為曲線彎曲率;步驟5-4)、計算LB_PAA(Si;。),若計算結(jié)果小于或等于所述的第二閾值,則計算 DTffp (Si, I),否則,所要比較的僵尸網(wǎng)絡(luò)為不同源僵尸網(wǎng)絡(luò);步驟5-5)、若DTWp (Si5Sj)小于或等于所述的第二閾值,則所要比較的僵尸網(wǎng)絡(luò)對為不同源僵尸網(wǎng)絡(luò),否則屬于同源僵尸網(wǎng)絡(luò)。
全文摘要
本發(fā)明提供一種同源僵尸網(wǎng)絡(luò)判別方法,包括根據(jù)僵尸網(wǎng)絡(luò)數(shù)據(jù)計算僵尸網(wǎng)絡(luò)的通訊量特征與通訊頻率特征,得到相應(yīng)的通訊量日周期曲線與通訊頻率日周期曲線;從所述通訊量日周期曲線與通訊頻率日周期曲線中提取各自的特征點,根據(jù)所述特征點分別生成通訊量標準化形狀曲線以及通訊頻率標準化形狀曲線;計算所要比較的僵尸網(wǎng)絡(luò)對的通訊量標準化形狀曲線間的第一歐式距離以及通訊頻率標準化形狀曲線的第二歐氏距離,根據(jù)所述第一歐式距離與所述第二歐式距離判斷所要比較的僵尸網(wǎng)絡(luò)對是否屬于同源僵尸網(wǎng)絡(luò)。本發(fā)明的方法判別同源僵尸網(wǎng)絡(luò)的準確率較高。
文檔編號H04L12/26GK102238044SQ201010163239
公開日2011年11月9日 申請日期2010年4月30日 優(yōu)先權(quán)日2010年4月30日
發(fā)明者周斌, 李潤恒, 李愛平, 楊樹強, 王小偉, 甘亮, 賈焰, 韓偉紅 申請人:中國人民解放軍國防科學(xué)技術(shù)大學(xué)