一種基于行為檢測(cè)實(shí)現(xiàn)網(wǎng)絡(luò)流量識(shí)別的方法及裝置制造方法
【專利摘要】本申請(qǐng)公開了一種基于行為檢測(cè)實(shí)現(xiàn)網(wǎng)絡(luò)流量識(shí)別的方法及裝置,包括:抓取網(wǎng)絡(luò)流量的數(shù)據(jù)包信息,并進(jìn)行傳輸控制協(xié)議(TCP)會(huì)話重組,以分別提取各TCP會(huì)話流信息;根據(jù)木馬通信的會(huì)話特征,提取各TCP會(huì)話流信息的會(huì)話統(tǒng)計(jì)特征信息,并建立相應(yīng)的TCP會(huì)話特征矩陣信息;采用基于菌群優(yōu)化的聚類方法對(duì)TCP會(huì)話特征矩陣信息進(jìn)行優(yōu)化聚類,以生成優(yōu)化聚類信息;根據(jù)優(yōu)化聚類信息,獲得每一TCP會(huì)話流所屬的網(wǎng)絡(luò)流量類別信息。本發(fā)明通過從網(wǎng)絡(luò)流量的數(shù)據(jù)包提取TCP會(huì)話流,根據(jù)木馬通信的會(huì)話特征獲得TCP會(huì)話統(tǒng)計(jì)特征信息,以此生成TCP會(huì)話特征矩陣信息,采用基于菌群優(yōu)化的聚類方法對(duì)TCP會(huì)話特征矩陣信息進(jìn)行優(yōu)化聚類,獲得TCP會(huì)話流的網(wǎng)絡(luò)流量類別信息。
【專利說明】—種基于行為檢測(cè)實(shí)現(xiàn)網(wǎng)絡(luò)流量識(shí)別的方法及裝置【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)安全領(lǐng)域,尤指一種基于行為檢測(cè)實(shí)現(xiàn)網(wǎng)絡(luò)流量識(shí)別的方法及裝置。
【背景技術(shù)】
[0002]隨著黑客攻擊行為的組織性、趨利性越來越強(qiáng),高級(jí)持續(xù)威脅(AdvancedPersistent Threat,簡(jiǎn)稱APT)已經(jīng)成為了政府和各大企業(yè)信息系統(tǒng)最大威脅。木馬作為各種入侵的重要環(huán)節(jié)之一,成為研究安全問題的重點(diǎn)。據(jù)2012年CNCERT/CC抽樣監(jiān)測(cè)結(jié)果顯示,境內(nèi)外木馬或僵尸程序控制服務(wù)器IP數(shù)量達(dá)到286977個(gè),境外木馬或僵尸程序控制服務(wù)器IP數(shù)量達(dá)到73286個(gè),較2011年均分別有13.1%和56.9%的增長(zhǎng)。我國(guó)重要信息系統(tǒng)同樣也面臨著形勢(shì)嚴(yán)重的網(wǎng)絡(luò)攻擊威脅。
[0003]與其他惡意軟件不同,木馬的運(yùn)行不會(huì)造成系統(tǒng)明顯的變化,其本身的隱蔽性使其不容易被發(fā)現(xiàn)。目前,針對(duì)木馬的通信檢測(cè)技術(shù)主要分為:基于特征匹配、基于協(xié)議分析和基于行為分析的檢測(cè)技術(shù)?;谔卣髌ヅ涞臋z測(cè)技術(shù),主要通過預(yù)先設(shè)定一定的入侵模式與網(wǎng)絡(luò)監(jiān)控獲得的網(wǎng)絡(luò)行為進(jìn)行模式匹配來檢測(cè)。基于特征匹配的檢測(cè)技術(shù)具有一定的信息滯后性,并且木馬的通信過程往往不攜帶特征字符串,因此在對(duì)未知的入侵活動(dòng)或已知入侵活動(dòng)變異后進(jìn)行的檢測(cè),該方法檢測(cè)性能較低,漏報(bào)率較高?;趨f(xié)議分析檢測(cè)技術(shù)的是一種需要和其他檢測(cè)技術(shù)配合,才能達(dá)到木馬檢測(cè)的一種技術(shù),因此無法單獨(dú)的采用基于協(xié)議分析的檢測(cè)技術(shù)。基于行為分析的檢測(cè)技術(shù),主要針對(duì)木馬的活動(dòng)行為特征進(jìn)行檢測(cè),不需要和其他技術(shù)特征一同使用,且對(duì)于未知的入侵和變異的木馬等,不存在基于特征匹配的檢測(cè)技術(shù)的不足,因此,基于行為的檢測(cè)技術(shù)是檢測(cè)網(wǎng)絡(luò)中木馬通信的最佳選擇。
[0004]由于木馬的惡意目的,木馬通信和正常的網(wǎng)絡(luò)通信在網(wǎng)絡(luò)會(huì)話行為上具有差異性。在木馬的交互連接,木馬通信在會(huì)話上表現(xiàn)為如下特點(diǎn):
[0005](1)該階段木馬通信是一個(gè)長(zhǎng)時(shí)間的交互過程,會(huì)話時(shí)長(zhǎng)會(huì)長(zhǎng)于普通通信流量,木馬通信過程中所傳送數(shù)據(jù)包總數(shù)較多,會(huì)話小包也數(shù)量較多。
[0006](2)木馬控制端在通信中扮演資源請(qǐng)求者的角色,因此會(huì)話上傳數(shù)據(jù)量較大。提取會(huì)話上傳數(shù)據(jù)量(Upload Data)的特征。
[0007](3)木馬通信時(shí)的數(shù)據(jù)流表現(xiàn)為由內(nèi)向外的上傳流的特點(diǎn),因此在木馬通信過程中上傳數(shù)據(jù)量和下載數(shù)據(jù)量的比值大于I。
[0008](4)木馬通信過程中數(shù)據(jù)包分布特點(diǎn)具有以下特點(diǎn):會(huì)話接收小包數(shù)量一般占會(huì)話小包數(shù)量的50%以上;會(huì)話發(fā)送大包數(shù)量一般占會(huì)話大包數(shù)量的50%以上,會(huì)話接收數(shù)據(jù)包數(shù)量一般小于發(fā)送數(shù)據(jù)包的數(shù)量。
[0009]通過多個(gè)不同統(tǒng)計(jì)特征對(duì)會(huì)話行為的描述,目前的通過以上特性進(jìn)行木馬通信的會(huì)話特征分析,由于會(huì)話特征有限,存在誤報(bào)率較高的問題,另外,目前對(duì)會(huì)話特征的信息分析主要采用k均值的方法,該類算法僅可以實(shí)現(xiàn)局部最優(yōu),且存在初值敏感問題。因此,受初值選取和局部最優(yōu)的影響,初值選取一旦不合理,采用該類算法進(jìn)行木馬檢測(cè),其分析結(jié)果往往十分不理想。
[0010]綜上所述,目前采用的基于行為的檢測(cè)技術(shù)雖然是木馬檢測(cè)的最佳選擇,但是在會(huì)話特征的信息有限,且目前對(duì)會(huì)話特征信息的處理方法,在初值選取和局部最優(yōu)等方面的特點(diǎn),嚴(yán)重影響了基于行為的檢測(cè)技術(shù)對(duì)木馬的檢測(cè)。
【發(fā)明內(nèi)容】
[0011]為了解決上述技術(shù)問題,本發(fā)明公開了一種基于行為檢測(cè)實(shí)現(xiàn)網(wǎng)絡(luò)流量識(shí)別的方法及裝置。能夠通過網(wǎng)絡(luò)流量的識(shí)別,對(duì)未知木馬的流量進(jìn)行識(shí)別檢測(cè)。
[0012]為了達(dá)到本申請(qǐng)的目的,本發(fā)明提供一種基于行為檢測(cè)實(shí)現(xiàn)網(wǎng)絡(luò)流量識(shí)別的方法,包括:
[0013]抓取網(wǎng)絡(luò)流量的數(shù)據(jù)包信息,并進(jìn)行傳輸控制協(xié)議TCP會(huì)話重組,以分別提取各TCP會(huì)話流信息;
[0014]根據(jù)木馬通信的會(huì)話特征,提取各TCP會(huì)話流信息的會(huì)話統(tǒng)計(jì)特征信息,并建立相應(yīng)的TCP會(huì)話特征矩陣信息;
[0015]采用基于菌群優(yōu)化的聚類方法對(duì)TCP會(huì)話特征矩陣信息進(jìn)行優(yōu)化聚類,以生成優(yōu)化聚類信息;
[0016]根據(jù)優(yōu)化聚類信息,獲得每一 TCP會(huì)話流所屬的網(wǎng)絡(luò)流量類別信息。
[0017]進(jìn)一步地,會(huì)話統(tǒng)計(jì)特征信息包含:會(huì)話的數(shù)據(jù)包總數(shù)、會(huì)話時(shí)長(zhǎng)、會(huì)話小包總數(shù)、會(huì)話接收小包數(shù)目與會(huì)話小包總數(shù)的比值、會(huì)話發(fā)送大包數(shù)目與會(huì)話大包總數(shù)的比值、會(huì)話接收和發(fā)送數(shù)據(jù)包總數(shù)的比值、會(huì)話下行流量與上行流量的比值、會(huì)話總上傳數(shù)據(jù)量、會(huì)話發(fā)送數(shù)據(jù)包的平均長(zhǎng)度信息。
[0018]進(jìn)一步地,建立相應(yīng)的TCP會(huì)話特征矩陣信息之后,該方法還包括:利用最大最小值法對(duì)所述相應(yīng)的TCP會(huì)話特征矩陣信息中的各維特征值進(jìn)行歸一化處理。
[0019]進(jìn)一步地,預(yù)先設(shè)置網(wǎng)絡(luò)流量的類別標(biāo)簽,在生成優(yōu)化聚類信息后,該方法還包括:根據(jù)所述優(yōu)化聚類信息,確定每一 TCP會(huì)話流所屬的網(wǎng)絡(luò)流量類別信息,按照預(yù)先設(shè)置的網(wǎng)絡(luò)流量的類別標(biāo)簽進(jìn)行標(biāo)記。
[0020]另一方面,本申請(qǐng)還提供一種基于行為檢測(cè)實(shí)現(xiàn)網(wǎng)絡(luò)流量識(shí)別的裝置,包括:會(huì)話重組模塊、特征矩陣生成模塊、會(huì)話聚類模塊、流量識(shí)別模塊;其中,
[0021]會(huì)話重組模塊,用于抓取網(wǎng)絡(luò)流量的數(shù)據(jù)包信息,并進(jìn)行傳輸控制協(xié)議TCP會(huì)話重組,以分別提取各TCP會(huì)話流信息;
[0022]特征矩陣生成模塊,用于根據(jù)木馬通信的會(huì)話特征,從會(huì)話重組模塊的各TCP會(huì)話流信息中提取會(huì)話統(tǒng)計(jì)特征信息,并建立相應(yīng)的TCP會(huì)話特征矩陣信息;
[0023]聚類模塊,用于采用基于菌群優(yōu)化的聚類方法,對(duì)特征矩陣生成模塊建立的TCP會(huì)話特征矩陣信息進(jìn)行優(yōu)化聚類,以生成優(yōu)化聚類信息;
[0024]流量識(shí)別模塊,用于根據(jù)聚類模塊優(yōu)化聚類信息,確定每一 TCP會(huì)話流所屬的網(wǎng)絡(luò)流量類別信息。
[0025]進(jìn)一步地,會(huì)話統(tǒng)計(jì)特征信息包含:會(huì)話的數(shù)據(jù)包總數(shù)、會(huì)話時(shí)長(zhǎng)、會(huì)話小包總數(shù)、會(huì)話接收小包數(shù)目與會(huì)話小包總數(shù)的比值、會(huì)話發(fā)送大包數(shù)目與會(huì)話大包總數(shù)的比值、會(huì)話接收和發(fā)送數(shù)據(jù)包總數(shù)的比值、會(huì)話下行流量與上行流量的比值、會(huì)話總上傳數(shù)據(jù)量、會(huì)話發(fā)送數(shù)據(jù)包的平均長(zhǎng)度信息。
[0026]進(jìn)一步地,該裝置還包括矩陣歸一模塊,連接于特征矩陣生成模塊與聚類模塊之間,用于利用最大最小值法對(duì)所述相應(yīng)的TCP會(huì)話特征矩陣信息中的各維特征值進(jìn)行歸一化處理。
[0027]進(jìn)一步地,該裝置還包括聚類標(biāo)簽?zāi)K,用于預(yù)先設(shè)置網(wǎng)絡(luò)流量的類別標(biāo)簽,在生成優(yōu)化聚類信息后,根據(jù)所述優(yōu)化聚類信息,確定每一 TCP會(huì)話流所屬的網(wǎng)絡(luò)流量類別信息,按照預(yù)先設(shè)置的網(wǎng)絡(luò)流量的類別標(biāo)簽進(jìn)行標(biāo)記。
[0028]本申請(qǐng)?zhí)岢鲆环N技術(shù)方案,包括:抓取網(wǎng)絡(luò)流量的數(shù)據(jù)包信息,并進(jìn)行傳輸控制協(xié)議(TCP)會(huì)話重組,以分別提取各TCP會(huì)話流信息;根據(jù)木馬通信的會(huì)話特征,提取各TCP會(huì)話流信息的會(huì)話統(tǒng)計(jì)特征信息,并建立相應(yīng)的TCP會(huì)話特征矩陣信息;采用基于菌群優(yōu)化的聚類方法對(duì)TCP會(huì)話特征矩陣信息進(jìn)行優(yōu)化聚類,以生成優(yōu)化聚類信息;根據(jù)優(yōu)化聚類信息,獲得每一TCP會(huì)話流所屬的網(wǎng)絡(luò)流量類別信息。本發(fā)明通過從網(wǎng)絡(luò)流量的數(shù)據(jù)包提取TCP會(huì)話流,根據(jù)木馬通信的會(huì)話特征獲得TCP會(huì)話統(tǒng)計(jì)特征信息,以此生成TCP會(huì)話特征矩陣信息,采用基于菌群優(yōu)化的聚類方法對(duì)TCP會(huì)話特征矩陣信息進(jìn)行優(yōu)化聚類,獲得TCP會(huì)話流的網(wǎng)絡(luò)流量類別信息。
【專利附圖】
【附圖說明】
[0029]此處所說明的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0030]圖1為本發(fā)明基于行為檢測(cè)實(shí)現(xiàn)網(wǎng)絡(luò)流量識(shí)別的方法的流程圖;
[0031]圖2為本發(fā)明基于行為檢測(cè)實(shí)現(xiàn)網(wǎng)絡(luò)流量識(shí)別的實(shí)施例流程圖;
[0032]圖3為本發(fā)明基于行為檢測(cè)實(shí)現(xiàn)網(wǎng)絡(luò)流量識(shí)別的裝置的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0033]菌群優(yōu)化方法是一種基于群體的優(yōu)化技術(shù),具有算法簡(jiǎn)單、收斂速度快,所需先驗(yàn)知識(shí)少的特點(diǎn),在優(yōu)化過程中,無需對(duì)象的梯度信息,具有較強(qiáng)的通用性?;诰簝?yōu)化的聚類方法是一種新近提出的聚類技術(shù),在大規(guī)模高維數(shù)據(jù)上具有良好的實(shí)驗(yàn)效果,其聚類結(jié)果穩(wěn)定,對(duì)中心初值不敏感,適用于類別大小不同的數(shù)據(jù)集,并能夠找到全局最優(yōu)解的特點(diǎn)。
[0034]圖1為本發(fā)明基于行為檢測(cè)實(shí)現(xiàn)網(wǎng)絡(luò)流量識(shí)別的方法的流程圖,如圖1所示,包括:
[0035]步驟100、抓取網(wǎng)絡(luò)流量的數(shù)據(jù)包信息,并進(jìn)行傳輸控制協(xié)議(TCP)會(huì)話重組,以分別提取各TCP會(huì)話流信息。
[0036]步驟101、根據(jù)木馬通信的會(huì)話特征,提取各TCP會(huì)話流信息的會(huì)話統(tǒng)計(jì)特征信息,并建立相應(yīng)的TCP會(huì)話特征矩陣信息。
[0037]本步驟中,會(huì)話統(tǒng)計(jì)特征信息包含:會(huì)話統(tǒng)計(jì)特征信息包含:會(huì)話的數(shù)據(jù)包總數(shù)、會(huì)話時(shí)長(zhǎng)、會(huì)話小包總數(shù)、會(huì)話接收小包數(shù)目與會(huì)話小包總數(shù)的比值、會(huì)話發(fā)送大包數(shù)目與會(huì)話大包總數(shù)的比值、會(huì)話接收和發(fā)送數(shù)據(jù)包總數(shù)的比值、會(huì)話下行流量與上行流量的比值、會(huì)話總上傳數(shù)據(jù)量、會(huì)話發(fā)送數(shù)據(jù)包的平均長(zhǎng)度信息。[0038]需要說明的是,網(wǎng)絡(luò)流量數(shù)據(jù)包信息的抓取,TCP的會(huì)話重組為本領(lǐng)域技術(shù)人員的慣用技術(shù)手段,另外,會(huì)話統(tǒng)計(jì)特征信息,是根據(jù)木馬通信和正常通信的TCP特點(diǎn)進(jìn)行分析提取的,其根據(jù)網(wǎng)絡(luò)通信的發(fā)展,其會(huì)話統(tǒng)計(jì)特征信息會(huì)產(chǎn)生相應(yīng)的變化,其包含的內(nèi)容可能增加或減少,根據(jù)網(wǎng)絡(luò)通信發(fā)展的變化,會(huì)話統(tǒng)計(jì)特征信息是可以進(jìn)行相應(yīng)的調(diào)整,例如,會(huì)話總上傳數(shù)據(jù)量、會(huì)話發(fā)送數(shù)據(jù)包的平均長(zhǎng)度等也可以作為會(huì)話統(tǒng)計(jì)特征信息,該部分的調(diào)整應(yīng)當(dāng)屬于本發(fā)明的保護(hù)范圍。
[0039]步驟102、采用基于菌群優(yōu)化的聚類方法對(duì)TCP會(huì)話特征矩陣信息進(jìn)行優(yōu)化聚類,以生成優(yōu)化聚類信息。
[0040]步驟103、根據(jù)優(yōu)化聚類信息,獲得每一 TCP會(huì)話流所屬的網(wǎng)絡(luò)流量類別信息。
[0041]建立相應(yīng)的TCP會(huì)話特征矩陣信息之后,本發(fā)明方法還包括:利用最大最小值法對(duì)相應(yīng)的TCP會(huì)話特征矩陣信息中的各維特征值進(jìn)行歸一化處理。這里,通過歸一化處理,可以使TCP會(huì)話特征矩陣信息的特征更加清楚明顯,可以使本發(fā)明優(yōu)化聚類等數(shù)據(jù)處理過程,更加合理,有利于對(duì)獲得的信息進(jìn)行優(yōu)化聚類。
[0042]預(yù)先設(shè)置網(wǎng)絡(luò)流量的類別標(biāo)簽,在生成優(yōu)化聚類信息后,本發(fā)明方法還包括:根據(jù)優(yōu)化聚類信息,確定每一 TCP會(huì)話流所屬的網(wǎng)絡(luò)流量類別信息,按照預(yù)先設(shè)置的網(wǎng)絡(luò)流量的類別標(biāo)簽進(jìn)行標(biāo)記。
[0043]通過類別標(biāo)簽,可以將網(wǎng)絡(luò)流量的識(shí)別結(jié)果進(jìn)行高效的分類和整理。
[0044]下面結(jié)合本發(fā)明具體實(shí)施例,對(duì)本發(fā)明方法進(jìn)行詳細(xì)的說明,實(shí)施例只是為了清楚說明本發(fā)明的內(nèi)容,并不用于限制本發(fā)明的保護(hù)內(nèi)容。
[0045]實(shí)施例1
[0046]圖2為本發(fā)明基于行為檢測(cè)實(shí)現(xiàn)網(wǎng)絡(luò)流量識(shí)別的實(shí)施例流程圖,如圖2所示,包括:
[0047]步驟200、抓取網(wǎng)絡(luò)流量的數(shù)據(jù)包信息,并進(jìn)行傳輸控制協(xié)議(TCP)會(huì)話重組,以提取各TCP會(huì)話流信息。
[0048]需要說明的是,抓取網(wǎng)絡(luò)數(shù)據(jù)包信息,會(huì)進(jìn)行TCP協(xié)議的解析,該部分為公知常識(shí),即使本發(fā)明未進(jìn)行說明,本領(lǐng)域技術(shù)人員也應(yīng)當(dāng)清楚這一步驟。
[0049]根據(jù)木馬在交互連接階段所表現(xiàn)出的通信行為特點(diǎn),提取TCP會(huì)話的統(tǒng)計(jì)特征,建立TCP會(huì)話特征矩陣;
[0050]步驟201、根據(jù)木馬通信的會(huì)話特征,提取各TCP會(huì)話流信息中9個(gè)會(huì)話統(tǒng)計(jì)特征信息,并建立相應(yīng)的TCP會(huì)話特征矩陣信息。
[0051]本步驟中,9個(gè)會(huì)話統(tǒng)計(jì)特征信息為:會(huì)話的數(shù)據(jù)包總數(shù)、會(huì)話時(shí)長(zhǎng)、會(huì)話小包總數(shù)、會(huì)話接收小包數(shù)目與會(huì)話小包總數(shù)的比值、會(huì)話發(fā)送大包數(shù)目與會(huì)話大包總數(shù)的比值、會(huì)話接收和發(fā)送數(shù)據(jù)包總數(shù)的比值、會(huì)話下行流量與上行流量的比值、會(huì)話總上傳數(shù)據(jù)量、會(huì)話發(fā)送數(shù)據(jù)包的平均長(zhǎng)度信息。
[0052]需要說明的是,從現(xiàn)有技術(shù)中可知,木馬的網(wǎng)絡(luò)通信和正常的網(wǎng)絡(luò)通信區(qū)別的會(huì)話特征,本實(shí)施例將會(huì)話特征進(jìn)行統(tǒng)計(jì),得出會(huì)話統(tǒng)計(jì)特征信息。具體的,本實(shí)施例提取出以下會(huì)話統(tǒng)計(jì)特征信息:
[0053]1、會(huì)話的數(shù)據(jù)包總數(shù),單位:個(gè);
[0054]2、會(huì)話時(shí)長(zhǎng),單位:秒;[0055]3、會(huì)話小包總數(shù),單位:個(gè),將長(zhǎng)度小于200字節(jié)的數(shù)據(jù)包定義為小包;
[0056]4、會(huì)話接收小包數(shù)目與會(huì)話小包總數(shù)的比值,單位:無;
[0057]5、會(huì)話發(fā)送大包數(shù)目與會(huì)話大包總數(shù)的比值,單位:無,將長(zhǎng)度大于1000字節(jié)的數(shù)據(jù)包定義為大包;
[0058]6、會(huì)話接收和發(fā)送數(shù)據(jù)包總數(shù)的比值,單位:無;
[0059]7、會(huì)話下行流量與上行流量的比值,單位:無;
[0060]8、會(huì)話總上傳數(shù)據(jù)量,單位:字節(jié);
[0061]9、會(huì)話發(fā)送數(shù)據(jù)包的平均長(zhǎng)度,單位:字節(jié)、
[0062]步驟202、采用基于菌群優(yōu)化的聚類方法對(duì)TCP會(huì)話特征矩陣信息進(jìn)行優(yōu)化聚類,以生成優(yōu)化聚類信息。
[0063]菌群優(yōu)化方法是一種基于群體的優(yōu)化技術(shù),具有算法簡(jiǎn)單、收斂速度快,所需先驗(yàn)知識(shí)少的特點(diǎn),在優(yōu)化過程中,無需對(duì)象的梯度信息,具有較強(qiáng)的通用性?;诰簝?yōu)化的聚類方法是一種新近提出的聚類技術(shù),在大規(guī)模高維數(shù)據(jù)上具有良好的實(shí)驗(yàn)效果,其聚類結(jié)果穩(wěn)定,對(duì)中心初值不敏感,適用于類別大小不同的數(shù)據(jù)集,并能夠找到全局最優(yōu)解的特點(diǎn)符合網(wǎng)絡(luò)流量數(shù)據(jù)聚類的特定需求。
[0064]步驟203、根據(jù)優(yōu)化聚類信息,獲得每一 TCP會(huì)話流所屬的網(wǎng)絡(luò)流量類別信息。
[0065]本實(shí)施例中,TCP會(huì)話特征矩陣信息作為菌群優(yōu)化的聚類方法的輸入矩陣,在給定聚類數(shù)目k的前提下,菌群優(yōu)化的聚類方法的步驟如下:
[0066]1、初始化,在菌群優(yōu)化的聚類方法開始迭代之前,需要對(duì)其算法的參數(shù)進(jìn)行預(yù)先設(shè)置,并賦給它們一定的初始值。令t=l,并在搜索空間中為每個(gè)聚類中心隨機(jī)生成S個(gè)細(xì)菌的位置。
[0067]2.迭代開始,令t=t+l,每個(gè)細(xì)菌個(gè)體根據(jù)迭代方程進(jìn)行翻轉(zhuǎn)移位。每次迭代之后,計(jì)算目標(biāo)函數(shù)的代價(jià),比較細(xì)菌當(dāng)前的代價(jià)與之前迭代步驟中的代價(jià)值,若當(dāng)前值比之前的目標(biāo)函數(shù)值小且未達(dá)到最大迭代步數(shù),則前進(jìn),更新當(dāng)前細(xì)菌的位置,并更新目標(biāo)函數(shù)的代價(jià)值。計(jì)算中選取歐幾里德距離來度量各個(gè)細(xì)菌在數(shù)據(jù)空間中的距離。
[0068]3.各個(gè)細(xì)菌順序執(zhí)行繁殖、遷徙過程,并更新位置。
[0069]4.當(dāng)算法執(zhí)行步數(shù)達(dá)到預(yù)設(shè)的最大迭代步數(shù)Istep,算法終止,并轉(zhuǎn)到第5步,否則返回第2步。
[0070]5、迭代終止后,算法收斂到空間中的若干個(gè)點(diǎn),即所有細(xì)菌都會(huì)移動(dòng)到數(shù)據(jù)空間中的幾個(gè)固定位置,這幾個(gè)點(diǎn)就是聚類算法最終得到的聚類中心。
[0071]6.劃分?jǐn)?shù)據(jù),得到聚類結(jié)果。根據(jù)得到的聚類中心,依據(jù)最近距離的原則,將數(shù)據(jù)集中的各個(gè)數(shù)據(jù)標(biāo)記到對(duì)應(yīng)的類別中去,得到最終的聚類結(jié)果。
[0072]在建立TCP會(huì)話特征矩陣信息之后,本發(fā)明方法還包括:利用最大最小值法對(duì)TCP會(huì)話特征矩陣信息中的各維特征值進(jìn)行歸一化處理。這里,通過歸一化處理,可以使TCP會(huì)話特征矩陣信息的特征更加清楚明顯,可以使本發(fā)明優(yōu)化聚類等數(shù)據(jù)處理過程,更加合理,有利于對(duì)獲得的信息進(jìn)行優(yōu)化聚類。
[0073]本實(shí)施例中,為避免不同特征的單位差異過大對(duì)聚類結(jié)果產(chǎn)生的影響,利用最大最小值法對(duì)會(huì)話特征矩陣信息中的各維特征值進(jìn)行歸一化處理。
[0074]在生成優(yōu)化聚類信息后,本發(fā)明方法還包括:預(yù)先設(shè)置網(wǎng)絡(luò)流量的類別標(biāo)簽,根據(jù)優(yōu)化聚類信息,確定每一 TCP會(huì)話流所屬的網(wǎng)絡(luò)流量類別信息,按照預(yù)先設(shè)置的網(wǎng)絡(luò)流量的類別標(biāo)簽進(jìn)行標(biāo)記。
[0075]預(yù)先設(shè)置網(wǎng)絡(luò)流量的類別標(biāo)簽,即標(biāo)記聚類中心。在迭代終止后,TCP會(huì)話流經(jīng)過優(yōu)化聚類之后歸入哪個(gè)類別,便會(huì)被賦予該類別的標(biāo)簽,在本實(shí)施例中,針對(duì)木馬的TCP網(wǎng)絡(luò)流量識(shí)別,可以將優(yōu)化聚類數(shù)目預(yù)設(shè)為2,類別標(biāo)簽分別為:普通網(wǎng)絡(luò)流量標(biāo)簽為I和異常網(wǎng)絡(luò)流量(木馬網(wǎng)絡(luò)流量)標(biāo)簽為2,則每個(gè)TCP會(huì)話流都會(huì)產(chǎn)生網(wǎng)絡(luò)流量類別的標(biāo)簽信息。以實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)流量識(shí)別的有效識(shí)別區(qū)分。
[0076]圖3為本發(fā)明基于行為檢測(cè)實(shí)現(xiàn)網(wǎng)絡(luò)流量識(shí)別的裝置的結(jié)構(gòu)框圖,如圖3所示,包括:會(huì)話重組模塊、特征矩陣生成模塊、會(huì)話聚類模塊、流量識(shí)別模塊;其中,
[0077]會(huì)話重組模塊,用于抓取網(wǎng)絡(luò)流量的數(shù)據(jù)包信息,并進(jìn)行傳輸控制協(xié)議TCP會(huì)話重組,以分別提取各TCP會(huì)話流信息。
[0078]特征矩陣生成模塊,用于根據(jù)木馬通信的會(huì)話特征,從會(huì)話重組模塊的各TCP會(huì)話流信息中提取會(huì)話統(tǒng)計(jì)特征信息,并建立相應(yīng)的TCP會(huì)話特征矩陣信息。
[0079]進(jìn)一步地,會(huì)話統(tǒng)計(jì)特征信息包含:會(huì)話的數(shù)據(jù)包總數(shù)、會(huì)話時(shí)長(zhǎng)、會(huì)話小包總數(shù)、會(huì)話接收小包數(shù)目與會(huì)話小包總數(shù)的比值、會(huì)話發(fā)送大包數(shù)目與會(huì)話大包總數(shù)的比值、會(huì)話接收和發(fā)送數(shù)據(jù)包總數(shù)的比值、會(huì)話下行流量與上行流量的比值、會(huì)話總上傳數(shù)據(jù)量、會(huì)話發(fā)送數(shù)據(jù)包的平均長(zhǎng)度信息。
[0080]聚類模塊,用于采用基于菌群優(yōu)化的聚類方法,對(duì)特征矩陣生成模塊建立的TCP會(huì)話特征矩陣信息進(jìn)行優(yōu)化聚類,以生成優(yōu)化聚類信息;
[0081]流量識(shí)別模塊,用于根據(jù)聚類模塊優(yōu)化聚類信息,確定每一 TCP會(huì)話流所屬的網(wǎng)絡(luò)流量類別信息。
[0082]本發(fā)明裝置還包括矩陣歸一模塊,連接于特征矩陣生成模塊與聚類模塊之間,用于利用最大最小值法對(duì)相應(yīng)的TCP會(huì)話特征矩陣信息中的各維特征值進(jìn)行歸一化處理。
[0083]本發(fā)明裝置還包括聚類標(biāo)簽?zāi)K,用于預(yù)先設(shè)置網(wǎng)絡(luò)流量的類別標(biāo)簽,在生成優(yōu)化聚類信息后,根據(jù)優(yōu)化聚類信息,確定每一 TCP會(huì)話流所屬的網(wǎng)絡(luò)流量類別信息,按照預(yù)先設(shè)置的網(wǎng)絡(luò)流量的類別標(biāo)簽進(jìn)行標(biāo)記。
[0084]雖然本申請(qǐng)所揭露的實(shí)施方式如上,但所述的內(nèi)容僅為便于理解本申請(qǐng)而采用的實(shí)施方式,并非用以限定本申請(qǐng)。任何本申請(qǐng)所屬領(lǐng)域內(nèi)的技術(shù)人員,在不脫離本申請(qǐng)所揭露的精神和范圍的前提下,可以在實(shí)施的形式及細(xì)節(jié)上進(jìn)行任何的修改與變化,但本申請(qǐng)的專利保護(hù)范圍,仍須以所附的權(quán)利要求書所界定的范圍為準(zhǔn)。
【權(quán)利要求】
1.一種基于行為檢測(cè)實(shí)現(xiàn)網(wǎng)絡(luò)流量識(shí)別的方法,其特征在于,包括: 抓取網(wǎng)絡(luò)流量的數(shù)據(jù)包信息,并進(jìn)行傳輸控制協(xié)議TCP會(huì)話重組,以分別提取各TCP會(huì)話流信息; 根據(jù)木馬通信的會(huì)話特征,提取各TCP會(huì)話流信息的會(huì)話統(tǒng)計(jì)特征信息,并建立相應(yīng)的TCP會(huì)話特征矩陣信息; 采用基于菌群優(yōu)化的聚類方法對(duì)TCP會(huì)話特征矩陣信息進(jìn)行優(yōu)化聚類,以生成優(yōu)化聚類信息; 根據(jù)優(yōu)化聚類信息,獲得每一 TCP會(huì)話流所屬的網(wǎng)絡(luò)流量類別信息。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述會(huì)話統(tǒng)計(jì)特征信息包含:會(huì)話的數(shù)據(jù)包總數(shù)、會(huì)話時(shí)長(zhǎng)、會(huì)話小包總數(shù)、會(huì)話接收小包數(shù)目與會(huì)話小包總數(shù)的比值、會(huì)話發(fā)送大包數(shù)目與會(huì)話大包總數(shù)的比值、會(huì)話接收和發(fā)送數(shù)據(jù)包總數(shù)的比值、會(huì)話下行流量與上行流量的比值、會(huì)話總上傳數(shù)據(jù)量、會(huì)話發(fā)送數(shù)據(jù)包的平均長(zhǎng)度信息。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述建立相應(yīng)的TCP會(huì)話特征矩陣信息之后,該方法還包括:利用最大最小值法對(duì)所述相應(yīng)的TCP會(huì)話特征矩陣信息中的各維特征值進(jìn)行歸一化處理。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,預(yù)先設(shè)置網(wǎng)絡(luò)流量的類別標(biāo)簽,在生成優(yōu)化聚類信息后,該方法還包括:根據(jù)所述優(yōu)化聚類信息,確定每一 TCP會(huì)話流所屬的網(wǎng)絡(luò)流量類別信息,按照預(yù)先設(shè)置的網(wǎng)絡(luò)流量的類別標(biāo)簽進(jìn)行標(biāo)記。
5.一種基于行為檢測(cè)實(shí)現(xiàn)網(wǎng)絡(luò)流量識(shí)別的裝置,其特征在于,包括:會(huì)話重組模塊、特征矩陣生成模塊、會(huì)話聚類模塊、流量識(shí)別模塊;其中, 會(huì)話重組模塊,用于抓取網(wǎng)絡(luò)流量的數(shù)據(jù)包信息,并進(jìn)行傳輸控制協(xié)議TCP會(huì)話重組,以分別提取各TCP會(huì)話流信息; 特征矩陣生成模塊,用于根據(jù)木馬通信的會(huì)話特征,從會(huì)話重組模塊的各TCP會(huì)話流信息中提取會(huì)話統(tǒng)計(jì)特征信息,并建立相應(yīng)的TCP會(huì)話特征矩陣信息; 聚類模塊,用于采用基于菌群優(yōu)化的聚類方法,對(duì)特征矩陣生成模塊建立的TCP會(huì)話特征矩陣信息進(jìn)行優(yōu)化聚類,以生成優(yōu)化聚類信息; 流量識(shí)別模塊,用于根據(jù)聚類模塊優(yōu)化聚類信息,確定每一 TCP會(huì)話流所屬的網(wǎng)絡(luò)流量類別信息。
6.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述會(huì)話統(tǒng)計(jì)特征信息包含:會(huì)話的數(shù)據(jù)包總數(shù)、會(huì)話時(shí)長(zhǎng)、會(huì)話小包總數(shù)、會(huì)話接收小包數(shù)目與會(huì)話小包總數(shù)的比值、會(huì)話發(fā)送大包數(shù)目與會(huì)話大包總數(shù)的比值、會(huì)話接收和發(fā)送數(shù)據(jù)包總數(shù)的比值、會(huì)話下行流量與上行流量的比值、會(huì)話總上傳數(shù)據(jù)量、會(huì)話發(fā)送數(shù)據(jù)包的平均長(zhǎng)度信息。
7.根據(jù)權(quán)利要求5或6所述的裝置,其特征在于,該裝置還包括矩陣歸一模塊,連接于特征矩陣生成模塊與聚類模塊之間,用于利用最大最小值法對(duì)所述相應(yīng)的TCP會(huì)話特征矩陣信息中的各維特征值進(jìn)行歸一化處理。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,該裝置還包括聚類標(biāo)簽?zāi)K,用于預(yù)先設(shè)置網(wǎng)絡(luò)流量的類別標(biāo)簽,在生成優(yōu)化聚類信息后,根據(jù)所述優(yōu)化聚類信息,確定每一 TCP會(huì)話流所屬的網(wǎng)絡(luò)流量類別信息,按照預(yù)先設(shè)置的網(wǎng)絡(luò)流量的類別標(biāo)簽進(jìn)行標(biāo)記。
【文檔編號(hào)】H04L12/26GK103701814SQ201310741407
【公開日】2014年4月2日 申請(qǐng)日期:2013年12月27日 優(yōu)先權(quán)日:2013年12月27日
【發(fā)明者】萬淼 申請(qǐng)人:北京啟明星辰信息技術(shù)股份有限公司, 北京啟明星辰信息安全技術(shù)有限公司