亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于二級決策樹的p2p協(xié)議識別方法

文檔序號:7980622閱讀:220來源:國知局
一種基于二級決策樹的p2p協(xié)議識別方法
【專利摘要】本發(fā)明公開了一種基于二級決策樹的P2P協(xié)議識別方法,該方法包括步驟:S1.獲得純凈的P2P協(xié)議流量和非P2P協(xié)議流量,并提取指定格式的一級網(wǎng)絡(luò)流統(tǒng)計特征集;S2.根據(jù)所提取的一級網(wǎng)絡(luò)流統(tǒng)計特征集分別訓(xùn)練一、二級決策樹模型集;S3.從網(wǎng)絡(luò)中提取符合特定觸發(fā)規(guī)則的、網(wǎng)絡(luò)流五元組中包含待檢測IP地址的網(wǎng)絡(luò)流集合的一級網(wǎng)絡(luò)流統(tǒng)計特征;S4.利用步驟S2得到的一、二級決策樹模型集及步驟S3所提取的一級網(wǎng)絡(luò)流統(tǒng)計特征識別背景流量中的P2P協(xié)議。本發(fā)明的方法能有效改善傳統(tǒng)P2P協(xié)議識別方法的嚴重誤報,可以為高速網(wǎng)絡(luò)中高性能流量分類系統(tǒng)、內(nèi)容監(jiān)控系統(tǒng)的設(shè)計和實現(xiàn)提供技術(shù)支持。
【專利說明】一種基于二級決策樹的P2P協(xié)議識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及P2P協(xié)議識別【技術(shù)領(lǐng)域】,尤其涉及一種基于二級決策樹的P2P協(xié)議識別方法。
【背景技術(shù)】
[0002]隨著高速網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的飛速發(fā)展,業(yè)界越來越多地提出了包括多媒體通信在內(nèi)的綜合服務(wù)要求。然而,急速增長的用戶數(shù)量和流量不斷降低網(wǎng)絡(luò)性能,尤其是基于P2P協(xié)議的軟件(如迅雷、PPTV、BT等)所產(chǎn)生的流量占據(jù)了大量帶寬,嚴重影響關(guān)鍵業(yè)務(wù)的正常使用。P2P協(xié)議識別技術(shù)能夠監(jiān)控P2P協(xié)議使用情況,管理P2P流量,保障關(guān)鍵業(yè)務(wù),解決網(wǎng)絡(luò)擁塞,逐漸成為了國內(nèi)外的研究熱點。
[0003]早期的P2P協(xié)議識別方法,通常判斷所獲取的網(wǎng)絡(luò)流數(shù)據(jù)包載荷中是否存在能夠代表P2P協(xié)議的固定關(guān)鍵字,因此,基于數(shù)據(jù)包載荷的P2P協(xié)議識別技術(shù)首先需要發(fā)現(xiàn)P2P協(xié)議中所包含的不變的、具有唯一代表性的關(guān)鍵字,之后利用高效的模式匹配及正則表達式匹配算法識別數(shù)據(jù)包中的關(guān)鍵字信息,以達到P2P協(xié)議識別的目的。然而,隨著P2P技術(shù)的日益發(fā)展,P2P協(xié)議的變化也日漸復(fù)雜,一方面采用隨機端口模式來提高系統(tǒng)效率,逃避檢測,另一方面則去掉能夠代表P2P協(xié)議的固定關(guān)鍵字,以便防止對P2P協(xié)議的檢測和監(jiān)控,甚至一些對安全性能要求較高的P2P協(xié)議,采用加密協(xié)議的方法對通信內(nèi)容進行加密,進一步阻止了對P2P協(xié)議進行發(fā)現(xiàn)。在這種情況下,尋找P2P協(xié)議的數(shù)據(jù)包載荷關(guān)鍵字的難度越來越大,最終導(dǎo)致基于數(shù)據(jù)包載荷的P2P協(xié)議識別技術(shù)嚴重失效。
[0004]近年來,基于統(tǒng)計特征的P2P協(xié)議識別技術(shù)逐漸成為業(yè)界關(guān)注的熱點。不同于基于數(shù)據(jù)包載荷的P2P協(xié)議識別技術(shù),基于統(tǒng)計特征的P2P協(xié)議識別技術(shù)著眼于從網(wǎng)絡(luò)流中提取的統(tǒng)計特征信息,并利用這些統(tǒng)計特征所代表的內(nèi)在特性實現(xiàn)P2P協(xié)議識別?;诮y(tǒng)計特征的P2P協(xié)議識別技術(shù)利用P2P協(xié)議在數(shù)據(jù)傳輸過程中存在著其特有的網(wǎng)絡(luò)流統(tǒng)計特性的特點,以此來識別P2P協(xié)議,甚至能夠有效區(qū)分不同的P2P協(xié)議。
[0005]然而,隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,采用P2P協(xié)議的新型應(yīng)用層出不窮,主要開始呈現(xiàn)兩個方面的變化。
[0006]一方面是統(tǒng)計特征的變化。P2P協(xié)議通常用于高速網(wǎng)絡(luò)數(shù)據(jù)傳輸,因此流量的統(tǒng)計特征不固定且變化較大,已有的基于統(tǒng)計特征的P2P協(xié)議識別方法對P2P協(xié)議的識別準確率并不高,識別效率也較差。
[0007]另一方面則是流量特性的變化。P2P協(xié)議在使用過程中通常會同時產(chǎn)生多個網(wǎng)絡(luò)流進行數(shù)據(jù)傳輸和通信,并且會與多個其他P2P節(jié)點互相進行交互,這種情況下,傳統(tǒng)的基于單一網(wǎng)絡(luò)流的協(xié)議識別技術(shù)已經(jīng)不能對P2P協(xié)議進行有效識別,急需提出一種新的針對P2P協(xié)議所產(chǎn)生的多個網(wǎng)絡(luò)流情況的協(xié)議識別方法來提高協(xié)議識別的準確性和有效性,避免對網(wǎng)絡(luò)流的漏識別或錯誤識別。
[0008]合理利用P2P協(xié)議所產(chǎn)生的多個網(wǎng)絡(luò)流統(tǒng)計特征進行協(xié)議識別,不僅能夠極大地提升基于統(tǒng)計特征的P2P協(xié)議識別系統(tǒng)的性能,還能夠應(yīng)對不斷增多的P2P協(xié)議及應(yīng)用帶來的挑戰(zhàn)。然而,目前大多數(shù)基于統(tǒng)計特征的P2P協(xié)議識別方法僅是簡單地將大量的統(tǒng)計特征輸入到模型中進行訓(xùn)練和檢測,并沒有合理的利用統(tǒng)計特征中蘊含的知識,影響了 P2P協(xié)議識別系統(tǒng)的性能。特別是隨著P2P協(xié)議的廣泛應(yīng)用,P2P協(xié)議識別系統(tǒng)需要處理更多的統(tǒng)計特征,使得基于統(tǒng)計特征的P2P協(xié)議識別技術(shù)面臨更大的挑戰(zhàn)。

【發(fā)明內(nèi)容】

[0009](一)要解決的技術(shù)問題
[0010]本發(fā)明所要解決的技術(shù)問題是:提供一種基于統(tǒng)計特征的P2P協(xié)議識別方法,能夠更好地利用蘊含在大量統(tǒng)計特征中的知識,提升基于統(tǒng)計特征的P2P協(xié)議識別系統(tǒng)的性能,應(yīng)對迅速增多的P2P應(yīng)用所帶來的挑戰(zhàn)。
[0011](二)技術(shù)方案
[0012]為了解決上述問題,本發(fā)明提供了一種基于二級決策樹的P2P協(xié)議識別方法。本方法通過對P2P協(xié)議的通信過程及網(wǎng)絡(luò)流量的大量分析,將P2P協(xié)議和應(yīng)用在使用過程中所產(chǎn)生的網(wǎng)絡(luò)流依據(jù)功能性的差別分成了 5種不同的類型,每種類型均表示P2P協(xié)議中的一個可能出現(xiàn)的行為特征,利用這種行為特征所產(chǎn)生的統(tǒng)計特征,同時采用二級決策樹方法,能夠有效的識別P2P協(xié)議及應(yīng)用。該方法首先對網(wǎng)絡(luò)流統(tǒng)計特征進行分類,然后根據(jù)其分類特點,訓(xùn)練二級決策樹;在識別階段,首先利用第一級決策樹處理網(wǎng)絡(luò)流統(tǒng)計特征,然后將處理結(jié)果輸入到第二級決策樹進行處理并輸出識別結(jié)果。
[0013]本發(fā)明的基于二級決策樹的P2P協(xié)議識別方法包括步驟:
[0014]S1.獲得純凈的P2P協(xié)議流量和非P2P協(xié)議流量,并從網(wǎng)絡(luò)流量中提取一級網(wǎng)絡(luò)流統(tǒng)計特征集作為一級訓(xùn)練集;
[0015]S2.根據(jù)步驟SI所提取的一級網(wǎng)絡(luò)流統(tǒng)計特征集分別訓(xùn)練一、二級分類決策樹模型集;
[0016]S3.從網(wǎng)絡(luò)中提取符合特定觸發(fā)規(guī)則的、網(wǎng)絡(luò)流五元組中包含待檢測IP地址的網(wǎng)絡(luò)流集合的一級網(wǎng)絡(luò)流統(tǒng)計特征作為一級分類特征;
[0017]S4.利用步驟S2得到的一、二級分類決策樹模型集及步驟S3所提取的一級網(wǎng)絡(luò)流統(tǒng)計特征識別背景流量中的P2P協(xié)議。
[0018]其中,步驟SI進一步包括:
[0019]Sll.獲得純凈的P2P協(xié)議的網(wǎng)絡(luò)流量以及非P2P協(xié)議的網(wǎng)絡(luò)流量作為提取訓(xùn)練集特征的基礎(chǔ);
[0020]S12.以IP為基本單位,提取最多包含i個trigger的、在網(wǎng)絡(luò)流的五元組中源IP地址或目的IP地址等同于待檢測IP地址的全部網(wǎng)絡(luò)流,所述五元組即源IP地址、目的IP地址、源端口號、目的端口號、協(xié)議號;
[0021]S13.將步驟S12提取的全部網(wǎng)絡(luò)流依照其在P2P協(xié)議通信過程中的不同作用和目的歸類為5種不同類型的網(wǎng)絡(luò)流,最終形成5種不同類型的網(wǎng)絡(luò)流集合;
[0022]S14.提取步驟S13中已分好類別的5種不同類型的網(wǎng)絡(luò)流集合的各自的一級4維統(tǒng)計特征 total_ips、total_flows> total_packets、total_bytes。
[0023]其中,在步驟S12中,trigger定義為正向的連接失敗的TCP流(Tl)或反向的UDP流(Ul);并且i>0 ;[0024]在步驟S13中,5種不同類型的網(wǎng)絡(luò)流分別為:
[0025]Tl:正向的連接失敗的TCP流;
[0026]T2:正向的數(shù)據(jù)包≤15的TCP流;
[0027]T3:正向的數(shù)據(jù)包>15的TCP流;
[0028]Ul:反向的 UDP 流;
[0029]U2:正向的 UDP 流。
[0030]其中,在步驟S13中,正向網(wǎng)絡(luò)流的定義為此網(wǎng)絡(luò)流五元組的源IP地址等于使用P2P協(xié)議或待檢測的IP地址,反向網(wǎng)絡(luò)流的定義為此網(wǎng)絡(luò)流五元組的目的IP地址等于使用P2P協(xié)議或待檢測的IP地址。
[0031]其中,在步驟S14 中,一級 4 維統(tǒng)計特征 total_ips、total_f lows、total_packets、total_byteS分別為:此種類型下的網(wǎng)絡(luò)流集合所連接的不同的目的IP地址個數(shù)、此種類型下的網(wǎng)絡(luò)流集合所產(chǎn)生的網(wǎng)絡(luò)流個數(shù)、此種類型下的網(wǎng)絡(luò)流集合所傳輸?shù)臄?shù)據(jù)包個數(shù)、此種類型下的網(wǎng)絡(luò)流集合所傳輸?shù)淖止?jié)數(shù)。
[0032]其中,步驟S2進一步包括:
[0033]S21.利用步驟S13所獲得的5種不同類型的網(wǎng)絡(luò)流集合的5個一級訓(xùn)練集,采用決策樹算法,分別訓(xùn)練對應(yīng)的5種不同類型的網(wǎng)絡(luò)流集合的5個一級分類決策樹模型,形成一級分類決策樹模型集;
[0034]S22.將5個一級訓(xùn)練集分別輸入5個一級決策樹模型,每個一級決策樹模型負責(zé)處理各自的類別訓(xùn)練集中的統(tǒng)計特征,分別計算得到5種不同類型的網(wǎng)絡(luò)流集合的每一個統(tǒng)計特征向量的分類結(jié)果(r)和錯誤率(e);
[0035]S23.將同一次提取的步驟S22種所得到的5種不同類型的網(wǎng)絡(luò)流集合的每一個統(tǒng)計特征向量對應(yīng)的分類結(jié)果(r)和錯誤率(e)進行整合形成二級的10維統(tǒng)計特征
[0036]〈rΤ1, θτ1, rT2, θΤ2, rT3, θΤ3, Tm, Gui, rυ2,一瓜〉,
[0037]并進一步形成二級分類特征訓(xùn)練集;
[0038]S24.利用步驟S23所得到的二級分類特征訓(xùn)練集,采用決策樹算法訓(xùn)練得到二級分類決策樹模型。
[0039]其中,在步驟S22中,r定義為一個一級決策樹模型判定對應(yīng)類型網(wǎng)絡(luò)流集合的訓(xùn)練集中一個特征向量所屬的協(xié)議定義為該決策樹模型判定對應(yīng)類型網(wǎng)絡(luò)流集合的一條特征向量是r的錯誤率,由下式計算得到:
【權(quán)利要求】
1.一種基于二級決策樹的P2P協(xié)議識別方法,其特征在于,該方法包括步驟:S1.獲得純凈的P2P協(xié)議流量和非P2P協(xié)議流量,并從網(wǎng)絡(luò)流量中提取一級網(wǎng)絡(luò)流統(tǒng)計特征集作為一級訓(xùn)練集;S2.根據(jù)步驟SI所提取的一級網(wǎng)絡(luò)流統(tǒng)計特征集分別訓(xùn)練一、二級分類決策樹模型集;S3.從網(wǎng)絡(luò)中提取符合特定觸發(fā)規(guī)則的、網(wǎng)絡(luò)流五元組中包含待檢測IP地址的網(wǎng)絡(luò)流集合的一級網(wǎng)絡(luò)流統(tǒng)計特征作為一級分類特征;S4.利用步驟S2得到的一、二級分類決策樹模型集及步驟S3所提取的一級網(wǎng)絡(luò)流統(tǒng)計特征識別背景流量中的P2P協(xié)議。
2.如權(quán)利要求1所述的基于二級決策樹的P2P協(xié)議識別方法,其特征在于,步驟SI進一步包括:S11.獲得純凈的P2P協(xié)議的網(wǎng)絡(luò)流量以及非P2P協(xié)議的網(wǎng)絡(luò)流量作為提取訓(xùn)練集特征的基礎(chǔ);S12.以IP為基本單位,提取最多包含i個trigger的、在網(wǎng)絡(luò)流的五元組中源IP地址或目的IP地址等同于待檢測IP地址的全部網(wǎng)絡(luò)流,所述五元組即源IP地址、目的IP地址、源端口號、目的端口號、協(xié)議號;S13.將步驟S12提取的全部網(wǎng)絡(luò)流依照 其在P2P協(xié)議通信過程中的不同作用和目的歸類為5種不同類型的網(wǎng)絡(luò)流,最終形成5種不同類型的網(wǎng)絡(luò)流集合;S14.提取步驟S13中已分好類別的5種不同類型的網(wǎng)絡(luò)流集合的各自的一級4維統(tǒng)計特征 total_ips、total_flows> total_packets、total_bytes。
3.如權(quán)利要求2所述的基于二級決策樹的P2P協(xié)議識別方法,其特征在于,在步驟S12中,trigger定義為正向的連接失敗的TCP流(Tl)或反向的UDP流(Ul);并且i>0 ;在步驟S13中,5種不同類型的網(wǎng)絡(luò)流分別為:Tl:正向的連接失敗的TCP流;T2:正向的數(shù)據(jù)包≤ 15的TCP流;T3:正向的數(shù)據(jù)包>15的TCP流;U1:反向的m)P流;U2:正向的UDP流。
4.如權(quán)利要求3所述的基于二級決策樹的P2P協(xié)議識別方法,其特征在于,在步驟S13中,正向網(wǎng)絡(luò)流的定義為此網(wǎng)絡(luò)流五元組的源IP地址等于使用P2P協(xié)議或待檢測的IP地址,反向網(wǎng)絡(luò)流的定義為此網(wǎng)絡(luò)流五元組的目的IP地址等于使用P2P協(xié)議或待檢測的IP地址。
5.如權(quán)利要求2所述的基于二級決策樹的P2P協(xié)議識別方法,其特征在于,在步驟S14中,一級 4 維統(tǒng)計特征 total_ips、total_flows、total_packets、total_bytes 分別為:此種類型下的網(wǎng)絡(luò)流集合所連接的不同的目的IP地址個數(shù)、此種類型下的網(wǎng)絡(luò)流集合所產(chǎn)生的網(wǎng)絡(luò)流個數(shù)、此種類型下的網(wǎng)絡(luò)流集合所傳輸?shù)臄?shù)據(jù)包個數(shù)、此種類型下的網(wǎng)絡(luò)流集合所傳輸?shù)淖止?jié)數(shù)。
6.如權(quán)利要求3所述的基于二級決策樹的P2P協(xié)議識別方法,其特征在于,步驟S2進一步包括:S21.利用步驟S13所獲得的5種不同類型的網(wǎng)絡(luò)流集合的5個一級訓(xùn)練集,采用決策樹算法,分別訓(xùn)練對應(yīng)的5種不同類型的網(wǎng)絡(luò)流集合的5個一級分類決策樹模型,形成一級分類決策樹模型集;S22.將5個一級訓(xùn)練集分別輸入5個一級決策樹模型,每個一級決策樹模型負責(zé)處理各自的類別訓(xùn)練集中的統(tǒng)計特征,分別計算得到5種不同類型的網(wǎng)絡(luò)流集合的每一個統(tǒng)計特征向量的分類結(jié)果(r)和錯誤率(e);S23.將同一次提取的步驟S22種所得到的5種不同類型的網(wǎng)絡(luò)流集合的每一個統(tǒng)計特征向量對應(yīng)的分類結(jié)果(r)和錯誤率(e)進行整合形成二級的10維統(tǒng)計特征〈rT1,θτ1, rT2,eT2J rT3,eT3J rm, Gui, rU2,θυ2〉,并進一步形成二級分類特征訓(xùn)練集;S24.利用步驟S23所得到的二級分類特征訓(xùn)練集,采用決策樹算法訓(xùn)練得到二級分類決策樹模型。
7.如權(quán)利要求6所述的基于二級決策樹的P2P協(xié)議識別方法,其特征在于,在步驟S22中,r定義為一個一級決策樹模型判定對應(yīng)類型網(wǎng)絡(luò)流集合的訓(xùn)練集中一個特征向量所屬的協(xié)議;e定義為該決策樹模型判定對應(yīng)類型網(wǎng)絡(luò)流集合的一條特征向量是r的錯誤率,由下式計算得到:
8.如權(quán)利要求1所述的基于二級決策樹的P2P協(xié)議識別方法,其特征在于,步驟S3進 一步包括:S31.從網(wǎng)絡(luò)中獲取所要檢測的IP地址的一個網(wǎng)絡(luò)流;S32.判斷步驟S31所得到的該網(wǎng)絡(luò)流是否符合trigger的定義,如果符合,則執(zhí)行步驟 S33,否則,則執(zhí)行步驟S34 ;S33.累加符合步驟S32中的觸發(fā)條件的網(wǎng)絡(luò)流的數(shù)量后,判斷已累加的符合步驟S32 中的觸發(fā)條件的網(wǎng)絡(luò)流的數(shù)量是否大于等于步驟S12中所確定的i,如果是,則表示已結(jié)束 本輪特征統(tǒng)計階段,則執(zhí)行步驟S35,否則,執(zhí)行步驟S36 ;S34.判斷該IP地址是否還處在本輪特征統(tǒng)計階段且未結(jié)束,如果仍然處在本輪特征 統(tǒng)計階段,則執(zhí)行步驟S36,否則,執(zhí)行步驟S31 ;S35.結(jié)束已進行的特征統(tǒng)計階段并保存統(tǒng)計特征,建立新的一級統(tǒng)計特征集數(shù)據(jù)結(jié) 構(gòu),開始新一輪的特征統(tǒng)計階段;S36.判斷此網(wǎng)絡(luò)流所屬的類別,并提取4維統(tǒng)計特征,將4維統(tǒng)計特征累加入對應(yīng)類別 的網(wǎng)絡(luò)流集合的一級統(tǒng)計特征集數(shù)據(jù)結(jié)構(gòu)中,執(zhí)行步驟S31。
9.如權(quán)利要求8所述的基于二級決策樹的P2P協(xié)議識別方法,其特征在于,在步驟S32中,trigger定義為正向的連接失敗的TCP流(T1)或反向的UDP流(U1)。
10.如權(quán)利要求8所述的基于二級決策樹的P2P協(xié)議識別方法,其特征在于,步驟S4進 一步包括:S41.判斷該IP地址是否已完成 一輪特征統(tǒng)計階段,如果已完成,則執(zhí)行步驟S42,否 則,執(zhí)行步驟S41 ;S42.利用步驟S2所得到的一級分類決策樹模型集及步驟S3所得到同一輪特征統(tǒng)計階 段的5個不同類型網(wǎng)絡(luò)流集合的一級4維統(tǒng)計特征,分別計算得到同一輪特征統(tǒng)計階段下 的對5種不同類型網(wǎng)絡(luò)流集合的4維統(tǒng)計特征的分類結(jié)果(r)和錯誤率(e),之后,將同一 輪特征統(tǒng)計階段下的5種不同類型網(wǎng)絡(luò)流集合的4維統(tǒng)計特征的分類結(jié)果和錯誤率整合, 形成二級10維統(tǒng)計特征:〈rT1, eT1, rT2, eT2, rT3, eT3, Tm, em,rU2, eU2〉;S42.將步驟S41所得到的二級10維統(tǒng)計特征輸入到步驟S2所得到的二級分類決策樹 模型,識別背景流量中的P2P協(xié)議。
【文檔編號】H04L29/06GK103532908SQ201210228876
【公開日】2014年1月22日 申請日期:2012年7月2日 優(yōu)先權(quán)日:2012年7月2日
【發(fā)明者】薛一波, 張洛什 申請人:清華大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1