專利名稱:利用數(shù)據(jù)流頭部特征的tcp流量在線識(shí)別方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信技術(shù)領(lǐng)域,尤其涉及一種流量識(shí)別的方法和裝置。
背景技術(shù):
網(wǎng)絡(luò)和業(yè)務(wù)的復(fù)雜化需要人們能夠很好的對(duì)網(wǎng)絡(luò)的運(yùn)行和傳送內(nèi)容進(jìn)行更好的 管理和監(jiān)控。首先,從業(yè)務(wù)上看,業(yè)務(wù)多樣化趨勢加劇,使得區(qū)分網(wǎng)絡(luò)待傳送業(yè)務(wù)的服務(wù)質(zhì) 量(Q0S)需求成為挑戰(zhàn)。網(wǎng)絡(luò)應(yīng)該盡量滿足業(yè)務(wù)的QoS,然而滿足QoS的前提是獲取分析 QoS0這就需要我們能夠?qū)W(wǎng)絡(luò)業(yè)務(wù)進(jìn)行在線分類,以便在傳送中有效的區(qū)分不同業(yè)務(wù),根 據(jù)既定策略對(duì)流量進(jìn)行疏導(dǎo),測量應(yīng)用層業(yè)務(wù)性能以及用戶業(yè)務(wù)的計(jì)費(fèi)。其次,從網(wǎng)絡(luò)規(guī)劃 和優(yōu)化上看,網(wǎng)絡(luò)管理員需要對(duì)網(wǎng)絡(luò)中現(xiàn)有流量進(jìn)行成分分析,以便于根據(jù)目前的承載情 況優(yōu)化現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)或者規(guī)劃新的網(wǎng)絡(luò)建設(shè)。后者不需要在線識(shí)別方式,可采用離線的方 式加以分析。另外,從網(wǎng)絡(luò)安全角度來看,應(yīng)該對(duì)網(wǎng)絡(luò)中存在的有害流量,如蠕蟲病毒等以 消滅,抑制其傳播,這也同樣需要流量識(shí)別技術(shù)作為支撐。目前采用的流量識(shí)別方法主要基于傳輸層端口和應(yīng)用層載荷(簽名)。由于端口 號(hào)的濫用,尤其是P2P業(yè)務(wù)采用動(dòng)態(tài)端口號(hào)甚至采用HTTP協(xié)議約定的80端口作為傳輸通 道,使得單純基于傳輸層端口號(hào)進(jìn)行業(yè)務(wù)識(shí)別的方法失去了有效性。而針對(duì)載荷特征的方 法,由于涉及較為復(fù)雜的操作,不適用于高速骨干網(wǎng)的流量識(shí)別。而采用人工智能方法進(jìn)行 流量識(shí)別的方法,又由于其計(jì)算復(fù)雜性和固有的串行處理的特性,不適于網(wǎng)絡(luò)設(shè)備的硬件 實(shí)現(xiàn),因而限制了其在高速骨干網(wǎng)的應(yīng)用。為了適應(yīng)目前和未來高速骨干網(wǎng)的需要,流量識(shí)別技術(shù)迫切的需要滿足以下幾 點(diǎn)1)參數(shù)選擇上避免采用端口或者凈荷作為主要特征;2)算法設(shè)計(jì)上要保證流量的在線 識(shí)別;2)處理方法上要具有并行化處理的特性,且易于硬件實(shí)現(xiàn)。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種利用數(shù)據(jù)流頭部特征的TCP流量在線識(shí)別方法及裝置。 通過提取一個(gè)數(shù)據(jù)流中頭部若干包的包長、修正的包間隔時(shí)間等參數(shù),然后與事先提取的 協(xié)議特征庫進(jìn)行比對(duì),獲得該數(shù)據(jù)流所屬的類型。本發(fā)明提供的方法包括以下步驟步驟1,前期真實(shí)流量數(shù)據(jù)的獲取采集多個(gè)網(wǎng)絡(luò)真實(shí)流量數(shù)據(jù)集,這些流量數(shù)據(jù) 集最好來自不同地點(diǎn)和不同時(shí)間;步驟2,前期真實(shí)流量的數(shù)據(jù)流梳理通過查找數(shù)據(jù)流的起始數(shù)據(jù)包,如TCP的 Set-up包,以及{源地址、目的地址、源端口、目的端口、傳輸層協(xié)議類型}五元組將步驟1 所得流量數(shù)據(jù)集分離為不同的TCP流,這樣流量數(shù)據(jù)集就變?yōu)榱?TCP流的集合;步驟3,對(duì)前期真實(shí)TCP流集合進(jìn)行人工分類使用凈荷檢查等方法,對(duì)步驟2得 到的TCP流集合進(jìn)行手工的流量識(shí)別分類,使得步驟2的每一條數(shù)據(jù)流都與一種協(xié)議類型 相對(duì)應(yīng);步驟4,提取TCP流集合的包特征得到每一條流中數(shù)據(jù)包的包長、包的修正間隔時(shí)間、傳輸方向等特征,并按照數(shù)據(jù)包在該流的先后順序構(gòu)建一個(gè)特征序列。需要注意的 是,本步驟采集的參數(shù)是修正的間隔時(shí)間,并不是簡單的相鄰兩數(shù)據(jù)包在測量點(diǎn)到達(dá)時(shí)間 之差,而是兩數(shù)據(jù)包到達(dá)時(shí)間的差值減去數(shù)據(jù)流兩端點(diǎn)往返傳送時(shí)延的估計(jì)值。具體實(shí)施 例將對(duì)修正間隔時(shí)間進(jìn)行詳細(xì)闡述;步驟5,建立協(xié)議特征庫根據(jù)步驟3所得的數(shù)據(jù)流協(xié)議類型和步驟4所得的數(shù)據(jù) 流特征,建立協(xié)議特征庫。其主要工作是建立若干組矩陣,每一個(gè)矩陣存儲(chǔ)同一種協(xié)議數(shù)據(jù) 流的同一序號(hào)數(shù)據(jù)包特征的聯(lián)合概率密度。這樣每一種協(xié)議就有一組聯(lián)合概率密度矩陣與 之對(duì)應(yīng),其中存儲(chǔ)著該類協(xié)議數(shù)據(jù)流頭部若干數(shù)據(jù)包的特征的聯(lián)合概率密度;步驟6,提取待分析數(shù)據(jù)流的數(shù)據(jù)包特征按照數(shù)據(jù)包在該數(shù)據(jù)流的先后順序,依 次提取這些數(shù)據(jù)包的特征,組成一個(gè)特征序列;步驟7,比對(duì)協(xié)議特征庫將步驟6所得到的特征序列與步驟5所得到的協(xié)議特征 庫進(jìn)行比對(duì),獲得該數(shù)據(jù)流屬于某種協(xié)議的概率;步驟8,協(xié)議類型分類仲裁根據(jù)步驟7所得到的概率值,最大概率值所對(duì)應(yīng)的協(xié) 議類型即判為該數(shù)據(jù)流所屬的協(xié)議類型。
本發(fā)明還提供了一種基于本方法的流量在線識(shí)別裝置,其至少包括數(shù)據(jù)流分離模塊,從監(jiān)測流量中按照{(diào)源地址、目的地址、源端口、目的端口、傳輸 層協(xié)議類型}五元組進(jìn)行數(shù)據(jù)流分離,以便于提取特征和后期的流量管理;屬性提取模塊,從數(shù)據(jù)流中按順序提取頭部若干個(gè)數(shù)據(jù)包的特征,組成特征序 列;分類仲裁模塊,完成提取特征與協(xié)議特征庫的比對(duì),以及按照最大概率原則進(jìn)行 的仲裁;協(xié)議特征庫模塊,存儲(chǔ)通過前期采集數(shù)據(jù)分析得到的協(xié)議特征,即步驟5中所得 到矩陣形式的協(xié)議特征庫。因此,本發(fā)明提供的流量識(shí)別方法和裝置,在識(shí)別過程中避免了對(duì)數(shù)據(jù)流凈荷檢 查,僅需要數(shù)據(jù)包的底層參數(shù),如包長,時(shí)間間隔等,參數(shù)提取簡單;在分類仲裁過程中,采 用聯(lián)合概率密度的方式避免了復(fù)雜的正則運(yùn)算,而多片式的矩陣存儲(chǔ)結(jié)構(gòu)非常適于硬件并 行化操作,因而處理方式較傳統(tǒng)手段大為簡化;本方法僅需要提取數(shù)據(jù)流頭部若干個(gè)包的 信息而非整個(gè)數(shù)據(jù)流的信息,這使得本方法可以實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)的在線實(shí)時(shí)識(shí)別。較低的參 數(shù)提取需求,高效的計(jì)算處理方式,準(zhǔn)確的流量分類結(jié)果,以及易于硬件在線實(shí)現(xiàn)的特性構(gòu) 成了本發(fā)明的最大特色。
為了更清楚地說明本發(fā)明實(shí)施例,下面將對(duì)本發(fā)明實(shí)施例描述中所需要使用的附 圖作簡單的介紹,顯然地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通 技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)前提下,還可以根據(jù)這些附圖獲得的更多的附圖。圖1是本發(fā)明一個(gè)實(shí)施例提供的流量識(shí)別方法流程圖;圖2是本發(fā)明一個(gè)實(shí)施例提供的流量識(shí)別裝置的結(jié)構(gòu)示意圖;圖3是本發(fā)明一個(gè)實(shí)施例中關(guān)于修正間隔時(shí)間描述的示意圖;圖4是本發(fā)明一個(gè)實(shí)施例提供的關(guān)于往返時(shí)延測量的流程圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述。顯然,所描述的實(shí)例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒?發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí) 施例,都屬于本發(fā)明保護(hù)范圍。圖1為本發(fā)明一個(gè)實(shí)施例提供的流量識(shí)別方法的流程圖,如圖1所示,該方法包括S101、在不同時(shí)間從不同地點(diǎn)收集多個(gè)網(wǎng)絡(luò)流量數(shù)據(jù)集;網(wǎng)絡(luò)流量識(shí)別裝置一般部署在一定的網(wǎng)絡(luò)中,為了提高協(xié)議特征庫的精確度,需 要在準(zhǔn)備部署的網(wǎng)絡(luò)中設(shè)置測量設(shè)備,從網(wǎng)絡(luò)中采集真實(shí)流量數(shù)據(jù)集。其中,該流量數(shù)據(jù) 集包括用于通過凈荷檢查等方式確定流量協(xié)議類型所需的信息,以及數(shù)據(jù)包長、包間隔時(shí) 間等后續(xù)步驟所需的特征參數(shù);同時(shí),該流量數(shù)據(jù)集剔除了與識(shí)別類型無關(guān)的流量。顯然, SlOl所述的真實(shí)流量數(shù)據(jù)集可通過探針方式在承載眾多用戶的網(wǎng)絡(luò)中獲得,還包括其它方 式獲得的真實(shí)流量,如人為在某些終端上產(chǎn)生www流量并在傳輸路徑上加以采集。S102、對(duì)采集的流量數(shù)據(jù)進(jìn)行梳理,使之構(gòu)成一個(gè)TCP流的集合;某些流量識(shí)別方法使用的參數(shù)是一個(gè)數(shù)據(jù)流中數(shù)據(jù)包的平均特征,比如平均包 長,平均包間隔。而本方法使用的參數(shù)包含了數(shù)據(jù)包的順序信息,因此需要把流量數(shù)據(jù)集按 照{(diào)源地址、目的地址、源端口、目的端口、傳輸層協(xié)議類型}五元組將SlOl所得流量數(shù)據(jù) 集分離為不同的TCP流,這樣流量數(shù)據(jù)集就變?yōu)榱?TCP流的集合;其中,TCP流的頭部的判 斷依據(jù)可以使用但不限于TCP的Setup、Setup/ACK、ACK數(shù)據(jù)包;并且一個(gè)數(shù)據(jù)流中數(shù)據(jù)包 必須按照達(dá)到觀測點(diǎn)的先后順序排列。S103、對(duì)所獲得的TCP數(shù)據(jù)流進(jìn)行協(xié)議分類;采用載荷分析等方法,以離線方式獲得TCP數(shù)據(jù)流的協(xié)議類型,如WWW、MAIL、FTP、 P2P等。需要注意的是,S103采用的算法不限于采用載荷分析方法,但是需要保證很高的正 確度,以保證協(xié)議特征庫的精確性。S104、提取TCP流的屬性以及進(jìn)行數(shù)據(jù)預(yù)處理;本發(fā)明一個(gè)實(shí)施例僅需要提取每條流頭部若干個(gè)包的包長、修正包間隔時(shí)間以及 傳送方向,包數(shù)可以根據(jù)實(shí)際測試情況加以調(diào)整,建議數(shù)目為5-10。由于包長和修正間隔 時(shí)間范圍較大且需要離散化,可能需要數(shù)據(jù)的歸一化處理,如采用Log函數(shù),arctan函數(shù)對(duì) 原始數(shù)據(jù)進(jìn)行處理,并選取合適的離散刻度。同時(shí),由于部分?jǐn)?shù)據(jù)包因?yàn)閬G失和延遲過大引 起重傳,此部分?jǐn)?shù)據(jù)可以剔除以提高精確度。在本步驟,每一條流可以獲得如下的特征序 列{{第一個(gè)包長,第一個(gè)修正包間隔時(shí)間,第一個(gè)包傳送方向},{第二個(gè)包長,第二個(gè)修 正包間隔時(shí)間,第二個(gè)包傳送方向},{第三個(gè)包長,第三個(gè)修正包間隔時(shí)間,第三個(gè)包傳送 方向},……,{第η個(gè)包長,第η個(gè)修正包間隔時(shí)間,第η個(gè)包傳送方向}},其中,η為使用 的數(shù)據(jù)流頭部數(shù)據(jù)包的數(shù)目。S105、為每一種協(xié)議建立一組矩陣,按順序存儲(chǔ)該協(xié)議數(shù)據(jù)流數(shù)據(jù)包特征的聯(lián)合 概率分布。圖1中的S104獲得了每一條流的特征序列,本步驟將統(tǒng)計(jì)同一種協(xié)議類型的數(shù)據(jù)流特征序列的聯(lián)合概率分布。以www有關(guān)協(xié)議為例,根據(jù)集合中所有www數(shù)據(jù)流的第一個(gè)包的特征{第一個(gè)包長,第一個(gè)修正包間隔時(shí)間,第一個(gè)包傳送方向},可以得到所有www數(shù) 據(jù)流第一個(gè)包的二維聯(lián)合概率分布,并將該分布存儲(chǔ)到一個(gè)二維矩陣中。其中,包長和修正 間隔時(shí)間為兩個(gè)坐標(biāo)軸,包傳送方向可以通過包長的正負(fù)性加以表示。矩陣中每個(gè)單元的 值為www數(shù)據(jù)流第一個(gè)包所對(duì)應(yīng)包長和包間隔的概率密度。目的是通過聯(lián)合概率密度來反 映WWW業(yè)務(wù)第一個(gè)數(shù)據(jù)包的統(tǒng)計(jì)特性。同理可以得到第2個(gè)矩陣來反映WWW業(yè)務(wù)第2個(gè)數(shù) 據(jù)包的特性。至此可以得到WWW的η個(gè)矩陣,以反映WWW數(shù)據(jù)流前η個(gè)包的特性。同樣地, 可以獲得其它協(xié)議類型的η個(gè)矩陣。這些矩陣合在一起構(gòu)成了協(xié)議特征庫。S106、當(dāng)流量識(shí)別設(shè)備部署后,一旦需要分析一個(gè)未知數(shù)據(jù)流,那么首先提取該數(shù) 據(jù)流的數(shù)據(jù)包特征;如果S105中使用了前η個(gè)包的特征,那么S106也將提取該數(shù)據(jù)流前η個(gè)包的特 征,組成一個(gè)特征序列{{第一個(gè)包長,第一個(gè)修正包間隔時(shí)間,第一個(gè)包傳送方向},{第 二個(gè)包長,第二個(gè)修正包間隔時(shí)間,第二個(gè)包傳送方向},{第三個(gè)包長,第三個(gè)修正包間隔 時(shí)間,第三個(gè)包傳送方向},……,{第η個(gè)包長,第η個(gè)修正包間隔時(shí)間,第η個(gè)包傳送方 向}},其中,η為使用的數(shù)據(jù)流頭部數(shù)據(jù)包的數(shù)目。S107、將未知數(shù)據(jù)流的特征與已知的協(xié)議特征庫進(jìn)行比對(duì),獲得該數(shù)據(jù)流屬于某 種協(xié)議的概率值;通過S106獲得的未知數(shù)據(jù)流特征序列與S105得到的協(xié)議特征庫進(jìn)行比對(duì),根據(jù) {第i個(gè)包長,第i個(gè)修正包間隔時(shí)間、第i個(gè)包傳送方向},很容易從協(xié)議特征庫的矩陣中 得到根據(jù)第i個(gè)包來看,屬于某種協(xié)議類型的概率。前η個(gè)包所得概率的均值可以看作該 數(shù)據(jù)流屬于該協(xié)議的概率。SlOSjf S107獲得的概率值放在一起,如果哪個(gè)概率值大,就說明這個(gè)數(shù)據(jù)流就 更應(yīng)該屬于哪個(gè)協(xié)議類型。在S108中,也可以采用加權(quán)修正的方法來仲裁該數(shù)據(jù)流屬于哪 種協(xié)議類型。圖2提供了本發(fā)明一個(gè)實(shí)施例提供的流量識(shí)別裝置的結(jié)構(gòu)示意圖。從功能上看, 可以分為在線和離線兩個(gè)部分。離線部分主要完成協(xié)議特征庫的構(gòu)造;在線部分主要負(fù)責(zé) 未知數(shù)據(jù)流的分類。其中,前期數(shù)據(jù)流量采集211、數(shù)據(jù)流分離212、數(shù)據(jù)流特征提取213可 在裝置部署前完成,因此不是使用流量識(shí)別的裝置或者系統(tǒng)的必要組成部分。而數(shù)據(jù)流分 離模塊221、屬性提取模塊222、分類仲裁模塊223和協(xié)議特征模塊214 —般應(yīng)在使用流量 識(shí)別的裝置或系統(tǒng)中出現(xiàn)。每一模塊具體功能和處理流程如下在帶有流量識(shí)別的裝置或系統(tǒng)使用前,需要 使用探針等手段進(jìn)行前期數(shù)據(jù)采集211,數(shù)據(jù)流分離212,數(shù)據(jù)流特征提取213,完成圖1中 S101-S105的工作,構(gòu)建協(xié)議特征庫模塊214。其中,協(xié)議特征庫214—般可以置于裝置中 的存儲(chǔ)器中,如R0M,F(xiàn)LASN等。當(dāng)一個(gè)未知流量進(jìn)入流量識(shí)別裝置后,數(shù)據(jù)流分離模塊221 將尋找TCP流的頭部,并按照{(diào)源地址、目的地址、源端口、目的端口、傳輸層協(xié)議類型}五 元組將流量按照數(shù)據(jù)流分離開來,屬性提取模塊222按數(shù)據(jù)包先后順序,依次提取包長、修 正包間隔時(shí)間、傳送方向等參數(shù),形成特征序列,送入分類仲裁模塊223,完成圖1的S106I 作。分類仲裁模塊將讀取協(xié)議特征模塊存儲(chǔ)的協(xié)議聯(lián)合概率分布信息進(jìn)行分類判斷,完成 圖1的S107-S108的內(nèi)容。值得一提的是由于協(xié)議特征庫同時(shí)存有多個(gè)協(xié)議的特征庫,因此計(jì)算該數(shù)據(jù)流屬于某種協(xié)議的概率可以并行進(jìn)行;同時(shí),數(shù)據(jù)流分離模塊221、屬性提取 模塊222、分類仲裁模塊223構(gòu)成流水線工作模式,可以極大地提高該裝置識(shí)別流量的吞吐量。圖3是本發(fā)明一個(gè)實(shí)施例中關(guān)于修正間隔時(shí)間描述的示意圖。某些流量識(shí)別方法 采用包間隔時(shí)間作為參數(shù)用于流量識(shí)別,但是需要包間隔時(shí)間這一參數(shù)受網(wǎng)絡(luò)狀態(tài)影響很 大,尤其是往返時(shí)延對(duì)包間隔時(shí)間有著直接而顯著的影響,使之不能很好的反映協(xié)議本身 的特性。本發(fā)明采用修正的包間隔時(shí)間,即在傳統(tǒng)的包間隔時(shí)間扣除往返時(shí)延的影響。在 本發(fā)明的一個(gè)實(shí)施例中,以測量點(diǎn)本地時(shí)鐘為準(zhǔn),記錄同一數(shù)據(jù)流中相鄰數(shù)據(jù)包到達(dá)的時(shí) 間差T,同時(shí)估計(jì)該數(shù)據(jù)流兩端點(diǎn)間的往返時(shí)延R,修正后的包間隔時(shí)間為T-R。通過這種方 式減弱了往返時(shí)延對(duì)于包間隔時(shí)間這一參數(shù)的影響,增強(qiáng)了協(xié)議特征的顯著性。圖4是本發(fā)明一個(gè)實(shí)施例提供的關(guān)于往返時(shí)延測量的流程圖。由于TCP建立連 接僅需要很少的處理時(shí)間,因此本實(shí)施例采用TCP三次握手機(jī)制來估計(jì)往返時(shí)延,即測量 點(diǎn)一旦發(fā)現(xiàn)出現(xiàn)TCP Setup數(shù)據(jù)包,就記錄該包到達(dá)時(shí)刻Tl ,同時(shí)等待同一數(shù)據(jù)流TCP Setup/ACK數(shù)據(jù)包出現(xiàn),一旦發(fā)現(xiàn)就記錄其到達(dá)時(shí)刻T2,然后等待并記錄TCPACK包到達(dá)時(shí) 刻T3。T3-T1為兩端點(diǎn)往返時(shí)延的估算值。本實(shí)施例提供的方法和裝置,使用了數(shù)據(jù)包本身的屬性,避免了凈荷檢查;使用修 正包間隔時(shí)間,增強(qiáng)了協(xié)議特征的顯著性,避免了往返時(shí)延對(duì)于結(jié)果的影響;采用了聯(lián)合概 率密度作為特征分析手段以及矩陣式的存儲(chǔ)結(jié)構(gòu),避免了復(fù)雜的計(jì)算,且便于硬件實(shí)現(xiàn)。該 方法僅使用數(shù)據(jù)流頭部若干個(gè)包的特征,不需要數(shù)據(jù)流整體信息,因此可以方便的實(shí)現(xiàn)流 量的在線識(shí)別。最后應(yīng)說明的是以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡 管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解;其依然 可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中技術(shù)特征進(jìn)行等同替換;而 這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。
權(quán)利要求
一種利用數(shù)據(jù)流頭部特征的TCP流量在線識(shí)別方法,其特征在于包括以下步驟步驟1,前期真實(shí)流量數(shù)據(jù)的獲取采集多個(gè)網(wǎng)絡(luò)真實(shí)流量數(shù)據(jù)集,這些數(shù)據(jù)集在不同時(shí)間采自于待部署網(wǎng)絡(luò);步驟2,前期真實(shí)流量的數(shù)據(jù)流梳理通過查找數(shù)據(jù)流的起始數(shù)據(jù)包,以及{源地址、目的地址、源端口、目的端口、傳輸層協(xié)議類型}五元組將步驟1所得流量數(shù)據(jù)集分離為不同的TCP流,使得流量數(shù)據(jù)集就轉(zhuǎn)換為TCP流的集合;步驟3,對(duì)前期真實(shí)TCP流集合進(jìn)行人工分類使用凈荷檢查等方法,對(duì)步驟2得到的TCP流集合進(jìn)行手工的流量識(shí)別分類,使步驟2的每一條流都與一種協(xié)議類型相對(duì)應(yīng);步驟4,提取TCP流集合的包特征得到每一條流中關(guān)于數(shù)據(jù)包的特征,并按照數(shù)據(jù)包在該流的先后順序構(gòu)建一個(gè)特征序列;步驟5,建立協(xié)議特征庫根據(jù)步驟3所得的數(shù)據(jù)流協(xié)議類型和步驟4所得的數(shù)據(jù)流特征,建立若干組矩陣,每一個(gè)矩陣存儲(chǔ)同一種協(xié)議數(shù)據(jù)流的同一序號(hào)數(shù)據(jù)包特征的聯(lián)合概率密度,使得每一種協(xié)議有一組聯(lián)合概率密度矩陣與之對(duì)應(yīng),其中概率密度矩陣存儲(chǔ)該類協(xié)議數(shù)據(jù)流頭部若干數(shù)據(jù)包的特征的聯(lián)合概率密度;步驟6,提取待分析數(shù)據(jù)流的數(shù)據(jù)包特征按照數(shù)據(jù)包在該數(shù)據(jù)流的先后順序,依次提取這些數(shù)據(jù)包的特征,組成一個(gè)特征序列;步驟7,比對(duì)協(xié)議特征庫將步驟6所得到的特征序列與步驟5所得到的協(xié)議特征庫進(jìn)行比對(duì),獲得該數(shù)據(jù)流屬于某種協(xié)議的概率值;步驟8,協(xié)議類型分類仲裁根據(jù)步驟7所得到的概率值,最大概率值所對(duì)應(yīng)的協(xié)議類型即判為該數(shù)據(jù)流所屬的協(xié)議類型。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在流量識(shí)別裝置用于網(wǎng)絡(luò)流量在線識(shí)別 之前,存在一個(gè)離線處理階段,對(duì)前期的數(shù)據(jù)進(jìn)行搜集,并進(jìn)行人工分類,提取特征,構(gòu)建協(xié) 議特征庫。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,采用參數(shù)的聯(lián)合概率分布作為協(xié)議特征 衡量的工具;其存儲(chǔ)和表達(dá)方式包括但不限于矩陣式存儲(chǔ)結(jié)構(gòu),其數(shù)據(jù)預(yù)處理手段包括但 不限于歸一化和離散化。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,識(shí)別未知數(shù)據(jù)流時(shí),僅提取數(shù)據(jù)流頭部若 干包的特征,而不需要提取整個(gè)數(shù)據(jù)流的屬性。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,把修正的包間隔時(shí)間用于流量識(shí)別之中。
6.根據(jù)權(quán)利要求1所述的方法,用于TCP業(yè)務(wù)的在線流量識(shí)別方法及裝置,其特征在 于,采集的特征序列遵照同一數(shù)據(jù)流中數(shù)據(jù)包到達(dá)的順序。
7.根據(jù)權(quán)利要求1所述的方法,用于TCP業(yè)務(wù)的在線流量識(shí)別方法及裝置,其特征在 于,分類仲裁階段按照最大概率原則或者加權(quán)最大概率原則的方式進(jìn)行判決。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟4中的數(shù)據(jù)包的特征包括以下的一種 或者幾種,單個(gè)數(shù)據(jù)包的特征; 關(guān)聯(lián)的多個(gè)數(shù)據(jù)包的特征。
9.一種利用數(shù)據(jù)流頭部特征的TCP流量在線識(shí)別裝置,其特征在于,數(shù)據(jù)流分離模塊,從監(jiān)測流量中按照{(diào)源地址、目的地址、源端口、目的端口、傳輸層協(xié)議類型}五元組進(jìn)行數(shù)據(jù)流分離,并去掉不關(guān)心的數(shù)據(jù)流量;屬性提取模塊,從數(shù)據(jù)流中按順序提取頭部若干個(gè)數(shù)據(jù)包的特征,組成特征序列;分類仲裁模塊,完成提取特征與協(xié)議特征庫的比對(duì),以及按照最大概率或者加權(quán)最大 概率原則進(jìn)行仲裁;協(xié)議特征庫模塊,存儲(chǔ)通過前期采集數(shù)據(jù)分析得到的協(xié)議特征。
全文摘要
本發(fā)明涉及一種利用數(shù)據(jù)流頭部特征的TCP流量在線識(shí)別方法和裝置,其中方法包括提取數(shù)據(jù)流中頭部若干包的包長、修正的包間隔時(shí)間等參數(shù),構(gòu)建基于聯(lián)合概率分布的協(xié)議特征庫,通過未知數(shù)據(jù)流頭部數(shù)據(jù)包屬性與協(xié)議特征庫進(jìn)行比對(duì)獲得該數(shù)據(jù)流的協(xié)議類型;其中裝置包括數(shù)據(jù)流分離模塊,屬性提取模塊,分類仲裁模塊和協(xié)議特征庫模塊。本發(fā)明實(shí)施例減弱了往返時(shí)延對(duì)協(xié)議特征顯著性的影響,能準(zhǔn)確識(shí)別各種基于TCP的應(yīng)用層業(yè)務(wù),支持在線的流量識(shí)別,并且識(shí)別過程簡單高效,適于硬件裝置實(shí)現(xiàn),可用于高速骨干網(wǎng)中需要在線流量識(shí)別的設(shè)備和系統(tǒng)。
文檔編號(hào)H04L1/00GK101814977SQ201010152750
公開日2010年8月25日 申請(qǐng)日期2010年4月22日 優(yōu)先權(quán)日2010年4月22日
發(fā)明者王宏祥, 紀(jì)越峰, 顧仁濤 申請(qǐng)人:北京郵電大學(xué)