利用數(shù)據(jù)流頭部特征的tcp流量在線識(shí)別方法及裝置的制作方法

文檔序號(hào)：7746621閱讀：161來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

專利名稱：利用數(shù)據(jù)流頭部特征的tcp流量在線識(shí)別方法及裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及通信技術(shù)領(lǐng)域，尤其涉及一種流量識(shí)別的方法和裝置。
背景技術(shù)：
網(wǎng)絡(luò)和業(yè)務(wù)的復(fù)雜化需要人們能夠很好的對(duì)網(wǎng)絡(luò)的運(yùn)行和傳送內(nèi)容進(jìn)行更好的管理和監(jiān)控。首先，從業(yè)務(wù)上看，業(yè)務(wù)多樣化趨勢加劇，使得區(qū)分網(wǎng)絡(luò)待傳送業(yè)務(wù)的服務(wù)質(zhì) 量(Q0S)需求成為挑戰(zhàn)。網(wǎng)絡(luò)應(yīng)該盡量滿足業(yè)務(wù)的QoS，然而滿足QoS的前提是獲取分析 QoS0這就需要我們能夠?qū)W(wǎng)絡(luò)業(yè)務(wù)進(jìn)行在線分類，以便在傳送中有效的區(qū)分不同業(yè)務(wù)，根據(jù)既定策略對(duì)流量進(jìn)行疏導(dǎo)，測量應(yīng)用層業(yè)務(wù)性能以及用戶業(yè)務(wù)的計(jì)費(fèi)。其次，從網(wǎng)絡(luò)規(guī)劃和優(yōu)化上看，網(wǎng)絡(luò)管理員需要對(duì)網(wǎng)絡(luò)中現(xiàn)有流量進(jìn)行成分分析，以便于根據(jù)目前的承載情況優(yōu)化現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)或者規(guī)劃新的網(wǎng)絡(luò)建設(shè)。后者不需要在線識(shí)別方式，可采用離線的方式加以分析。另外，從網(wǎng)絡(luò)安全角度來看，應(yīng)該對(duì)網(wǎng)絡(luò)中存在的有害流量，如蠕蟲病毒等以消滅，抑制其傳播，這也同樣需要流量識(shí)別技術(shù)作為支撐。目前采用的流量識(shí)別方法主要基于傳輸層端口和應(yīng)用層載荷(簽名)。由于端口號(hào)的濫用，尤其是P2P業(yè)務(wù)采用動(dòng)態(tài)端口號(hào)甚至采用HTTP協(xié)議約定的80端口作為傳輸通道，使得單純基于傳輸層端口號(hào)進(jìn)行業(yè)務(wù)識(shí)別的方法失去了有效性。而針對(duì)載荷特征的方法，由于涉及較為復(fù)雜的操作，不適用于高速骨干網(wǎng)的流量識(shí)別。而采用人工智能方法進(jìn)行流量識(shí)別的方法，又由于其計(jì)算復(fù)雜性和固有的串行處理的特性，不適于網(wǎng)絡(luò)設(shè)備的硬件實(shí)現(xiàn)，因而限制了其在高速骨干網(wǎng)的應(yīng)用。為了適應(yīng)目前和未來高速骨干網(wǎng)的需要，流量識(shí)別技術(shù)迫切的需要滿足以下幾點(diǎn)1)參數(shù)選擇上避免采用端口或者凈荷作為主要特征；2)算法設(shè)計(jì)上要保證流量的在線識(shí)別；2)處理方法上要具有并行化處理的特性，且易于硬件實(shí)現(xiàn)。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種利用數(shù)據(jù)流頭部特征的TCP流量在線識(shí)別方法及裝置。通過提取一個(gè)數(shù)據(jù)流中頭部若干包的包長、修正的包間隔時(shí)間等參數(shù)，然后與事先提取的協(xié)議特征庫進(jìn)行比對(duì)，獲得該數(shù)據(jù)流所屬的類型。本發(fā)明提供的方法包括以下步驟步驟1，前期真實(shí)流量數(shù)據(jù)的獲取采集多個(gè)網(wǎng)絡(luò)真實(shí)流量數(shù)據(jù)集，這些流量數(shù)據(jù) 集最好來自不同地點(diǎn)和不同時(shí)間；步驟2，前期真實(shí)流量的數(shù)據(jù)流梳理通過查找數(shù)據(jù)流的起始數(shù)據(jù)包，如TCP的 Set-up包，以及{源地址、目的地址、源端口、目的端口、傳輸層協(xié)議類型}五元組將步驟1 所得流量數(shù)據(jù)集分離為不同的TCP流，這樣流量數(shù)據(jù)集就變?yōu)榱?TCP流的集合；步驟3，對(duì)前期真實(shí)TCP流集合進(jìn)行人工分類使用凈荷檢查等方法，對(duì)步驟2得到的TCP流集合進(jìn)行手工的流量識(shí)別分類，使得步驟2的每一條數(shù)據(jù)流都與一種協(xié)議類型相對(duì)應(yīng)；步驟4，提取TCP流集合的包特征得到每一條流中數(shù)據(jù)包的包長、包的修正間隔時(shí)間、傳輸方向等特征，并按照數(shù)據(jù)包在該流的先后順序構(gòu)建一個(gè)特征序列。需要注意的是，本步驟采集的參數(shù)是修正的間隔時(shí)間，并不是簡單的相鄰兩數(shù)據(jù)包在測量點(diǎn)到達(dá)時(shí)間之差，而是兩數(shù)據(jù)包到達(dá)時(shí)間的差值減去數(shù)據(jù)流兩端點(diǎn)往返傳送時(shí)延的估計(jì)值。具體實(shí)施例將對(duì)修正間隔時(shí)間進(jìn)行詳細(xì)闡述；步驟5，建立協(xié)議特征庫根據(jù)步驟3所得的數(shù)據(jù)流協(xié)議類型和步驟4所得的數(shù)據(jù) 流特征，建立協(xié)議特征庫。其主要工作是建立若干組矩陣，每一個(gè)矩陣存儲(chǔ)同一種協(xié)議數(shù)據(jù) 流的同一序號(hào)數(shù)據(jù)包特征的聯(lián)合概率密度。這樣每一種協(xié)議就有一組聯(lián)合概率密度矩陣與之對(duì)應(yīng)，其中存儲(chǔ)著該類協(xié)議數(shù)據(jù)流頭部若干數(shù)據(jù)包的特征的聯(lián)合概率密度；步驟6，提取待分析數(shù)據(jù)流的數(shù)據(jù)包特征按照數(shù)據(jù)包在該數(shù)據(jù)流的先后順序，依次提取這些數(shù)據(jù)包的特征，組成一個(gè)特征序列；步驟7，比對(duì)協(xié)議特征庫將步驟6所得到的特征序列與步驟5所得到的協(xié)議特征庫進(jìn)行比對(duì)，獲得該數(shù)據(jù)流屬于某種協(xié)議的概率；步驟8，協(xié)議類型分類仲裁根據(jù)步驟7所得到的概率值，最大概率值所對(duì)應(yīng)的協(xié) 議類型即判為該數(shù)據(jù)流所屬的協(xié)議類型。
本發(fā)明還提供了一種基于本方法的流量在線識(shí)別裝置，其至少包括數(shù)據(jù)流分離模塊，從監(jiān)測流量中按照{(diào)源地址、目的地址、源端口、目的端口、傳輸層協(xié)議類型}五元組進(jìn)行數(shù)據(jù)流分離，以便于提取特征和后期的流量管理；屬性提取模塊，從數(shù)據(jù)流中按順序提取頭部若干個(gè)數(shù)據(jù)包的特征，組成特征序列；分類仲裁模塊，完成提取特征與協(xié)議特征庫的比對(duì)，以及按照最大概率原則進(jìn)行的仲裁；協(xié)議特征庫模塊，存儲(chǔ)通過前期采集數(shù)據(jù)分析得到的協(xié)議特征，即步驟5中所得到矩陣形式的協(xié)議特征庫。因此，本發(fā)明提供的流量識(shí)別方法和裝置，在識(shí)別過程中避免了對(duì)數(shù)據(jù)流凈荷檢查，僅需要數(shù)據(jù)包的底層參數(shù)，如包長，時(shí)間間隔等，參數(shù)提取簡單；在分類仲裁過程中，采用聯(lián)合概率密度的方式避免了復(fù)雜的正則運(yùn)算，而多片式的矩陣存儲(chǔ)結(jié)構(gòu)非常適于硬件并行化操作，因而處理方式較傳統(tǒng)手段大為簡化；本方法僅需要提取數(shù)據(jù)流頭部若干個(gè)包的信息而非整個(gè)數(shù)據(jù)流的信息，這使得本方法可以實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)的在線實(shí)時(shí)識(shí)別。較低的參數(shù)提取需求，高效的計(jì)算處理方式，準(zhǔn)確的流量分類結(jié)果，以及易于硬件在線實(shí)現(xiàn)的特性構(gòu) 成了本發(fā)明的最大特色。

為了更清楚地說明本發(fā)明實(shí)施例，下面將對(duì)本發(fā)明實(shí)施例描述中所需要使用的附圖作簡單的介紹，顯然地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)前提下，還可以根據(jù)這些附圖獲得的更多的附圖。圖1是本發(fā)明一個(gè)實(shí)施例提供的流量識(shí)別方法流程圖；圖2是本發(fā)明一個(gè)實(shí)施例提供的流量識(shí)別裝置的結(jié)構(gòu)示意圖；圖3是本發(fā)明一個(gè)實(shí)施例中關(guān)于修正間隔時(shí)間描述的示意圖；圖4是本發(fā)明一個(gè)實(shí)施例提供的關(guān)于往返時(shí)延測量的流程圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述。顯然，所描述的實(shí)例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；诒?發(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí) 施例，都屬于本發(fā)明保護(hù)范圍。圖1為本發(fā)明一個(gè)實(shí)施例提供的流量識(shí)別方法的流程圖，如圖1所示，該方法包括S101、在不同時(shí)間從不同地點(diǎn)收集多個(gè)網(wǎng)絡(luò)流量數(shù)據(jù)集；網(wǎng)絡(luò)流量識(shí)別裝置一般部署在一定的網(wǎng)絡(luò)中，為了提高協(xié)議特征庫的精確度，需要在準(zhǔn)備部署的網(wǎng)絡(luò)中設(shè)置測量設(shè)備，從網(wǎng)絡(luò)中采集真實(shí)流量數(shù)據(jù)集。其中，該流量數(shù)據(jù) 集包括用于通過凈荷檢查等方式確定流量協(xié)議類型所需的信息，以及數(shù)據(jù)包長、包間隔時(shí) 間等后續(xù)步驟所需的特征參數(shù)；同時(shí)，該流量數(shù)據(jù)集剔除了與識(shí)別類型無關(guān)的流量。顯然， SlOl所述的真實(shí)流量數(shù)據(jù)集可通過探針方式在承載眾多用戶的網(wǎng)絡(luò)中獲得，還包括其它方式獲得的真實(shí)流量，如人為在某些終端上產(chǎn)生www流量并在傳輸路徑上加以采集。S102、對(duì)采集的流量數(shù)據(jù)進(jìn)行梳理，使之構(gòu)成一個(gè)TCP流的集合；某些流量識(shí)別方法使用的參數(shù)是一個(gè)數(shù)據(jù)流中數(shù)據(jù)包的平均特征，比如平均包長，平均包間隔。而本方法使用的參數(shù)包含了數(shù)據(jù)包的順序信息，因此需要把流量數(shù)據(jù)集按照{(diào)源地址、目的地址、源端口、目的端口、傳輸層協(xié)議類型}五元組將SlOl所得流量數(shù)據(jù) 集分離為不同的TCP流，這樣流量數(shù)據(jù)集就變?yōu)榱?TCP流的集合；其中，TCP流的頭部的判斷依據(jù)可以使用但不限于TCP的Setup、Setup/ACK、ACK數(shù)據(jù)包；并且一個(gè)數(shù)據(jù)流中數(shù)據(jù)包必須按照達(dá)到觀測點(diǎn)的先后順序排列。S103、對(duì)所獲得的TCP數(shù)據(jù)流進(jìn)行協(xié)議分類；采用載荷分析等方法，以離線方式獲得TCP數(shù)據(jù)流的協(xié)議類型，如WWW、MAIL、FTP、 P2P等。需要注意的是，S103采用的算法不限于采用載荷分析方法，但是需要保證很高的正確度，以保證協(xié)議特征庫的精確性。S104、提取TCP流的屬性以及進(jìn)行數(shù)據(jù)預(yù)處理；本發(fā)明一個(gè)實(shí)施例僅需要提取每條流頭部若干個(gè)包的包長、修正包間隔時(shí)間以及傳送方向，包數(shù)可以根據(jù)實(shí)際測試情況加以調(diào)整，建議數(shù)目為5-10。由于包長和修正間隔時(shí)間范圍較大且需要離散化，可能需要數(shù)據(jù)的歸一化處理，如采用Log函數(shù)，arctan函數(shù)對(duì) 原始數(shù)據(jù)進(jìn)行處理，并選取合適的離散刻度。同時(shí)，由于部分?jǐn)?shù)據(jù)包因?yàn)閬G失和延遲過大引起重傳，此部分?jǐn)?shù)據(jù)可以剔除以提高精確度。在本步驟，每一條流可以獲得如下的特征序列{{第一個(gè)包長，第一個(gè)修正包間隔時(shí)間，第一個(gè)包傳送方向}，{第二個(gè)包長，第二個(gè)修正包間隔時(shí)間，第二個(gè)包傳送方向}，{第三個(gè)包長，第三個(gè)修正包間隔時(shí)間，第三個(gè)包傳送方向}，……，{第η個(gè)包長，第η個(gè)修正包間隔時(shí)間，第η個(gè)包傳送方向}}，其中，η為使用的數(shù)據(jù)流頭部數(shù)據(jù)包的數(shù)目。S105、為每一種協(xié)議建立一組矩陣，按順序存儲(chǔ)該協(xié)議數(shù)據(jù)流數(shù)據(jù)包特征的聯(lián)合概率分布。圖1中的S104獲得了每一條流的特征序列，本步驟將統(tǒng)計(jì)同一種協(xié)議類型的數(shù)據(jù)流特征序列的聯(lián)合概率分布。以www有關(guān)協(xié)議為例，根據(jù)集合中所有www數(shù)據(jù)流的第一個(gè)包的特征{第一個(gè)包長，第一個(gè)修正包間隔時(shí)間，第一個(gè)包傳送方向}，可以得到所有www數(shù) 據(jù)流第一個(gè)包的二維聯(lián)合概率分布，并將該分布存儲(chǔ)到一個(gè)二維矩陣中。其中，包長和修正間隔時(shí)間為兩個(gè)坐標(biāo)軸，包傳送方向可以通過包長的正負(fù)性加以表示。矩陣中每個(gè)單元的值為www數(shù)據(jù)流第一個(gè)包所對(duì)應(yīng)包長和包間隔的概率密度。目的是通過聯(lián)合概率密度來反映WWW業(yè)務(wù)第一個(gè)數(shù)據(jù)包的統(tǒng)計(jì)特性。同理可以得到第2個(gè)矩陣來反映WWW業(yè)務(wù)第2個(gè)數(shù) 據(jù)包的特性。至此可以得到WWW的η個(gè)矩陣，以反映WWW數(shù)據(jù)流前η個(gè)包的特性。同樣地，可以獲得其它協(xié)議類型的η個(gè)矩陣。這些矩陣合在一起構(gòu)成了協(xié)議特征庫。S106、當(dāng)流量識(shí)別設(shè)備部署后，一旦需要分析一個(gè)未知數(shù)據(jù)流，那么首先提取該數(shù) 據(jù)流的數(shù)據(jù)包特征；如果S105中使用了前η個(gè)包的特征，那么S106也將提取該數(shù)據(jù)流前η個(gè)包的特征，組成一個(gè)特征序列{{第一個(gè)包長，第一個(gè)修正包間隔時(shí)間，第一個(gè)包傳送方向}，{第二個(gè)包長，第二個(gè)修正包間隔時(shí)間，第二個(gè)包傳送方向}，{第三個(gè)包長，第三個(gè)修正包間隔時(shí)間，第三個(gè)包傳送方向}，……，{第η個(gè)包長，第η個(gè)修正包間隔時(shí)間，第η個(gè)包傳送方向}}，其中，η為使用的數(shù)據(jù)流頭部數(shù)據(jù)包的數(shù)目。S107、將未知數(shù)據(jù)流的特征與已知的協(xié)議特征庫進(jìn)行比對(duì)，獲得該數(shù)據(jù)流屬于某種協(xié)議的概率值；通過S106獲得的未知數(shù)據(jù)流特征序列與S105得到的協(xié)議特征庫進(jìn)行比對(duì)，根據(jù) {第i個(gè)包長，第i個(gè)修正包間隔時(shí)間、第i個(gè)包傳送方向}，很容易從協(xié)議特征庫的矩陣中得到根據(jù)第i個(gè)包來看，屬于某種協(xié)議類型的概率。前η個(gè)包所得概率的均值可以看作該數(shù)據(jù)流屬于該協(xié)議的概率。SlOSjf S107獲得的概率值放在一起，如果哪個(gè)概率值大，就說明這個(gè)數(shù)據(jù)流就更應(yīng)該屬于哪個(gè)協(xié)議類型。在S108中，也可以采用加權(quán)修正的方法來仲裁該數(shù)據(jù)流屬于哪種協(xié)議類型。圖2提供了本發(fā)明一個(gè)實(shí)施例提供的流量識(shí)別裝置的結(jié)構(gòu)示意圖。從功能上看，可以分為在線和離線兩個(gè)部分。離線部分主要完成協(xié)議特征庫的構(gòu)造；在線部分主要負(fù)責(zé) 未知數(shù)據(jù)流的分類。其中，前期數(shù)據(jù)流量采集211、數(shù)據(jù)流分離212、數(shù)據(jù)流特征提取213可在裝置部署前完成，因此不是使用流量識(shí)別的裝置或者系統(tǒng)的必要組成部分。而數(shù)據(jù)流分離模塊221、屬性提取模塊222、分類仲裁模塊223和協(xié)議特征模塊214 —般應(yīng)在使用流量識(shí)別的裝置或系統(tǒng)中出現(xiàn)。每一模塊具體功能和處理流程如下在帶有流量識(shí)別的裝置或系統(tǒng)使用前，需要使用探針等手段進(jìn)行前期數(shù)據(jù)采集211，數(shù)據(jù)流分離212，數(shù)據(jù)流特征提取213，完成圖1中 S101-S105的工作，構(gòu)建協(xié)議特征庫模塊214。其中，協(xié)議特征庫214—般可以置于裝置中的存儲(chǔ)器中，如R0M，F(xiàn)LASN等。當(dāng)一個(gè)未知流量進(jìn)入流量識(shí)別裝置后，數(shù)據(jù)流分離模塊221 將尋找TCP流的頭部，并按照{(diào)源地址、目的地址、源端口、目的端口、傳輸層協(xié)議類型}五元組將流量按照數(shù)據(jù)流分離開來，屬性提取模塊222按數(shù)據(jù)包先后順序，依次提取包長、修正包間隔時(shí)間、傳送方向等參數(shù)，形成特征序列，送入分類仲裁模塊223，完成圖1的S106I 作。分類仲裁模塊將讀取協(xié)議特征模塊存儲(chǔ)的協(xié)議聯(lián)合概率分布信息進(jìn)行分類判斷，完成圖1的S107-S108的內(nèi)容。值得一提的是由于協(xié)議特征庫同時(shí)存有多個(gè)協(xié)議的特征庫，因此計(jì)算該數(shù)據(jù)流屬于某種協(xié)議的概率可以并行進(jìn)行；同時(shí)，數(shù)據(jù)流分離模塊221、屬性提取模塊222、分類仲裁模塊223構(gòu)成流水線工作模式，可以極大地提高該裝置識(shí)別流量的吞吐量。圖3是本發(fā)明一個(gè)實(shí)施例中關(guān)于修正間隔時(shí)間描述的示意圖。某些流量識(shí)別方法采用包間隔時(shí)間作為參數(shù)用于流量識(shí)別，但是需要包間隔時(shí)間這一參數(shù)受網(wǎng)絡(luò)狀態(tài)影響很大，尤其是往返時(shí)延對(duì)包間隔時(shí)間有著直接而顯著的影響，使之不能很好的反映協(xié)議本身的特性。本發(fā)明采用修正的包間隔時(shí)間，即在傳統(tǒng)的包間隔時(shí)間扣除往返時(shí)延的影響。在本發(fā)明的一個(gè)實(shí)施例中，以測量點(diǎn)本地時(shí)鐘為準(zhǔn)，記錄同一數(shù)據(jù)流中相鄰數(shù)據(jù)包到達(dá)的時(shí) 間差T，同時(shí)估計(jì)該數(shù)據(jù)流兩端點(diǎn)間的往返時(shí)延R，修正后的包間隔時(shí)間為T-R。通過這種方式減弱了往返時(shí)延對(duì)于包間隔時(shí)間這一參數(shù)的影響，增強(qiáng)了協(xié)議特征的顯著性。圖4是本發(fā)明一個(gè)實(shí)施例提供的關(guān)于往返時(shí)延測量的流程圖。由于TCP建立連接僅需要很少的處理時(shí)間，因此本實(shí)施例采用TCP三次握手機(jī)制來估計(jì)往返時(shí)延，即測量點(diǎn)一旦發(fā)現(xiàn)出現(xiàn)TCP Setup數(shù)據(jù)包，就記錄該包到達(dá)時(shí)刻Tl ，同時(shí)等待同一數(shù)據(jù)流TCP Setup/ACK數(shù)據(jù)包出現(xiàn)，一旦發(fā)現(xiàn)就記錄其到達(dá)時(shí)刻T2，然后等待并記錄TCPACK包到達(dá)時(shí) 刻T3。T3-T1為兩端點(diǎn)往返時(shí)延的估算值。本實(shí)施例提供的方法和裝置，使用了數(shù)據(jù)包本身的屬性，避免了凈荷檢查；使用修正包間隔時(shí)間，增強(qiáng)了協(xié)議特征的顯著性，避免了往返時(shí)延對(duì)于結(jié)果的影響；采用了聯(lián)合概率密度作為特征分析手段以及矩陣式的存儲(chǔ)結(jié)構(gòu)，避免了復(fù)雜的計(jì)算，且便于硬件實(shí)現(xiàn)。該方法僅使用數(shù)據(jù)流頭部若干個(gè)包的特征，不需要數(shù)據(jù)流整體信息，因此可以方便的實(shí)現(xiàn)流量的在線識(shí)別。最后應(yīng)說明的是以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案，而非對(duì)其限制；盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明，本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解；其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改，或者對(duì)其中技術(shù)特征進(jìn)行等同替換；而這些修改或者替換，并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。
權(quán)利要求
一種利用數(shù)據(jù)流頭部特征的TCP流量在線識(shí)別方法，其特征在于包括以下步驟步驟1，前期真實(shí)流量數(shù)據(jù)的獲取采集多個(gè)網(wǎng)絡(luò)真實(shí)流量數(shù)據(jù)集，這些數(shù)據(jù)集在不同時(shí)間采自于待部署網(wǎng)絡(luò)；步驟2，前期真實(shí)流量的數(shù)據(jù)流梳理通過查找數(shù)據(jù)流的起始數(shù)據(jù)包，以及{源地址、目的地址、源端口、目的端口、傳輸層協(xié)議類型}五元組將步驟1所得流量數(shù)據(jù)集分離為不同的TCP流，使得流量數(shù)據(jù)集就轉(zhuǎn)換為TCP流的集合；步驟3，對(duì)前期真實(shí)TCP流集合進(jìn)行人工分類使用凈荷檢查等方法，對(duì)步驟2得到的TCP流集合進(jìn)行手工的流量識(shí)別分類，使步驟2的每一條流都與一種協(xié)議類型相對(duì)應(yīng)；步驟4，提取TCP流集合的包特征得到每一條流中關(guān)于數(shù)據(jù)包的特征，并按照數(shù)據(jù)包在該流的先后順序構(gòu)建一個(gè)特征序列；步驟5，建立協(xié)議特征庫根據(jù)步驟3所得的數(shù)據(jù)流協(xié)議類型和步驟4所得的數(shù)據(jù)流特征，建立若干組矩陣，每一個(gè)矩陣存儲(chǔ)同一種協(xié)議數(shù)據(jù)流的同一序號(hào)數(shù)據(jù)包特征的聯(lián)合概率密度，使得每一種協(xié)議有一組聯(lián)合概率密度矩陣與之對(duì)應(yīng)，其中概率密度矩陣存儲(chǔ)該類協(xié)議數(shù)據(jù)流頭部若干數(shù)據(jù)包的特征的聯(lián)合概率密度；步驟6，提取待分析數(shù)據(jù)流的數(shù)據(jù)包特征按照數(shù)據(jù)包在該數(shù)據(jù)流的先后順序，依次提取這些數(shù)據(jù)包的特征，組成一個(gè)特征序列；步驟7，比對(duì)協(xié)議特征庫將步驟6所得到的特征序列與步驟5所得到的協(xié)議特征庫進(jìn)行比對(duì)，獲得該數(shù)據(jù)流屬于某種協(xié)議的概率值；步驟8，協(xié)議類型分類仲裁根據(jù)步驟7所得到的概率值，最大概率值所對(duì)應(yīng)的協(xié)議類型即判為該數(shù)據(jù)流所屬的協(xié)議類型。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，在流量識(shí)別裝置用于網(wǎng)絡(luò)流量在線識(shí)別之前，存在一個(gè)離線處理階段，對(duì)前期的數(shù)據(jù)進(jìn)行搜集，并進(jìn)行人工分類，提取特征，構(gòu)建協(xié) 議特征庫。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于，采用參數(shù)的聯(lián)合概率分布作為協(xié)議特征衡量的工具；其存儲(chǔ)和表達(dá)方式包括但不限于矩陣式存儲(chǔ)結(jié)構(gòu)，其數(shù)據(jù)預(yù)處理手段包括但不限于歸一化和離散化。
4.根據(jù)權(quán)利要求1所述的方法，其特征在于，識(shí)別未知數(shù)據(jù)流時(shí)，僅提取數(shù)據(jù)流頭部若干包的特征，而不需要提取整個(gè)數(shù)據(jù)流的屬性。
5.根據(jù)權(quán)利要求1所述的方法，其特征在于，把修正的包間隔時(shí)間用于流量識(shí)別之中。
6.根據(jù)權(quán)利要求1所述的方法，用于TCP業(yè)務(wù)的在線流量識(shí)別方法及裝置，其特征在于，采集的特征序列遵照同一數(shù)據(jù)流中數(shù)據(jù)包到達(dá)的順序。
7.根據(jù)權(quán)利要求1所述的方法，用于TCP業(yè)務(wù)的在線流量識(shí)別方法及裝置，其特征在于，分類仲裁階段按照最大概率原則或者加權(quán)最大概率原則的方式進(jìn)行判決。
8.根據(jù)權(quán)利要求1所述的方法，其特征在于，步驟4中的數(shù)據(jù)包的特征包括以下的一種或者幾種，單個(gè)數(shù)據(jù)包的特征；關(guān)聯(lián)的多個(gè)數(shù)據(jù)包的特征。
9.一種利用數(shù)據(jù)流頭部特征的TCP流量在線識(shí)別裝置，其特征在于，數(shù)據(jù)流分離模塊，從監(jiān)測流量中按照{(diào)源地址、目的地址、源端口、目的端口、傳輸層協(xié)議類型}五元組進(jìn)行數(shù)據(jù)流分離，并去掉不關(guān)心的數(shù)據(jù)流量；屬性提取模塊，從數(shù)據(jù)流中按順序提取頭部若干個(gè)數(shù)據(jù)包的特征，組成特征序列；分類仲裁模塊，完成提取特征與協(xié)議特征庫的比對(duì)，以及按照最大概率或者加權(quán)最大概率原則進(jìn)行仲裁；協(xié)議特征庫模塊，存儲(chǔ)通過前期采集數(shù)據(jù)分析得到的協(xié)議特征。
全文摘要
本發(fā)明涉及一種利用數(shù)據(jù)流頭部特征的TCP流量在線識(shí)別方法和裝置，其中方法包括提取數(shù)據(jù)流中頭部若干包的包長、修正的包間隔時(shí)間等參數(shù)，構(gòu)建基于聯(lián)合概率分布的協(xié)議特征庫，通過未知數(shù)據(jù)流頭部數(shù)據(jù)包屬性與協(xié)議特征庫進(jìn)行比對(duì)獲得該數(shù)據(jù)流的協(xié)議類型；其中裝置包括數(shù)據(jù)流分離模塊，屬性提取模塊，分類仲裁模塊和協(xié)議特征庫模塊。本發(fā)明實(shí)施例減弱了往返時(shí)延對(duì)協(xié)議特征顯著性的影響，能準(zhǔn)確識(shí)別各種基于TCP的應(yīng)用層業(yè)務(wù)，支持在線的流量識(shí)別，并且識(shí)別過程簡單高效，適于硬件裝置實(shí)現(xiàn)，可用于高速骨干網(wǎng)中需要在線流量識(shí)別的設(shè)備和系統(tǒng)。
文檔編號(hào)H04L1/00GK101814977SQ201010152750
公開日2010年8月25日申請(qǐng)日期2010年4月22日優(yōu)先權(quán)日2010年4月22日
發(fā)明者王宏祥, 紀(jì)越峰, 顧仁濤申請(qǐng)人:北京郵電大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：紀(jì)越峰;顧仁濤;王宏祥
技術(shù)所有人：北京郵電大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測試系統(tǒng)設(shè)計(jì) 2.汽車檢測系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

空氣流量計(jì)正常數(shù)據(jù)流相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

利用數(shù)據(jù)流頭部特征的tcp流量在線識(shí)別方法及裝置的制作方法