專利名稱:流量識別方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信技術(shù),尤其涉及一種流量識別方法及裝置。
背景技術(shù):
為了控制網(wǎng)絡(luò)應(yīng)用對帶寬的占用,需要對數(shù)據(jù)流量進(jìn)行有效分析和監(jiān)控,對數(shù) 據(jù)流量進(jìn)行分析和監(jiān)控的過程可分為流量采集,流量識別和流量控制。其中,對采集到 的數(shù)據(jù)流量樣本進(jìn)行識別的過程主要是在應(yīng)用層下對傳輸控制協(xié)議(Transfer Control Protocol ;以下簡稱TCP)或者用戶數(shù)據(jù)報(bào)協(xié)議(User Datagram Protocol ;以下簡稱 UDP)進(jìn)行識別,識別出屬于某種特定協(xié)議的數(shù)據(jù)流,進(jìn)而對識別出的數(shù)據(jù)流進(jìn)行流量統(tǒng)計(jì)、 流量限制或阻斷等操作。 現(xiàn)有技術(shù)的一種流量識別方法,首先采用人工分析軟件根據(jù)數(shù)據(jù)流運(yùn)行狀態(tài)提取 的行為特征建立行為特征模型,然后實(shí)際網(wǎng)絡(luò)通信過程中獲取的待識別的數(shù)據(jù)流信息與已 建立的行為特征模型進(jìn)行匹配,確定待識別數(shù)據(jù)流當(dāng)前所處狀態(tài),并進(jìn)一步判斷待識別數(shù) 據(jù)流的之后的狀態(tài)遷移,根據(jù)待識別數(shù)據(jù)流的狀態(tài)遷移對應(yīng)的各個狀態(tài)識別出該數(shù)據(jù)流所 使用的協(xié)議。采用人工分析軟件建模工作量大、容易出錯,并且容易造成行為特征模型失 效,因此識別率較低。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種流量識別方法及裝置,用于解決現(xiàn)有技術(shù)建模工作量 大、易出錯,實(shí)際的待識別數(shù)據(jù)流的狀態(tài)遷移較快以及網(wǎng)絡(luò)延遲導(dǎo)致行為特征模型失效及 識別率低的問題。 為實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例提供了一種流量識別方法,包括 根據(jù)支持向量機(jī)訓(xùn)練算法對數(shù)據(jù)包樣本的特征向量進(jìn)行訓(xùn)練,生成支持向量機(jī)行
為特征預(yù)測模型; 根據(jù)支持向量機(jī)預(yù)測算法和所述預(yù)測模型獲取待識別通信數(shù)據(jù)流所屬的協(xié)議類 別。 本發(fā)明實(shí)施例還提供了一種流量識別裝置,包括 生成模塊,用于根據(jù)支持向量機(jī)訓(xùn)練算法對數(shù)據(jù)包樣本的特征向量進(jìn)行訓(xùn)練,生 成支持向量機(jī)行為特征預(yù)測模型; 獲取模塊,用于根據(jù)支持向量機(jī)預(yù)測算法和所述預(yù)測模型獲取待識別通信數(shù)據(jù)流 所屬的協(xié)議類別。 因此,本發(fā)明實(shí)施例提供的流量識別方法及裝置,采用支持向量機(jī)訓(xùn)練算法對數(shù) 據(jù)包樣本的特征向量進(jìn)行訓(xùn)練并生成行為特征預(yù)測模型,將提取的待識別通信數(shù)據(jù)流的特 征向量與預(yù)測模型進(jìn)行模糊匹配,識別出待識別通信數(shù)據(jù)流所屬的協(xié)議類別。能夠準(zhǔn)確識 別各種類型應(yīng)用層協(xié)議,減少了人工分析建模的工作量,提高識別效率,識別過程簡單,減 少了行為特征模型失效的問題,對網(wǎng)絡(luò)延遲等影響數(shù)據(jù)流行為模式的因素具有較強(qiáng)的抗干擾性。
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對本發(fā)明實(shí)施 例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明 的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù) 這些附圖獲得其他的附圖。
圖1為本發(fā)明一個實(shí)施例提供的流量識別方法流程圖;
圖2為本發(fā)明又一個實(shí)施例提供的流量識別方法流程圖;
圖3為本發(fā)明一個實(shí)施例提供的流量識別裝置結(jié)構(gòu)示意圖;
圖4為本發(fā)明又一個實(shí)施例提供的流量識別裝置結(jié)構(gòu)示意圖。
具體實(shí)施例方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;?本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。 圖1為本發(fā)明一個實(shí)施例提供的流量識別方法流程圖,如圖1所示,該方法包括
S101、根據(jù)支持向量機(jī)訓(xùn)練算法對數(shù)據(jù)包樣本的特征向量進(jìn)行訓(xùn)練,生成支持向 量機(jī)行為特征預(yù)測模型; 各種不同類型的軟件運(yùn)行時的數(shù)據(jù)流通常遵守不同的協(xié)議,在現(xiàn)網(wǎng)環(huán)境下,可 以抓取各種類型軟件的各個功能場景產(chǎn)生的數(shù)據(jù)包作為支持向量機(jī)(support vector machine,以下簡稱SVM)訓(xùn)練算法的樣本,例如登陸數(shù)據(jù)包、搜索數(shù)據(jù)包或下載流量數(shù)據(jù) 包等,各種類型數(shù)據(jù)包的總量可以根據(jù)需要抓取。從抓取的各種數(shù)據(jù)包中提取出數(shù)據(jù)流的 行為特征向量作為SVM訓(xùn)練算法的輸入。提取數(shù)據(jù)流的行為特征向量類型和維度可以根據(jù) 軟件類型進(jìn)行確定,例如如果描述下載,文字聊天或網(wǎng)絡(luò)通話等數(shù)據(jù)流行為,則可以提取 TCP包、UDP包、同步(synchronize ;以下簡稱SYN)包或PUSH包等各種類型的數(shù)據(jù)包個數(shù) 及平均間隔時間作為數(shù)據(jù)流行為特征向量;如果描述加密數(shù)據(jù)流和非加密數(shù)據(jù)流,可以提 取負(fù)載平均00個數(shù),負(fù)載平均FF個數(shù)以及存在連續(xù)相同字節(jié)的數(shù)據(jù)包數(shù)作為數(shù)據(jù)流行為 特征向量,在此不一一列舉。 提取數(shù)據(jù)包樣本的行為特征向量之后,根據(jù)SVM訓(xùn)練算法對數(shù)據(jù)包樣本的行為特 征向量進(jìn)行訓(xùn)練,生成SVM行為特征預(yù)測模型。 S102、根據(jù)支持向量機(jī)預(yù)測算法和預(yù)測模型獲取待識別通信數(shù)據(jù)流所屬的協(xié)議類 別。 提取待識別通信數(shù)據(jù)流的行為特征向量,提取方法與提取數(shù)據(jù)包樣本的行為特征 向量的過程類似,不再贅述。將已生成的SVM行為特征預(yù)測模型作為SVM預(yù)測算法的輸入, 采用模糊匹配算法將實(shí)時數(shù)據(jù)流與SVM行為特征預(yù)測模型進(jìn)行模糊匹配,從而識別出待識 別通信數(shù)據(jù)流所屬的協(xié)議類別。 本實(shí)施例提供的流量識別方法,采用支持向量機(jī)訓(xùn)練算法對數(shù)據(jù)包樣本的特征向量進(jìn)行訓(xùn)練并生成行為特征預(yù)測模型,將提取的待識別通信數(shù)據(jù)流的特征向量與預(yù)測模型
進(jìn)行模糊匹配,識別出待識別通信報(bào)文所屬的協(xié)議類別。能夠準(zhǔn)確識別各種類型應(yīng)用層協(xié)
議,減少了人工分析建模的工作量,提高識別效率,識別過程簡單,減少了行為特征模型失
效的問題,對網(wǎng)絡(luò)延遲等影響數(shù)據(jù)流行為模式的因素具有較強(qiáng)的抗干擾性。 圖2為本發(fā)明又一個實(shí)施例提供的流量識別方法流程圖,該方法包括 S201、對各功能場景的待識別協(xié)議類型數(shù)據(jù)包和非待識別協(xié)議類型數(shù)據(jù)包進(jìn)行預(yù)
處理; 預(yù)處理的過程主要是對待抓取的數(shù)據(jù)包進(jìn)行過濾,濾除與抓取的協(xié)議類型不相符 的數(shù)據(jù)包。 S202、提取經(jīng)過預(yù)處理的待識別協(xié)議類型數(shù)據(jù)包樣本和非待識別協(xié)議類型數(shù)據(jù)包 樣本; 具體的,在現(xiàn)網(wǎng)環(huán)境下按功能場景來抓取待識別協(xié)議對應(yīng)的軟件產(chǎn)生的數(shù)據(jù)包作 為SVM訓(xùn)練算法的正樣本,其中的功能場景可能對應(yīng)待識別協(xié)議對應(yīng)的軟件運(yùn)行的各個階 段,例如登陸階段,搜索階段或下載階段,對應(yīng)的數(shù)據(jù)包則為登陸數(shù)據(jù)包,搜索數(shù)據(jù)包或下 載數(shù)據(jù)包。正樣本數(shù)據(jù)包總量可以根據(jù)實(shí)際需要進(jìn)行抓取,例如抓取1G字節(jié)等。按功能場 景抓取非待識別協(xié)議對應(yīng)的軟件產(chǎn)生的數(shù)據(jù)包作為SVM訓(xùn)練算法的負(fù)樣本的過程與抓取 正樣本類似,非待識別協(xié)議對應(yīng)的軟件可能為在待識別協(xié)議對應(yīng)的軟件運(yùn)行的同時運(yùn)行的 其他類型的背景軟件,為了提高最終的協(xié)議識別率,可以盡可能選取大量各種類型的背景 軟件。 S203、分別對提取的待識別協(xié)議類型數(shù)據(jù)包樣本和非待識別協(xié)議類型數(shù)據(jù)包樣本 進(jìn)行等維度特征向量提??; 提取數(shù)據(jù)流的行為特征向量類型和維度可以根據(jù)待識別協(xié)議對應(yīng)的軟件類型進(jìn) 行確定,可以選取發(fā)送方和接收方的互聯(lián)網(wǎng)協(xié)議地址及端口 、各種類型數(shù)據(jù)包個數(shù)、上行包 和下行包個數(shù)、流中包總數(shù)、所述數(shù)據(jù)包平均間隔時間以及負(fù)載包含字節(jié)個數(shù)等作為特征 向量。以eMule軟件為例,由于eMule軟件產(chǎn)生的數(shù)據(jù)流具有動態(tài)端口且數(shù)據(jù)流為加密數(shù) 據(jù)流,因此,我們可以對如下行為特征向量進(jìn)行提取 為了精確識別出客戶機(jī)/服務(wù)器流量,提取發(fā)送方(Internet Protocol ;以下簡 稱IP)地址、接收方IP地址、發(fā)送方端口號和接收方端口號,用以描述固定IP地址和端口 的數(shù)據(jù)流; 為了識別不同功能的數(shù)據(jù)流,提取TCP包個數(shù)、UDP包個數(shù)、SYN包個數(shù)、PUSH包 個數(shù)和重置(Reset ;以下簡稱RST)包的個數(shù),并且提取數(shù)據(jù)流上行包的個數(shù),下行包的個 數(shù),流中包的總數(shù)以及各種數(shù)據(jù)包的平均間隔時間,這些行為特征向量可用于描述下載、文 字聊天和網(wǎng)絡(luò)通話等數(shù)據(jù)流的行為特征; 為了識別加密數(shù)據(jù)流和非加密數(shù)據(jù)流,提取負(fù)載平均00字節(jié)個數(shù),負(fù)載平均FF字 節(jié)個數(shù)和存在連續(xù)相同字節(jié)的數(shù)據(jù)包個數(shù),這些行為特征可以用來描述加密數(shù)據(jù)負(fù)載的行 為特征。 以上僅以一個具體軟件為例進(jìn)行說明,在實(shí)際的數(shù)據(jù)包樣本特征向量提取過程 中,可以根據(jù)待識別的協(xié)議類型來選擇待提取的特征向量和特征向量的維度,以通過提取 的特征向量準(zhǔn)確描述數(shù)據(jù)流樣本的特征。
S204、獲取支持向量機(jī)訓(xùn)練算法的最優(yōu)訓(xùn)練參數(shù); S205、根據(jù)支持向量機(jī)訓(xùn)練算法和最優(yōu)訓(xùn)練參數(shù)對數(shù)據(jù)包樣本的特征向量進(jìn)行訓(xùn) 練,生成支持向量機(jī)行為特征預(yù)測模型; 將S201 S203提取的特征向量作為SVM訓(xùn)練算法的輸入,本實(shí)施例在SVM訓(xùn)練
算法中采用更適合于現(xiàn)網(wǎng)環(huán)境的線性核函數(shù)將低維空間的數(shù)據(jù)映射到高維空間,還可以采
用其他類型的核函數(shù),例如多項(xiàng)式核函數(shù)等。利用迭代計(jì)算的方法得到該線性核函數(shù)的最
優(yōu)訓(xùn)練參數(shù)。其中,最優(yōu)訓(xùn)練參數(shù)是能夠使模型最準(zhǔn)確的對訓(xùn)練樣本進(jìn)行分類的訓(xùn)練參數(shù),
本實(shí)施例中采用了迭代算法獲取最優(yōu)訓(xùn)練參數(shù),也可以采用其他算法或隨機(jī)構(gòu)造最優(yōu)訓(xùn)練
參數(shù)。根據(jù)支持向量機(jī)訓(xùn)練算法和最優(yōu)訓(xùn)練參數(shù)生成SVM行為特征預(yù)測模型。 S206、根據(jù)支持向量機(jī)預(yù)測算法解析及加載預(yù)測模型; S207、對提取的待識別通信數(shù)據(jù)流的特征向量與預(yù)測模型進(jìn)行模糊匹配,獲取待 識別通信數(shù)據(jù)流的協(xié)議類別。 將S204 S205生成的SVM行為特征預(yù)測模型作為SVM預(yù)測算法的輸入,解析并 加載該預(yù)測模型,并且對待識別的實(shí)際通信報(bào)文,即待識別的實(shí)際數(shù)據(jù)流進(jìn)行特征向量的 提取,該提取過程參照數(shù)據(jù)包樣本特征向量的提取過程,不再贅述。采用SVM結(jié)構(gòu)風(fēng)險(xiǎn)最小 的模糊匹配算法,將待識別通信數(shù)據(jù)流的特征向量與預(yù)測模型進(jìn)行模糊匹配,以獲取待識 別通信數(shù)據(jù)流的協(xié)議類別。 本實(shí)施例提供的流量識別方法,采用支持向量機(jī)訓(xùn)練算法對數(shù)據(jù)包樣本的特征向 量進(jìn)行訓(xùn)練并生成行為特征預(yù)測模型,將提取的待識別通信數(shù)據(jù)流的特征向量與預(yù)測模型 進(jìn)行模糊匹配,識別出待識別通信報(bào)文所屬的協(xié)議類別。能夠準(zhǔn)確識別各種類型應(yīng)用層協(xié) 議,如具有動態(tài)端口的應(yīng)用層協(xié)議和加密數(shù)據(jù)流的應(yīng)用層協(xié)議,減少了人工分析建模的工 作量,提高識別效率,識別過程簡單,減少了行為特征模型失效的問題,對網(wǎng)絡(luò)延遲等影響 數(shù)據(jù)流行為模式的因素具有較強(qiáng)的抗干擾性。 本領(lǐng)域普通技術(shù)人員可以理解上述實(shí)施例的各種方法中的全部或部分步驟是可 以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲于一計(jì)算機(jī)可讀存儲介質(zhì)中,存儲 介質(zhì)可以包括ROM、RAM、磁盤或光盤等。 圖3為本發(fā)明一個實(shí)施例提供的流量識別裝置結(jié)構(gòu)示意圖,如圖3所示,該裝置包 括生成模塊31和獲取模塊32 ;其中,生成模塊31用于根據(jù)支持向量機(jī)訓(xùn)練算法對數(shù)據(jù)包 樣本的特征向量進(jìn)行訓(xùn)練,生成支持向量機(jī)行為特征預(yù)測模型;獲取模塊32用于根據(jù)支持 向量機(jī)預(yù)測算法和預(yù)測模型獲取待識別通信數(shù)據(jù)流所屬的協(xié)議類別。 具體的,在現(xiàn)網(wǎng)環(huán)境下,可以抓取各種類型軟件的各個功能場景產(chǎn)生的數(shù)據(jù)包作 為SVM訓(xùn)練算法的樣本,各種類型數(shù)據(jù)包的總量可以根據(jù)需要抓取。從抓取的各種數(shù)據(jù)包 中提取出數(shù)據(jù)流的行為特征向量作為SVM訓(xùn)練算法的輸入。提取數(shù)據(jù)流的行為特征向量類 型和維度可以根據(jù)軟件類型進(jìn)行確定,例如如果描述下載,文字聊天或網(wǎng)絡(luò)通話等數(shù)據(jù)流 行為,則可以提取TCP包、UDP包、SYN包或PUSH包等各種類型的數(shù)據(jù)包個數(shù)及平均間隔時 間作為數(shù)據(jù)流行為特征向量;如果描述加密數(shù)據(jù)流和非加密數(shù)據(jù)流,可以提取負(fù)載平均00 個數(shù),負(fù)載平均FF個數(shù)以及存在連續(xù)相同字節(jié)的數(shù)據(jù)包數(shù)作為數(shù)據(jù)流行為特征向量,在此 不--列舉。 提取數(shù)據(jù)包樣本的行為特征向量之后,生成模塊31根據(jù)SVM訓(xùn)練算法對數(shù)據(jù)包樣本的行為特征向量進(jìn)行訓(xùn)練,生成SVM行為特征預(yù)測模型。 提取待識別的實(shí)際通信數(shù)據(jù)流的行為特征向量,提取方法與提取數(shù)據(jù)包樣本的行為特征向量的過程類似,不再贅述。獲取模塊32將已生成的SVM行為特征預(yù)測模型作為SVM預(yù)測算法的輸入,采用模糊匹配算法將實(shí)時數(shù)據(jù)流與SVM行為特征預(yù)測模型進(jìn)行模糊匹配,從而識別出待識別通信數(shù)據(jù)流所屬的協(xié)議類別。 本實(shí)施例提供的流量識別裝置,采用支持向量機(jī)訓(xùn)練算法對數(shù)據(jù)包樣本的特征向
量進(jìn)行訓(xùn)練并生成行為特征預(yù)測模型,將提取的待識別通信數(shù)據(jù)流的特征向量與預(yù)測模型
進(jìn)行模糊匹配,識別出待識別通信報(bào)文所屬的協(xié)議類別。能夠準(zhǔn)確識別各種類型應(yīng)用層協(xié)
議,減少了人工分析建模的工作量,提高識別效率,識別過程簡單,減少了行為特征模型失
效的問題,對網(wǎng)絡(luò)延遲等影響數(shù)據(jù)流行為模式的因素具有較強(qiáng)的抗干擾性。 圖4為本發(fā)明又一個實(shí)施例提供的流量識別裝置結(jié)構(gòu)示意圖,如圖4所示,該裝置
包括生成模塊31和獲取模塊32 ; 生成模塊31可以包括參數(shù)獲取單元311和模型生成單元312 ;參數(shù)獲取單元311用于獲取支持向量機(jī)訓(xùn)練算法的最優(yōu)訓(xùn)練參數(shù);模型生成單元312用于根據(jù)支持向量機(jī)訓(xùn)練算法和最優(yōu)訓(xùn)練參數(shù)對數(shù)據(jù)包樣本的特征向量進(jìn)行訓(xùn)練,生成支持向量機(jī)行為特征預(yù)測模型。 獲取模塊32可以包括加載單元321和識別單元322 ;加載單元321用于根據(jù)支
持向量機(jī)預(yù)測算法解析及加載預(yù)測模型;識別單元322用于對提取的待識別通信數(shù)據(jù)流的
特征向量與預(yù)測模型進(jìn)行模糊匹配,獲取待識別通信數(shù)據(jù)流的協(xié)議類別。 進(jìn)一步的,該裝置還可以包括提取模塊33,用于提取數(shù)據(jù)包樣本的特征向量。該提
取模塊33可以包括預(yù)處理單元331、樣本提取單元332和特征向量提取單元333 ;預(yù)處理
單元331用于對各功能場景的待識別協(xié)議類型數(shù)據(jù)包和非待識別協(xié)議類型數(shù)據(jù)包進(jìn)行預(yù)
處理;樣本提取單元332用于提取經(jīng)過預(yù)處理單元331處理的待識別協(xié)議類型數(shù)據(jù)包樣本
和非待識別協(xié)議類型數(shù)據(jù)包樣本;特征向量提取單元333用于分別對提取的待識別協(xié)議類
型數(shù)據(jù)包樣本和非待識別協(xié)議類型數(shù)據(jù)包樣本進(jìn)行等維度特征向量提取。 具體的,預(yù)處理單元331對待抓取的數(shù)據(jù)包進(jìn)行過濾,濾除與抓取的協(xié)議類型不
相符的數(shù)據(jù)包。樣本提取單元332在現(xiàn)網(wǎng)環(huán)境下按功能場景來抓取待識別協(xié)議對應(yīng)的軟件
產(chǎn)生的數(shù)據(jù)包作為SVM訓(xùn)練算法的正樣本,其中的功能場景可能對應(yīng)待識別協(xié)議對應(yīng)的軟
件運(yùn)行的各個階段,因此,抓取的數(shù)據(jù)包可以為登陸數(shù)據(jù)包,搜索數(shù)據(jù)包或下載數(shù)據(jù)包。正
樣本數(shù)據(jù)包總量可以根據(jù)實(shí)際需要進(jìn)行抓取。樣本提取單元332按功能場景抓取非待識別
協(xié)議對應(yīng)的軟件產(chǎn)生的數(shù)據(jù)包作為SVM訓(xùn)練算法的負(fù)樣本,該過程與抓取正樣本類似,非
待識別協(xié)議對應(yīng)的軟件可能為在待識別協(xié)議對應(yīng)的軟件運(yùn)行的同時運(yùn)行的其他類型的背
景軟件,為了提高最終的協(xié)議識別率,可以盡可能選取大量各種類型的背景軟件。 特征向量提取單元333分別對樣本提取單元332提取的待識別協(xié)議類型數(shù)據(jù)包樣 本和非待識別協(xié)議類型數(shù)據(jù)包樣本進(jìn)行等維度特征向量提取,其中,提取數(shù)據(jù)流的行為特
征向量類型和維度可以根據(jù)待識別協(xié)議對應(yīng)的軟件類型進(jìn)行確定,可以選取發(fā)送方和接收
方的互聯(lián)網(wǎng)協(xié)議地址及端口、各種類型數(shù)據(jù)包個數(shù)、上行包和下行包個數(shù)、流中包總數(shù)、所
述數(shù)據(jù)包平均間隔時間以及負(fù)載包含字節(jié)個數(shù)等作為特征向量。以eMule軟件為例,由于
eMule軟件產(chǎn)生的數(shù)據(jù)流具有動態(tài)端口且數(shù)據(jù)流為加密數(shù)據(jù)流,因此,我們可以對如下行為特征向量進(jìn)行提取 提取發(fā)送方(Internet Protocol ;以下簡稱IP)地址、接收方IP地址、發(fā)送方端口號和接收方端口號,用以描述固定IP地址和端口的數(shù)據(jù)流,精確識別出客戶機(jī)/服務(wù)器流量; 提取TCP包個數(shù)、UDP包個數(shù)、SYN包個數(shù)、PUSH包個數(shù)和RST包的個數(shù),并且提取數(shù)據(jù)流上行包的個數(shù),下行包的個數(shù),流中包的總數(shù)以及各種數(shù)據(jù)包的平均間隔時間,這些行為特征向量可用于描述下載、文字聊天和網(wǎng)絡(luò)通話等數(shù)據(jù)流的行為特征,以識別不同功能的數(shù)據(jù)流; 提取負(fù)載平均00字節(jié)個數(shù),負(fù)載平均FF字節(jié)個數(shù)和存在連續(xù)相同字節(jié)的數(shù)據(jù)包個數(shù),這些行為特征可以用來描述加密數(shù)據(jù)負(fù)載的行為特征,以識別加密數(shù)據(jù)流和非加密數(shù)據(jù)流。 以上僅以一個具體軟件為例進(jìn)行說明,在實(shí)際的數(shù)據(jù)包樣本特征向量提取過程中,特征向量提取單元333可以根據(jù)待識別的協(xié)議類型來選擇待提取的特征向量和特征向量的維度,以通過提取的特征向量準(zhǔn)確描述數(shù)據(jù)流樣本的特征。 參數(shù)獲取單元311將提取的特征向量作為SVM訓(xùn)練算法的輸入,采用線性核函數(shù),并利用迭代計(jì)算的方法得到該線性核函數(shù)的最優(yōu)訓(xùn)練參數(shù),模型生成單元312根據(jù)支持向量機(jī)訓(xùn)練算法和最優(yōu)訓(xùn)練參數(shù)生成SVM行為特征預(yù)測模型。 對待識別的實(shí)際通信報(bào)文,即待識別通信數(shù)據(jù)流進(jìn)行特征向量的提取,該提取過程參照數(shù)據(jù)包樣本特征向量的提取過程,不再贅述。加載單元321將生成的SVM行為特征預(yù)測模型作為SVM預(yù)測算法的輸入,解析并加載該預(yù)測模型。識別單元322采用SVM結(jié)構(gòu)風(fēng)險(xiǎn)最小的模糊匹配算法,將待識別通信數(shù)據(jù)流的特征向量與預(yù)測模型進(jìn)行模糊匹配,以獲取待識別通信數(shù)據(jù)流的協(xié)議類別。 本實(shí)施例提供的流量識別裝置,采用支持向量機(jī)訓(xùn)練算法對數(shù)據(jù)包樣本的特征向量進(jìn)行訓(xùn)練并生成行為特征預(yù)測模型,將提取的待識別通信數(shù)據(jù)流的特征向量與預(yù)測模型進(jìn)行模糊匹配,識別出待識別通信報(bào)文所屬的協(xié)議類別。能夠準(zhǔn)確識別各種類型應(yīng)用層協(xié)議,如具有動態(tài)端口的應(yīng)用層協(xié)議和加密數(shù)據(jù)流的應(yīng)用層協(xié)議,減少了人工分析建模的工作量,提高識別效率,識別過程簡單,減少了行為特征模型失效的問題,對網(wǎng)絡(luò)延遲等影響數(shù)據(jù)流行為模式的因素具有較強(qiáng)的抗干擾性。 最后應(yīng)說明的是以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解其依然可以對前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。
權(quán)利要求
一種流量識別方法,其特征在于,包括根據(jù)支持向量機(jī)訓(xùn)練算法對數(shù)據(jù)包樣本的特征向量進(jìn)行訓(xùn)練,生成支持向量機(jī)行為特征預(yù)測模型;根據(jù)支持向量機(jī)預(yù)測算法和所述預(yù)測模型獲取待識別通信數(shù)據(jù)流所屬的協(xié)議類別。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)支持向量機(jī)訓(xùn)練算法對數(shù)據(jù)包 樣本的特征向量進(jìn)行訓(xùn)練之前,還包括提取所述數(shù)據(jù)包樣本的特征向量。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,提取所述數(shù)據(jù)包樣本的特征向量包括 對各功能場景的待識別協(xié)議類型數(shù)據(jù)包和非待識別協(xié)議類型數(shù)據(jù)包進(jìn)行預(yù)處理; 提取經(jīng)過預(yù)處理的待識別協(xié)議類型數(shù)據(jù)包樣本和非待識別協(xié)議類型數(shù)據(jù)包樣本; 分別對提取的所述待識別協(xié)議類型數(shù)據(jù)包樣本和所述非待識別協(xié)議類型數(shù)據(jù)包樣本進(jìn)行等維度特征向量提取。
4. 根據(jù)權(quán)利要求1 3任一項(xiàng)所述的方法,其特征在于,所述根據(jù)支持向量機(jī)訓(xùn)練算法對數(shù)據(jù)包樣本的特征向量進(jìn)行訓(xùn)練,生成支持向量機(jī)行為特征預(yù)測模型,包括 獲取所述支持向量機(jī)訓(xùn)練算法的最優(yōu)訓(xùn)練參數(shù);根據(jù)所述支持向量機(jī)訓(xùn)練算法和所述最優(yōu)訓(xùn)練參數(shù)對所述數(shù)據(jù)包樣本的特征向量進(jìn) 行訓(xùn)練,生成所述支持向量機(jī)行為特征預(yù)測模型。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)支持向量機(jī)預(yù)測算法和所述預(yù) 測模型獲取待識別通信數(shù)據(jù)流所屬的協(xié)議類別包括根據(jù)所述支持向量機(jī)預(yù)測算法解析及加載所述預(yù)測模型;對提取的所述待識別通信數(shù)據(jù)流的特征向量與所述預(yù)測模型進(jìn)行模糊匹配,獲取所述 待識別通信數(shù)據(jù)流所屬的協(xié)議類別。
6. —種流量識別裝置,其特征在于,包括生成模塊,用于根據(jù)支持向量機(jī)訓(xùn)練算法對數(shù)據(jù)包樣本的特征向量進(jìn)行訓(xùn)練,生成支 持向量機(jī)行為特征預(yù)測模型;獲取模塊,用于根據(jù)支持向量機(jī)預(yù)測算法和所述預(yù)測模型獲取待識別通信數(shù)據(jù)流所屬 的協(xié)議類別。
7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括 提取模塊,用于提取所述數(shù)據(jù)包樣本的特征向量。
8. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述提取模塊包括預(yù)處理單元,用于對各功能場景的待識別協(xié)議類型數(shù)據(jù)包和非待識別協(xié)議類型數(shù)據(jù)包 進(jìn)行預(yù)處理;樣本提取單元,用于提取經(jīng)過所述預(yù)處理單元處理的待識別協(xié)議類型數(shù)據(jù)包樣本和非 待識別協(xié)議類型數(shù)據(jù)包樣本;特征向量提取單元,用于分別對所述樣本提取單元提取的所述待識別協(xié)議類型數(shù)據(jù)包 樣本和所述非待識別協(xié)議類型數(shù)據(jù)包樣本進(jìn)行等維度特征向量提取。
9. 根據(jù)權(quán)利要求6 8任一項(xiàng)所述的裝置,其特征在于,所述生成模塊包括 參數(shù)獲取單元,用于獲取所述支持向量機(jī)訓(xùn)練算法的最優(yōu)訓(xùn)練參數(shù); 模型生成單元,用于根據(jù)所述支持向量機(jī)訓(xùn)練算法和所述最優(yōu)訓(xùn)練參數(shù)對所述數(shù)據(jù)包樣本的特征向量進(jìn)行訓(xùn)練,生成所述支持向量機(jī)行為特征預(yù)測模型。
10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述獲取模塊包括加載單元,用于根據(jù)所述支持向量機(jī)預(yù)測算法解析及加載所述預(yù)測模型;識別單元,用于對提取的所述待識別通信數(shù)據(jù)流的特征向量與所述預(yù)測模型進(jìn)行模糊匹配,獲取所述待識別通信數(shù)據(jù)流所屬的協(xié)議類別。
全文摘要
本發(fā)明實(shí)施例涉及一種流量識別方法及裝置,該方法包括根據(jù)支持向量機(jī)訓(xùn)練算法對數(shù)據(jù)包樣本的特征向量進(jìn)行訓(xùn)練,生成支持向量機(jī)行為特征預(yù)測模型;根據(jù)支持向量機(jī)預(yù)測算法和預(yù)測模型獲取待識別通信數(shù)據(jù)流所屬的協(xié)議類別。本發(fā)明實(shí)施例能夠準(zhǔn)確識別各種類型應(yīng)用層協(xié)議,減少了人工分析建模的工作量,提高識別效率,識別過程簡單,減少了行為特征模型失效的問題,對網(wǎng)絡(luò)延遲等影響數(shù)據(jù)流行為模式的因素具有較強(qiáng)的抗干擾性。
文檔編號H04L12/26GK101695035SQ20091020672
公開日2010年4月14日 申請日期2009年10月21日 優(yōu)先權(quán)日2009年10月21日
發(fā)明者張琰, 沈華林 申請人:成都市華為賽門鐵克科技有限公司;