本發(fā)明涉及計算機(jī)網(wǎng)絡(luò)安全領(lǐng)域,具體涉及一種互聯(lián)網(wǎng)流量分類樣本標(biāo)注方法。
背景技術(shù):
:近年來,隨著互聯(lián)網(wǎng)的高速發(fā)展,互聯(lián)網(wǎng)流量迅猛增長,流量種類也日益增加。網(wǎng)絡(luò)管理者通常都需要使用網(wǎng)絡(luò)流量分類技術(shù)來區(qū)分各種應(yīng)用和協(xié)議的流量,然后再根據(jù)特定的要求來限制特定類型的流量或阻斷有害應(yīng)用的流量。流量分類領(lǐng)域在最近十幾年的飛速發(fā)展,使得很多新的流量分類技術(shù)相繼產(chǎn)生,走向成熟并已經(jīng)用于實際的產(chǎn)品中。目前在流量分類的學(xué)術(shù)領(lǐng)域,主要有以下幾種不同的流量分類技術(shù):第一種是基于傳輸層端口號的流量分類技術(shù)。然而隨著互聯(lián)網(wǎng)的飛速發(fā)展,P2P、GAME等新興業(yè)務(wù)和私有業(yè)務(wù)不斷涌現(xiàn)。這些新興業(yè)務(wù)使用隨機(jī)端口號或使用標(biāo)準(zhǔn)端口號來躲避網(wǎng)絡(luò)監(jiān)測封堵。因此基于端口號的分類方法漸漸失效。第二種是DPI(深度包檢測)的流量分類技術(shù),通過數(shù)據(jù)包的的特征串匹配來對其進(jìn)行分類。但這種分類方法無法處理加密網(wǎng)絡(luò)流,且計算復(fù)雜度高,資源消耗大。第三種是基于統(tǒng)計特征(包長、包間隔等)的機(jī)器學(xué)習(xí)分類技術(shù)。該方法能處理加密數(shù)據(jù)流,因此使用日漸增多。但是這種方法需要用和真實數(shù)據(jù)相似的測試數(shù)據(jù)構(gòu)建分類模型,難于應(yīng)用于需要實時流量分類的場合,這些缺陷影響了其在實踐中的廣泛應(yīng)用。第四種方法是基于主機(jī)行為模式關(guān)聯(lián)的流量分類方法,這種方法通過將一段時間內(nèi)某一主機(jī)的流量進(jìn)行IP地址和端口的關(guān)聯(lián),并借助一些先驗知識和行為模式匹配來對網(wǎng)絡(luò)流量進(jìn)行分類。這種方法更能反映出特定的網(wǎng)絡(luò)應(yīng)用流量的本質(zhì)特征,但也存在計算開銷較大的問題。針對不同流量分類方法或系統(tǒng)進(jìn)行分類效果測評,需要大量標(biāo)注數(shù)據(jù)集樣本。標(biāo)注數(shù)據(jù)集,也稱為基準(zhǔn)數(shù)據(jù)集(Groundtruth數(shù)據(jù)集),是指數(shù)據(jù)集中的數(shù)據(jù)包對應(yīng)的應(yīng)用和協(xié)議類型已知并且已經(jīng)被標(biāo)記的數(shù)據(jù)集。在流量分類測評中需要采集一定的標(biāo)注數(shù)據(jù)集,作為測試基準(zhǔn)數(shù)據(jù)集。然而目前還缺乏一個完善的標(biāo)注方法和標(biāo)準(zhǔn)實現(xiàn)樣本標(biāo)注。目前已有的流量分類標(biāo)注方法有以下缺陷:1)流量協(xié)議或應(yīng)用劃分標(biāo)準(zhǔn)存在較大不同:如對于某些具體的應(yīng)用,如某款網(wǎng)絡(luò)游戲的加速器的流量,有的分類系統(tǒng)將其劃分為游戲的流量,有的分類系統(tǒng)則劃分為隧道流量;IM(InstantMessaging,實時通訊)工具中的語音和視頻流量,有的分類系統(tǒng)仍然算為IM流量,有的則算為VOIP(VoiceOverInternetProtocolIP承載語音)或音視頻流量之中了。2)樣本標(biāo)注方法缺乏靈活性和可擴(kuò)展性:常用的標(biāo)注方法,是將網(wǎng)絡(luò)流按照五元組建流。再生成一份文檔,記錄每條五元組對應(yīng)的協(xié)議或應(yīng)用。該種方法的缺陷首先是標(biāo)注是基于流級別,而不是基于包級別,數(shù)據(jù)使用者無法獲悉某個包的真實協(xié)議或應(yīng)用。其次該方法需維護(hù)一份標(biāo)注文檔,在對分類結(jié)果進(jìn)行比對時,需頻繁讀取查詢該文檔,影響分類測評性能。技術(shù)實現(xiàn)要素:針對上述問題,本發(fā)明的目的是提供在一種互聯(lián)網(wǎng)流量分類樣本標(biāo)注方法,能夠獲得流量分類標(biāo)注樣本,具備完整的流量分類編碼規(guī)范、樣本采集方法、樣本標(biāo)注方法??商岣吡髁糠诸悩?biāo)注的規(guī)范性、靈活性和可擴(kuò)展性。適用于前述的四種流量分類方法。為達(dá)上述目的,本發(fā)明采取的具體技術(shù)方案是:一種互聯(lián)網(wǎng)流量分類樣本標(biāo)注方法,包括以下步驟:S1:按照一樣本采集要求,采集指定協(xié)議和應(yīng)用的的流量樣本,構(gòu)成樣本數(shù)據(jù)集;S2:根據(jù)一流量分類編碼規(guī)范,在采集的樣本數(shù)據(jù)集的源MAC地址上標(biāo)注分類信息;S3:根據(jù)所述分類信息,以一命名規(guī)范對流量樣本命名一文件名,使用該文件名作為標(biāo)注標(biāo)識。其中,所述樣本采集要求包括:1)流量樣本具有代表性,樣本采集時需獲取最新的或最廣泛使用的協(xié)議或應(yīng)用版本,獲取主流操作系統(tǒng)下的樣本;2)流量樣本具有豐富性,獲取的樣本應(yīng)涵蓋常用的協(xié)議和應(yīng)用類型;3)流量樣本具有充分性,樣本獲取的次數(shù)和時間不小于一閥值;具體地,針對每種協(xié)議或應(yīng)用至少應(yīng)獲取10次,每次獲取時間不少于5分鐘。4)指定協(xié)議或應(yīng)用應(yīng)在一主機(jī)中運行,在與主機(jī)連接的路由器或交換機(jī)獲取流量樣本,應(yīng)避免在NAT(NetworkAddressTranslation網(wǎng)絡(luò)地址轉(zhuǎn)換)環(huán)境獲取流量樣本;如主機(jī)中運行的是虛擬操作系統(tǒng),應(yīng)在虛擬系統(tǒng)中的路由獲取流量樣本;5)獲取指定協(xié)議或應(yīng)用的時候,應(yīng)過濾掉無關(guān)的協(xié)議或應(yīng)用;6)應(yīng)獲取指定協(xié)議或應(yīng)用的完整報文;7)已知指定協(xié)議結(jié)構(gòu)與指定應(yīng)用特征的前提下,獲取的流量樣本應(yīng)能真實的代表此協(xié)議或應(yīng)用。進(jìn)一步地,所述分類信息包括:業(yè)務(wù)類型、協(xié)議類型、應(yīng)用類型及擴(kuò)展描述信息。進(jìn)一步地,所述流量分類編碼規(guī)范用以定義流量分類層次結(jié)構(gòu),通過分類信息來描述流量分類,同時針對分類信息制定了相應(yīng)的編碼。進(jìn)一步地,根據(jù)流量分類編碼規(guī)范,在采集的樣本數(shù)據(jù)集的源MAC地址上相應(yīng)位置標(biāo)注分類信息。進(jìn)一步地,所述命名規(guī)范為:文件名=業(yè)務(wù)類型_協(xié)議類型_應(yīng)用類型_行為動作_應(yīng)用版本_操作系統(tǒng)_流量保存時間.pcap。通過采取上述技術(shù)方案,本發(fā)明采用有效的框架實現(xiàn)互聯(lián)網(wǎng)流量分類樣本標(biāo)注。提供了完整的流量分類編碼規(guī)范、樣本采集方法、樣本標(biāo)注方法。強(qiáng)化了流量分類樣本標(biāo)注的規(guī)范性、靈活性、可移植性,使流量分類測評更加高效、靈活。附圖說明圖1為本發(fā)明一實施例中互聯(lián)網(wǎng)流量分類樣本標(biāo)注方法的步驟流程圖。圖2為本發(fā)明一實施例中MAC地址中各字段分配示意圖。具體實施方式對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整的描述。對于本發(fā)明所提出的流量分類樣本標(biāo)注方法,結(jié)合附圖的實例詳細(xì)說明。為了制定明確和完整的流量分類標(biāo)注樣本,本發(fā)明首先定義了流量分類編碼規(guī)范,然后基于編碼規(guī)范,提出標(biāo)注方法。標(biāo)注包括在流量樣本數(shù)據(jù)集的源MAC地址標(biāo)注,并以及通過命名文件名作為標(biāo)注標(biāo)識。本發(fā)明設(shè)計了流量分類層次結(jié)構(gòu),如下所示:流量類型:=<<業(yè)務(wù)類型>,<協(xié)議類型>,<應(yīng)用類型>,<擴(kuò)展描述信息>>即流量類型可以由業(yè)務(wù)類型、協(xié)議類型、應(yīng)用類型、擴(kuò)展描述信息等分類信息來描述。其中業(yè)務(wù)類型、協(xié)議類型、應(yīng)用類型為必填字段,擴(kuò)展描述信息為可選字段。樣本標(biāo)注時必須標(biāo)注業(yè)務(wù)類型、協(xié)議類型、應(yīng)用類型、擴(kuò)展描述信息作為可選標(biāo)注。本發(fā)明首先流量分類編碼規(guī)范,設(shè)置一流量分類編碼表,將不同業(yè)務(wù)類型、協(xié)議類型、應(yīng)用類型、擴(kuò)展描述信息進(jìn)行編碼,作為參考性編碼方案。該編碼方案是后續(xù)樣本標(biāo)注步驟實施的前提條件。表1、2、3分別給出了部分業(yè)務(wù)類型、協(xié)議類型、應(yīng)用類型、擴(kuò)展描述信息的編碼表:表1:不同業(yè)務(wù)類型編碼表業(yè)務(wù)類型業(yè)務(wù)類型碼音視頻類1文件傳輸類2郵件類3網(wǎng)絡(luò)管理類4其他類12未知業(yè)務(wù)類型15表2:不同協(xié)議類型編碼表協(xié)議類型協(xié)議類型碼BT1FTP22HTTP227POP3242SMTP243表3:不同應(yīng)用類型編碼表應(yīng)用類型應(yīng)用類型碼百寶63百度下吧64超級旋風(fēng)65電驢66加速土豆69酷狗音樂70酷樂音樂盒71酷我音樂盒72表4:不同擴(kuò)展描述信息編碼表如圖1所示,流量分類樣本標(biāo)注步驟如下:S1:按照樣本采集要求,采集指定協(xié)議和應(yīng)用的全面、純凈、完整的流量樣本。該要求具體包括如下原則的一部分或全部:樣本采集時需獲取最新的或最廣泛使用的版本,獲取主流操作系統(tǒng)下的樣本,以保證樣本具代表性。為保證流量樣本兼具代表性與豐富性,獲取的樣本應(yīng)涵蓋常用的協(xié)議和應(yīng)用類型。樣本獲取的次數(shù)和時間必須充分,以保證樣本充分性。為了保證所獲取樣本能充分體現(xiàn)協(xié)議或應(yīng)用的特征,針對每種協(xié)議或應(yīng)用至少應(yīng)獲取10次,每次獲取時間不少于5分鐘。樣本獲取應(yīng)在主機(jī)中運行指定協(xié)議或應(yīng)用,在與主機(jī)連接的路由器或交換機(jī)獲取流量樣本,應(yīng)避免在NAT(NetworkAddressTranslation網(wǎng)絡(luò)地址轉(zhuǎn)換)環(huán)境獲取流量。如主機(jī)中運行的是虛擬操作系統(tǒng),應(yīng)在虛擬系統(tǒng)中的路由獲取流量樣本。獲取指定協(xié)議或應(yīng)用的時候,應(yīng)過濾掉無關(guān)的協(xié)議或應(yīng)用,即去除噪聲。目前常用方法就是捕包時,關(guān)閉無關(guān)的協(xié)議或應(yīng)用,保證捕獲報文不含無關(guān)協(xié)議或應(yīng)用。獲取指定協(xié)議或應(yīng)用的完整報文,如TCP協(xié)議,至少應(yīng)該包含TCP的3次握手。在已知協(xié)議結(jié)構(gòu)與應(yīng)用特征的前提下,獲取的樣本應(yīng)能真實的代表此協(xié)議或應(yīng)用,而不至于與其他協(xié)議或應(yīng)用混淆。例如,獲取SSL協(xié)議的過程中,應(yīng)至少包括SSL協(xié)議層次結(jié)構(gòu)中的基本內(nèi)容,包括SSL握手層與SSL記錄層,缺少任何一個階段都不能完整代表此協(xié)議。其中步驟S1,具體執(zhí)行步驟如下:S1.1:在目標(biāo)協(xié)議或應(yīng)用啟動前開啟捕包程序。S1.2:對于某種應(yīng)用的獲取,需關(guān)閉不相關(guān)的應(yīng)用軟件。捕包過程中的場景符合上述要求。S1.3:在完成捕包后,關(guān)閉目標(biāo)應(yīng)用后停止捕包。S2:根據(jù)流量分類編碼規(guī)范,利用樣本數(shù)據(jù)集的源MAC地址的六字節(jié)空間,將業(yè)務(wù)類型、協(xié)議類型、應(yīng)用類型、擴(kuò)展描述信息等分類信息的內(nèi)容標(biāo)注在上面。如圖2所示,將對應(yīng)的類型碼轉(zhuǎn)化為二進(jìn)制,進(jìn)行標(biāo)注。其中業(yè)務(wù)類型占用4位,協(xié)議類型占用16位,應(yīng)用類型占用16位,擴(kuò)展描述信息占用12位。假設(shè)業(yè)務(wù)類型碼為6,分配給業(yè)務(wù)類型的位數(shù)為4位,則標(biāo)注為0110。S3:以一格式對樣本命名,使用文件名作為標(biāo)注。文件名應(yīng)該保持如下命名規(guī)范:文件名=業(yè)務(wù)類型_協(xié)議類型_應(yīng)用類型_行為動作_應(yīng)用版本_操作系統(tǒng)_流量保存時間.pcap。下面描述了每個字段具體標(biāo)注內(nèi)容規(guī)則:1)業(yè)務(wù)類型、協(xié)議類型、應(yīng)用類型按照編碼表中的類型碼表進(jìn)行標(biāo)注;2)行為動作指對其運行時使用的功能或行為進(jìn)行準(zhǔn)確描述,如上傳功能、下載功能、交互功能等。3)應(yīng)用版本指對于所描述的通用應(yīng)用,使用應(yīng)用官網(wǎng)、開源網(wǎng)站、或應(yīng)用開發(fā)者公開使用的名稱。4)操作系統(tǒng)應(yīng)包括主流操作系統(tǒng)平臺,如Windows、Linux、iOS、Android平臺等。操作系統(tǒng)名稱應(yīng)與官方發(fā)布的名稱保持統(tǒng)一。5)流量保存時間按照YYYY-MM-DD-HH:FF:SS形式存儲年、月、日、小時、分、秒,如2016-05-23-12:35:26。以不同的分類信息通過流量分類層次結(jié)構(gòu)標(biāo)識流量分類樣本,而非傳統(tǒng)的依據(jù)單一特征分類標(biāo)準(zhǔn)或主觀分類標(biāo)準(zhǔn)進(jìn)行標(biāo)注,采用有效的框架實現(xiàn)互聯(lián)網(wǎng)流量分類樣本標(biāo)注。強(qiáng)化了流量分類樣本標(biāo)注的規(guī)范性、靈活性、可移植性,使流量分類測評更加高效、靈活。顯然,所描述的實施例僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。當(dāng)前第1頁1 2 3