亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

加密網(wǎng)絡隧道內(nèi)的Web業(yè)務的標識和分類的方法和系統(tǒng)的制作方法

文檔序號:7801206閱讀:276來源:國知局
加密網(wǎng)絡隧道內(nèi)的Web業(yè)務的標識和分類的方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種加密網(wǎng)絡隧道內(nèi)的Web業(yè)務的標識和分類的方法和系統(tǒng)。一種方法包括分析未加密數(shù)據(jù)分組的網(wǎng)絡業(yè)務以便檢測分組業(yè)務、時間和大小模式。將所檢測的分組、時間和大小業(yè)務模式與所述未加密數(shù)據(jù)分組的至少一分組目的地和分組源相關聯(lián),以便創(chuàng)建訓練語料庫和從所述訓練語料庫構建的模型中的至少一個。將所述語料庫和所述模型中的所述至少一個存儲在存儲設備中。觀察已加密數(shù)據(jù)分組的分組業(yè)務、時間和大小模式。將所述已加密數(shù)據(jù)分組的所觀察的分組業(yè)務、時間和大小模式與所述訓練語料庫和所述模型中的至少一個相比較,以便針對預測網(wǎng)絡主機和預測路徑信息中的至少一個,對所述已加密數(shù)據(jù)分組進行分類。
【專利說明】加密網(wǎng)絡隧道內(nèi)的Web業(yè)務的標識和分類的方法和系統(tǒng)

【技術領域】
[0001] 本發(fā)明一般地涉及加密,具體地說,涉及加密網(wǎng)絡隧道內(nèi)部的網(wǎng)絡業(yè)務的標識和 分類。

【背景技術】
[0002] 經(jīng)由加密連接作為隧道的Web業(yè)務對于標準網(wǎng)絡入侵和分析工具而言"不可見"。 因此,需要一種方法和系統(tǒng)對加密隧道內(nèi)部的Web業(yè)務進行標識和分類。


【發(fā)明內(nèi)容】

[0003] 根據(jù)本原理的一個方面,提供一種方法。所述方法包括分析未加密數(shù)據(jù)分組的網(wǎng) 絡業(yè)務以便檢測其中的分組業(yè)務模式、分組時間模式和分組大小模式。所述方法還包括將 所檢測的分組業(yè)務模式、所檢測的分組時間模式和所檢測的分組大小模式與所述未加密數(shù) 據(jù)分組的至少一分組目的地和分組源相關聯(lián),以便創(chuàng)建訓練語料庫和從所述訓練語料庫構 建的模型中的至少一個。所述方法還包括將所述訓練語料庫和所述模型中的所述至少一個 存儲在存儲設備中。所述方法還包括觀察已加密數(shù)據(jù)分組的分組業(yè)務模式、分組時間模式 和分組大小模式。所述方法此外包括將所述已加密數(shù)據(jù)分組的所觀察的分組業(yè)務模式、所 觀察的分組時間模式和所觀察的分組大小模式與所述訓練語料庫和所述模型中的至少一 個相比較,以便針對用于所述已加密數(shù)據(jù)分組的預測網(wǎng)絡主機和預測路徑信息中的至少一 個,對所述已加密數(shù)據(jù)分組進行分類。
[0004] 根據(jù)本原理的另一個方面,提供一種系統(tǒng)。所述系統(tǒng)包括特性提取器,其用于分 析未加密數(shù)據(jù)分組的網(wǎng)絡業(yè)務以便檢測其中的分組業(yè)務模式、分組時間模式和分組大小模 式。所述系統(tǒng)還包括建模引擎,其用于將所檢測的分組業(yè)務模式、所檢測的分組時間模式和 所檢測的分組大小模式與所述未加密數(shù)據(jù)分組的至少一分組目的地和分組源相關聯(lián),以便 創(chuàng)建訓練語料庫和從所述訓練語料庫構建的模型中的至少一個。所述系統(tǒng)還包括存儲器, 其用于存儲所述訓練語料庫和所述模型中的所述至少一個。所述特性提取器觀察已加密數(shù) 據(jù)分組的分組業(yè)務模式、分組時間模式和分組大小模式。所述系統(tǒng)另外包括預測引擎,其 用于將所述已加密數(shù)據(jù)分組的所觀察的分組業(yè)務模式、所觀察的分組時間模式和所觀察的 分組大小模式與所述訓練語料庫和所述模型中的至少一個相比較,以便針對用于所述已加 密數(shù)據(jù)分組的預測網(wǎng)絡主機和預測路徑信息中的至少一個,對所述已加密數(shù)據(jù)分組進行分 類。
[0005] 從以下將結合附圖閱讀的對本發(fā)明的示例性實施例的詳細說明,本發(fā)明的這些和 其它特性和優(yōu)點將變得顯而易見。

【專利附圖】

【附圖說明】
[0006] 本公開將參考以下附圖,在以下對優(yōu)選實施例的詳細說明中提供詳細信息,這些 附圖是:
[0007] 圖1示出根據(jù)本發(fā)明的一個實施例的可以應用本發(fā)明的示例性處理系統(tǒng)100 ;
[0008] 圖2示出根據(jù)本發(fā)明的一個實施例的用于對加密網(wǎng)絡隧道內(nèi)部的Web業(yè)務進行標 識和分類的示例性系統(tǒng)200 ;
[0009] 圖3示出根據(jù)本發(fā)明的一個實施例的用于對加密網(wǎng)絡隧道內(nèi)部的Web業(yè)務進行標 識和分類的示例性方法300 ;以及
[0010] 圖4示出根據(jù)本發(fā)明的一個實施例的用于建立網(wǎng)絡業(yè)務模型以便對加密網(wǎng)絡隧 道內(nèi)部的Web業(yè)務進行標識和分類的示例性方法400。

【具體實施方式】
[0011] 本發(fā)明涉及加密網(wǎng)絡隧道內(nèi)部的Web業(yè)務的標識和分類。
[0012] 在一個實施例中,本發(fā)明標識經(jīng)由加密連接訪問的網(wǎng)站名稱。
[0013] 在一個實施例中,本發(fā)明使用來自被動觀察的網(wǎng)絡業(yè)務的數(shù)據(jù),標識從相同網(wǎng)站 發(fā)送和接收的分組。本發(fā)明不需要加密連接中使用的加密密鑰的知識。能夠被動觀察業(yè)務 可實現(xiàn)集中過濾加密Web業(yè)務。在沒有本發(fā)明的情況下,需要安裝單獨的過濾器以便在加 密Web業(yè)務之前檢查和過濾客戶端設備上的Web業(yè)務,這是破壞用戶體驗的不可伸縮的解 決方案。
[0014] 所屬【技術領域】的技術人員知道,本發(fā)明的各個方面可以實現(xiàn)為系統(tǒng)、方法或計算 機程序產(chǎn)品。因此,本發(fā)明的各個方面可以具體實現(xiàn)為以下形式,即:完全的硬件實施方式 或硬件和軟件方面結合的實施方式,這里可以統(tǒng)稱為"電路"、"模塊"或"系統(tǒng)"。此外,本發(fā) 明的各個方面還可以實現(xiàn)為在一個或多個計算機可讀介質中的計算機程序產(chǎn)品的形式,該 計算機可讀介質中包含計算機可讀的程序代碼。
[0015] 可以采用一個或多個計算機可讀介質的任意組合。計算機可讀介質可以是計算機 可讀信號介質或者計算機可讀存儲介質。計算機可讀存儲介質例如可以是一但不限于一 電、磁、光、電磁、紅外線、或半導體的系統(tǒng)、裝置或器件,或者上述的任意合適的組合。計算 機可讀存儲介質的更具體的例子(非窮舉的列表)包括:具有一個或多個導線的電連接、便 攜式計算機盤、硬盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器 (EPROM或閃存)、光纖、便攜式緊湊盤只讀存儲器(CD-ROM)、光存儲器件、磁存儲器件、或者 上述的任意合適的組合。在本文件中,計算機可讀存儲介質可以是任何包含或存儲程序的 有形介質,該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結合使用。
[0016] 計算機可讀的信號介質可以包括例如在基帶中或者作為載波一部分傳播的數(shù)據(jù) 信號,其中承載了計算機可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括一 但不限于一電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質可以是計 算機可讀存儲介質以外的任何計算機可讀介質,該計算機可讀介質可以發(fā)送、傳播或者傳 輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結合使用的程序。
[0017] 計算機可讀介質上包含的程序代碼可以用任何適當?shù)慕橘|傳輸,包括一但不限 于一無線、有線、光纜、RF等等,或者上述的任意合適的組合。
[0018] 可以以一種或多種程序設計語言的任意組合來編寫用于執(zhí)行本發(fā)明的各個方面 的操作的計算機程序代碼,所述程序設計語言包括面向對象的程序設計語言一諸如Java、 Smalltalk、C++等,還包括常規(guī)的過程式程序設計語言一諸如"C"語言或類似的程序設計 語言。程序代碼可以完全地在用戶計算機上執(zhí)行、部分地在用戶計算機上執(zhí)行、作為一個獨 立的軟件包執(zhí)行、部分在用戶計算機上部分在遠程計算機上執(zhí)行、或者完全在遠程計算機 或服務器上執(zhí)行。在涉及遠程計算機的情形中,遠程計算機可以通過任意種類的網(wǎng)絡一包 括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN) -連接到用戶計算機,或者,可以連接到外部計算機(例如 利用因特網(wǎng)服務提供商來通過因特網(wǎng)連接)。
[0019] 下面將參照根據(jù)本發(fā)明實施例的方法、裝置(系統(tǒng))和計算機程序產(chǎn)品的流程圖和 /或框圖描述本發(fā)明的各個方面。應當理解,流程圖和/或框圖的每個方框以及流程圖和/ 或框圖中各方框的組合,都可以由計算機程序指令實現(xiàn)。這些計算機程序指令可以提供給 通用計算機、專用計算機或其它可編程數(shù)據(jù)處理裝置的處理器,從而生產(chǎn)出一種機器,使得 這些指令在通過計算機或其它可編程數(shù)據(jù)處理裝置的處理器執(zhí)行時,產(chǎn)生了實現(xiàn)流程圖和 /或框圖中的一個或多個方框中規(guī)定的功能/動作的裝置。
[0020] 也可以把這些計算機程序指令存儲在計算機可讀介質中,這些指令使得計算機、 其它可編程數(shù)據(jù)處理裝置、或其它設備以特定方式工作,從而,存儲在計算機可讀介質中的 指令就產(chǎn)生出包括實現(xiàn)流程圖和/或框圖中的一個或多個方框中規(guī)定的功能/動作的指令 的制造品(article of manufacture)〇
[0021] 也可以把計算機程序指令加載到計算機、其它可編程數(shù)據(jù)處理裝置、或其它設備 上,使得在計算機、其它可編程裝置或其它設備上執(zhí)行一系列操作步驟,以產(chǎn)生計算機實現(xiàn) 的過程,從而使得在計算機或其它可編程裝置上執(zhí)行的指令提供實現(xiàn)流程圖和/或框圖 中的一個或多個方框中規(guī)定的功能/動作的過程。
[0022] 附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的不同實施例的系統(tǒng)、方法和計算機程 序產(chǎn)品的可能實現(xiàn)的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代 表一個模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個或多個用 于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應當注意,在有些作為替換的實現(xiàn)中,方框中所標 注的功能可以以不同于附圖中所標注的順序發(fā)生。例如,兩個連續(xù)的方框實際上可以基本 并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是, 框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定 的功能或動作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合 來實現(xiàn)。
[0023] 本說明書中對本發(fā)明的"一個實施例"或"一實施例"以及它們的其它變型的引用 指結合該實施例描述的特定特性、結構、特征等被包括在本發(fā)明的至少一個實施例中。因 此,本說明書的各種位置中出現(xiàn)的短語"在一個實施例中"或"在一實施例中"以及任何其 它變型不一定都指同一實施例。
[0024] 應該理解,使用以下和/或"以及"至少一個"(例如,在"A/B"、"A和/或 B"以及"A和B中的至少一個"的情況下)中的任意一個都旨在包含僅選擇第一列出的選項 (A),或者僅選擇第二列出的選項(B),或者選擇兩個選項(A和B)。作為進一步實例,在"A、 B和/或C"以及"A、B和C中的至少一個"的情況下,此類措詞旨在包含僅選擇第一列出的 選項(A),或者僅選擇第二列出的選項(B),或者僅選擇第三列出的選項(C),或者僅選擇第 一和第二列出的選項(A和B),或者僅選擇第一和第三列出的選項(A和C),或者僅選擇第 二和第三列出的選項(B和C),或者選擇所有三個選項(A和B和C)。這可以擴展到列出的 多個項目,如所屬【技術領域】和相關【技術領域】的普通技術人員很容易地顯而易見的那樣。
[0025] 圖1示出根據(jù)本發(fā)明的一個實施例的可以應用本發(fā)明的示例性處理系統(tǒng)100。處 理系統(tǒng)100包括至少一個處理器(CPU)104,其在操作上經(jīng)由系統(tǒng)總線102連接到其它組件。 高速緩存106、只讀存儲器(ROM) 108、隨機存取存儲器(RAM) 110、輸入/輸出(I/O)適配器 120、聲音適配器130、網(wǎng)絡適配器140、用戶接口適配器150和顯示適配器160在操作上連 接到系統(tǒng)總線102。
[0026] 第一存儲設備122和第二存儲設備124在操作上通過I/O適配器120連接到系統(tǒng) 總線102。存儲設備122和124可以是磁盤存儲設備(例如,磁盤或光盤存儲設備)、固態(tài)磁 設備等中的任何一個。存儲設備122和124可以是相同類型的存儲設備或者不同類型的存 儲設備。
[0027] 揚聲器132在操作上通過聲音適配器130連接到系統(tǒng)總線102。
[0028] 收發(fā)器142在操作上通過網(wǎng)絡適配器140連接到系統(tǒng)總線102。
[0029] 第一用戶輸入設備152、第二用戶輸入設備154和第三用戶輸入設備156在操作上 通過用戶接口適配器150連接到系統(tǒng)總線102。用戶輸入設備152、154和156可以是以下 任何一個:鍵盤、鼠標、小鍵盤、圖像捕獲設備、運動傳感設備、麥克風、結合至少兩個上述設 備的功能的設備等。當然,也可以使用其它類型的輸入設備,同時保持本發(fā)明的精神。用戶 輸入設備152和154可以是相同類型的用戶輸入設備或者不同類型的用戶輸入設備。用戶 輸入設備152和154用于向系統(tǒng)100輸入信息以及從系統(tǒng)100輸出信息。
[0030] 顯示設備162在操作上通過顯示適配器160連接到系統(tǒng)總線102。當然,處理系統(tǒng) 100還可以包括其它元件(未示出),如所屬【技術領域】的技術人員很容易構想的,并且可以省 略某些元件。例如,可以在處理系統(tǒng)100中包括各種其它輸入設備和/或輸出設備,具體取 決于處理系統(tǒng)100的特定實現(xiàn),如所屬【技術領域】的普通技術人員很容易理解的。例如,可以 使用各種類型的無線和/或有線輸入和/或輸出設備。此外,也可以使用采用各種配置的 其它處理器、控制器、存儲器等,如所屬【技術領域】的普通技術人員很容易理解的。給予了在 此提供的本發(fā)明的教導后,所屬【技術領域】的普通技術人員很容易構想處理系統(tǒng)100的這 些和其它變型。
[0031] 此外,應該理解,下面針對圖2描述的系統(tǒng)200是用于實現(xiàn)本發(fā)明的相應實施例的 系統(tǒng)。可以在系統(tǒng)200的一個或多個元件中實現(xiàn)處理系統(tǒng)100的部分或全部。
[0032] 此外,應該理解,處理系統(tǒng)100可以執(zhí)行在此描述的方法的至少一部分,例如包括 圖3的方法300的至少一部分和/或圖4的方法400的至少一部分。同樣,可以使用系統(tǒng) 200的部分或全部執(zhí)行圖3的方法300的至少一部分和/或圖4的方法400的至少一部分。
[0033] 圖2示出根據(jù)本發(fā)明的一個實施例的用于對加密網(wǎng)絡隧道內(nèi)部的Web業(yè)務進行標 識和分類的示例性系統(tǒng)200。系統(tǒng)200包括網(wǎng)絡分流器(tap)212、網(wǎng)絡數(shù)據(jù)存儲系統(tǒng)214、 特性提取器216、建模引擎218、預測引擎252和分析引擎254。
[0034] 在一個實施例中,系統(tǒng)200可以被視為包括訓練階段210和預測階段250。在此實 施例中,訓練階段210涉及和/或另外包括網(wǎng)絡分流器212和/或網(wǎng)絡數(shù)據(jù)存儲系統(tǒng)214、 特性提取器216和建模引擎218。即,訓練階段可以包括網(wǎng)絡分流器212和網(wǎng)絡數(shù)據(jù)存儲 系統(tǒng)214之一或兩者,具體取決于使用預先存儲的網(wǎng)絡業(yè)務還是實時網(wǎng)絡業(yè)務構建訓練語 料庫。如果使用實時網(wǎng)絡業(yè)務構建語料庫,則特性提取器216還可以提取在此描述的標簽。 在此實施例中,預測階段250包括網(wǎng)絡分流器212、特性提取器216、預測引擎252和分析引 擎254。網(wǎng)絡分流器212連接到網(wǎng)絡以便允許監(jiān)視實時網(wǎng)絡業(yè)務。網(wǎng)絡數(shù)據(jù)存儲系統(tǒng)214 存儲網(wǎng)絡業(yè)務。網(wǎng)絡數(shù)據(jù)存儲系統(tǒng)214也可以存儲所存儲的網(wǎng)絡業(yè)務的主機標簽和路徑標 簽。網(wǎng)絡存儲系統(tǒng)214可以為建模引擎218提供所存儲的網(wǎng)絡業(yè)務的標簽集合。原則上, 網(wǎng)絡數(shù)據(jù)存儲系統(tǒng)214可以存儲原始網(wǎng)絡數(shù)據(jù)(在這種情況下,應用特性提取器216以便提 取相關特性和標簽)和/或可以存儲網(wǎng)絡數(shù)據(jù)"匯總"(在這種情況下,先前已提取主機/路 徑標簽甚至相關特性,因此可以直接傳遞到建模引擎218,從而繞過特性提取器216)。在后 一種情況下,也可以將預測引擎252直接應用于所存儲的網(wǎng)絡數(shù)據(jù)。
[0035] 特性提取器216從所存儲的網(wǎng)絡業(yè)務中提取特性(例如,分組大小、時間和方向)以 便為此提供特性集合。特性提取器216也可以從監(jiān)視的(S卩,實時)網(wǎng)絡業(yè)務中提取加密后 特性(例如,分組大小、時間和方向)以便為此提供特性集合。特性提取器216也可以例如在 使用實時網(wǎng)絡業(yè)務構建訓練語料庫時提取標簽;在這種情況下,網(wǎng)絡數(shù)據(jù)存儲系統(tǒng)214不 必提供標簽,因為將由特性提取器216提供標簽。建模引擎218訓練模型以便基于特性實 例的標簽集合對特性實例進行分類。在一個實施例中,所述模型是隨機森林模型。
[0036] 預測引擎252將模型應用于新數(shù)據(jù)(例如,實時已加密的網(wǎng)絡業(yè)務)和/或已存儲 的數(shù)據(jù)(例如,已存儲的網(wǎng)絡業(yè)務)以便為此輸出預測。即,針對HTTP請求/響應對的每個 特性集合(例如,加密后特性和/或未加密特性),預測引擎252應用在訓練階段中訓練的模 型以便提供預測標簽集合。
[0037] 分析引擎254分析預測標簽集合,以便為每個HTTP請求/響應對提供預測主機名 稱和預測路徑信息。
[0038] 圖3示出根據(jù)本發(fā)明的一個實施例的用于對加密網(wǎng)絡隧道內(nèi)部的Web業(yè)務進行標 識和分類的示例性方法300。在步驟310,在一時間段內(nèi)監(jiān)視未加密數(shù)據(jù)分組的網(wǎng)絡業(yè)務。 在步驟320,分析未加密數(shù)據(jù)分組的網(wǎng)絡業(yè)務以便檢測其中的分組業(yè)務模式、分組時間模式 和分組大小模式。
[0039] 在步驟330,將所檢測的分組業(yè)務模式、所檢測的分組時間模式和所檢測的分組大 小模式與未加密數(shù)據(jù)分組的至少一分組目的地和分組源相關聯(lián),以便創(chuàng)建至少一個訓練語 料庫。在一個實施例中,也可以將所檢測的分組業(yè)務模式、所檢測的分組時間模式和所檢測 的分組大小模式與分組內(nèi)容相關聯(lián)。
[0040] 在步驟340,觀察已加密數(shù)據(jù)分組的分組業(yè)務模式、分組時間模式和分組大小模 式。
[0041] 在步驟350,將已加密數(shù)據(jù)分組的所觀察的分組業(yè)務模式、所觀察的分組時間模式 和所觀察的分組大小模式與訓練語料庫相比較,以便提供用于已加密數(shù)據(jù)分組的預測網(wǎng) 絡主機和預測路徑信息中的至少一個。盡管針對實時網(wǎng)絡業(yè)務描述步驟350,但應該理解, 也可以(或取代)針對已存儲的網(wǎng)絡業(yè)務(例如,所檢測的分組業(yè)務模式、所檢測的分組時間 模式和所檢測的分組大小模式)進行預測。
[0042] 圖4示出根據(jù)本發(fā)明的一個實施例的用于建立網(wǎng)絡業(yè)務模型以便對已加密網(wǎng)絡 隧道內(nèi)部的Web業(yè)務進行標識和分類的示例性方法400。
[0043] 在步驟410,接收特性集合和標簽集合對。
[0044] 在步驟420,學習/更新分類模型。
[0045] 在步驟430,選擇最佳模型。例如,可以基于特定預定準則選擇最佳模型。
[0046] 在步驟440,將模型導出到預測階段。
[0047] 網(wǎng)絡安全和取證分析的一個弱點是已加密的流。因為從網(wǎng)絡監(jiān)視器的觀點看,通 常隱藏包括在這些流中的數(shù)據(jù),所以無法將許多標準網(wǎng)絡安全、分析和取證技術應用于已 加密業(yè)務。但是,因為網(wǎng)絡通信必然是復雜系統(tǒng),所以通常以各種邊信道的形式(具體地說, 通過個體分組的時間、大小和方向)泄露有關已加密連接的信息。我們建議了從這些邊信 道獲得相關信息以進行安全分析的技術。取決于應用加密的網(wǎng)絡層,也可以獲得連接端點、 路由、大小和持續(xù)時間信息。但是,在一個實施例中,建議了僅從在最低級別獲得的特性(例 如,分組大小、時間和方向)來獲得相關信息的技術,以便提供可能的最廣泛適用性。應該理 解,本發(fā)明并不限于上述特定信息類型,因此也可以使用其它信息類型,同時保持本發(fā)明的 精神。
[0048] 建議了數(shù)據(jù)驅動方法以便獲得有關通過加密通道傳輸?shù)腍TTP業(yè)務的相關信息。 具體地說,該信息包括HTTP連接定向到的網(wǎng)絡主機(例如,"www. IBM. com")以及請求的特 定資源的路徑(例如,"/bluepages/employee. php")。為了針對已加密連接獲得該信息, 首先從純文本HTTP連接(訓練語料庫)提取相關信息和相關特性(分組大小、時間和方向)。 然后構建模型,所述模型基于所提取的特性(可以改變它們以便模擬已加密連接的特性,例 如,通過人為填充分組大小),從個體HTTP請求/響應對預測主機和路徑信息。最后,使用 模型預測用于先前看不見的已加密連接的主機和路徑信息。盡管針對已加密數(shù)據(jù)進行描 述,但應該理解,本原理也很容易適用于未加密數(shù)據(jù),因此可以預測用于先前看不見的未加 密連接的主機和路徑信息,同時保持本原理的精神。因此,盡管將模型描述為使用已加密數(shù) 據(jù)來構建/訓練,但也可以使用未加密數(shù)據(jù)構建/訓練模型。給予了在此提供的本原理的 教導后,所屬【技術領域】的普通技術人員很容易構想本原理的這些和其它變型,同時保持本 原理的精神。
[0049] 我們的方法是通用的,因為它不依賴于上述特性的特定子集,也不依賴于特定建 模技術。但是,出于示例和清晰的目的,在一個實施例中,建議使用以下特性:
[0050] *在每個方向,前η個(n=5)分組的大小;
[0051] *在每個方向和兩個方向,總的分組大?。灰约?br> [0052] *在每個方向和兩個方向,總的分組數(shù)量。
[0053] 但是,應該理解,本發(fā)明的各實施例并不僅限于上述特性,因此也可以使用其它特 性,同時保持本發(fā)明的精神。
[0054] 對于建模部分,本發(fā)明的一個實施例包括使用隨機森林這一標準機器學習技術。 具體地說,建議使用多標簽分類方案,其中每個標簽是特定資源路徑的前綴或完整域名(具 有或沒有頂級域(TLD))的后綴。可以針對各種多標簽分類度量通過交叉驗證或重新取樣來 優(yōu)化模型,這些分類度量包括每實例精確度、召回率、準確性和/或F得分,以及每標簽微平 均或宏平均精確度、召回率、準確性和/或F得分。因此,在一個實施例中,每個示例實例可 以具有多個標簽。此外,在一個實施例中,可以考慮通過包括子域和資源路徑生成的標簽。
[0055] 我們的方法包括兩個通用階段。第一階段是訓練階段,其中收集標記數(shù)據(jù)并且使 用該數(shù)據(jù)將HTTP請求/響應對進行建模。在一個實施例中,特性提取器首先從網(wǎng)絡業(yè)務 (實時或先前存儲的)中提取加密后特性(分組大小、時間和方向)和標簽信息(主機和資源路 徑)。然后將這些標記的實例(即,特性集合和標簽集合對)發(fā)送到建模引擎。
[0056] 特性提取器或建模引擎可以基于一組分隔字符(例如,用于主機名稱的"字符, 或者用于資源路徑的"和"&"字符),將路徑和/或主機名稱拆分成組件標簽,并且可 以將結果標簽集合限于特定數(shù)量的主機名稱和/或路徑標簽。
[0057] 建模引擎訓練模型以便基于實例的標簽集合對實例進行分類。對于隨機森林模 型,這包括學習多個決策樹。對于每個樹,學習者選擇用于學習的隨機訓練數(shù)據(jù)子集和隨機 訓練實例子集。這些樹統(tǒng)稱為隨機森林??梢允褂貌煌瑓?shù)學習多個隨機森林(參數(shù)包括 決策樹的數(shù)量以及每個樹使用的特性數(shù)量)。然后針對預測階段使用"最佳"隨機森林,其 中通過多標簽分類度量(如上所述)確定"最佳"。
[0058] 預測階段包括將在建模階段生成的模型應用于新數(shù)據(jù),并且將該應用的結果傳遞 到分析引擎。預測引擎針對個體HTTP請求/響應對,接受特性(分組大小、時間和方向)形 式的輸入。對于每個特性集合,預測引擎應用在訓練階段訓練的模型以便預測標簽集合,將 該標簽集合傳遞到分析引擎。對于隨機森林模型,這包括將每個個體決策樹應用于每個特 性集合,并且對輸出每個標簽集合的樹的數(shù)量進行計數(shù)。提供樹輸出次數(shù)最多的集合作為 輸出標簽。代替主標簽或除了主標簽之外,預測引擎可以傳遞可能標簽的排序和/或從實 值權重到可能標簽的映射(例如,概率估計或原始投票計數(shù))。
[0059] 隨機森林分類的輸出通常是具有最高數(shù)量的"投票"的標簽,其中組成森林的每個 個體樹為單個潛在標簽提供單個投票。因此,隨機森林也可以輸出潛在標簽列表,這些標簽 按照針對每個標簽接收的投票數(shù)量進行排序??梢砸?guī)范化這些投票計數(shù),以便提供給定標 簽的似然估計(概率)。
[0060] 備選地,個體決策樹可以指定權重,所述權重指示對于特定實例,樹在標簽(或整 個標簽集合)中的置信度??梢葬槍ι种械拿總€樹(以多種不同方式)聚合這些權重,以 便如果給出實例,則為每個潛在標簽提供全局置信度值和/或似然估計。
[0061] 應該理解,本原理并不限于使用隨機森林,因此根據(jù)本原理,也可以使用其它機 器學習技術,同時保持本原理的精神。即,應該理解,盡管針對使用隨機森林(多個)描述本 原理的一個或多個實施例,但可以使用這種和/或其它機器學習技術以便訓練模型并且從 模型獲得預測,同時保持本原理的精神。
[〇〇62] 已描述了一種系統(tǒng)和方法的優(yōu)選實施例(它們旨在是示例性的而非限制性的),應 該注意,所屬【技術領域】的技術人員可以根據(jù)上述教導做出修改和變型。因此,應該理解,可 以在公開的特定實施例中進行更改,這些更改在所附權利要求中概述的本發(fā)明的范圍內(nèi)。 以專利法要求的細節(jié)和特殊性如此描述本發(fā)明的各個方面之后,在所附權利要求中給出證 書專利要求保護和希望保護的事物。
【權利要求】
1. 一種方法,包括: 分析未加密數(shù)據(jù)分組的網(wǎng)絡業(yè)務以便檢測其中的分組業(yè)務模式、分組時間模式和分組 大小模式; 將所檢測的分組業(yè)務模式、所檢測的分組時間模式和所檢測的分組大小模式與所述未 加密數(shù)據(jù)分組的至少一分組目的地和分組源相關聯(lián),以便創(chuàng)建訓練語料庫和從所述訓練語 料庫構建的模型中的至少一個; 將所述訓練語料庫和所述模型中的所述至少一個存儲在存儲設備中; 觀察已加密數(shù)據(jù)分組的分組業(yè)務模式、分組時間模式和分組大小模式;以及 將所述已加密數(shù)據(jù)分組的所觀察的分組業(yè)務模式、所觀察的分組時間模式和所觀察的 分組大小模式與所述訓練語料庫和所述模型中的至少一個相比較,以便針對用于所述已加 密數(shù)據(jù)分組的預測網(wǎng)絡主機和預測路徑信息中的至少一個,對所述已加密數(shù)據(jù)分組進行分 類。
2. 根據(jù)權利要求1的方法,還包括改變所檢測的分組業(yè)務模式、所檢測的分組時間模 式和所檢測的分組大小模式以便模擬已加密數(shù)據(jù)的對應特性。
3. 根據(jù)權利要求1的方法,其中使用至少一個隨機森林創(chuàng)建所述訓練語料庫和所述模 型中的所述至少一個。
4. 根據(jù)權利要求3的方法,其中使用針對所述至少一個隨機森林的多標簽分類方案創(chuàng) 建所述訓練語料庫和所述模型中的所述至少一個,其中每個標簽是特定資源路徑的前綴或 域名的后綴。
5. 根據(jù)權利要求3的方法,其中所述至少一個隨機森林包括多個隨機森林,每個隨機 森林均具有分別與之關聯(lián)的不同參數(shù),所述方法還包括基于預定準則從所述多個隨機森林 中選擇最佳隨機森林,并且其中使用所述最佳隨機森林提供用于所述已加密數(shù)據(jù)分組的所 述預測主機名稱和所述預測路徑信息中的所述至少一個。
6. 根據(jù)權利要求1的方法,其中除了所述已加密數(shù)據(jù)分組的所觀察的分組業(yè)務模式、 所觀察的分組時間模式和所觀察的分組大小模式之外,所述觀察步驟還觀察所述已加密數(shù) 據(jù)分組的其它網(wǎng)絡業(yè)務特性,并且所述比較步驟還將所述已加密數(shù)據(jù)分組的所述其它網(wǎng)絡 業(yè)務特性與所述訓練語料庫和所述模型中的所述至少一個相比較,以便針對用于所述已加 密數(shù)據(jù)分組的所述預測網(wǎng)絡主機和所述預測路徑信息中的所述至少一個,對所述已加密數(shù) 據(jù)分組進行分類。
7. 根據(jù)權利要求1的方法,其中基于包括在所述已加密數(shù)據(jù)分組中的多個輸入超文本 傳輸協(xié)議請求和響應對中的每個對的可能標簽的排序,確定所述預測網(wǎng)絡主機和所述預測 路徑信息中的所述至少一個。
8. 根據(jù)權利要求1的方法,其中基于實值權重到包括在所述已加密數(shù)據(jù)分組中的多個 輸入超文本傳輸協(xié)議請求和響應對中的每個對的可能標簽的映射,確定所述預測網(wǎng)絡主機 和所述預測路徑信息中的所述至少一個。
9. 根據(jù)權利要求1的方法,其中所述關聯(lián)步驟考慮所述未加密數(shù)據(jù)分組的子域和資源 路徑。
10. 根據(jù)權利要求1的方法,其中在沒有與所述已加密數(shù)據(jù)分組對應的加密密鑰的任 何知識的情況下執(zhí)行所述方法。
11. 根據(jù)權利要求1的方法,其中在包括計算機可讀程序的計算機可讀介質上實現(xiàn)所 述方法,其中所述計算機可讀程序在計算機上執(zhí)行時,導致所述計算機執(zhí)行權利要求1的 步驟。
12. -種系統(tǒng),包括: 特性提取器,其用于分析未加密數(shù)據(jù)分組的網(wǎng)絡業(yè)務以便檢測其中的分組業(yè)務模式、 分組時間模式和分組大小模式; 建模引擎,其用于將所檢測的分組業(yè)務模式、所檢測的分組時間模式和所檢測的分組 大小模式與所述未加密數(shù)據(jù)分組的至少一分組目的地和分組源相關聯(lián),以便創(chuàng)建訓練語料 庫和從所述訓練語料庫構建的模型中的至少一個;以及 存儲器,其用于存儲所述訓練語料庫和所述模型中的所述至少一個, 其中所述特性提取器觀察已加密數(shù)據(jù)分組的分組業(yè)務模式、分組時間模式和分組大小 模式,并且 其中所述系統(tǒng)還包括預測引擎,其用于將所述已加密數(shù)據(jù)分組的所觀察的分組業(yè)務模 式、所觀察的分組時間模式和所觀察的分組大小模式與所述訓練語料庫和所述模型中的至 少一個相比較,以便針對用于所述已加密數(shù)據(jù)分組的預測網(wǎng)絡主機和預測路徑信息中的至 少一個,對所述已加密數(shù)據(jù)分組進行分類。
13. 根據(jù)權利要求12的系統(tǒng),其中改變所檢測的分組業(yè)務模式、所檢測的分組時間模 式和所檢測的分組大小模式以便模擬已加密數(shù)據(jù)的對應特性。
14. 根據(jù)權利要求12的系統(tǒng),其中使用至少一個隨機森林創(chuàng)建所述訓練語料庫和所述 模型中的所述至少一個。
15. 根據(jù)權利要求14的系統(tǒng),其中使用針對所述至少一個隨機森林的多標簽分類方案 創(chuàng)建所述訓練語料庫和所述模型中的所述至少一個,其中每個標簽是特定資源路徑的前綴 或域名的后綴。
16. 根據(jù)權利要求14的系統(tǒng),其中所述至少一個隨機森林包括多個隨機森林,每個隨 機森林均具有分別與之關聯(lián)的不同參數(shù),所述方法還包括基于預定準則從所述多個隨機森 林中選擇最佳隨機森林,并且其中使用所述最佳隨機森林提供用于所述已加密數(shù)據(jù)分組的 所述預測主機名稱和所述預測路徑信息中的所述至少一個。
17. 根據(jù)權利要求16的系統(tǒng),其中所述預定準則包括選擇所述多個隨機森林中針對給 定標簽具有最多投票數(shù)量的任何一個隨機森林作為所述最佳隨機森林。
18. 根據(jù)權利要求12的系統(tǒng),其中基于包括在所述已加密數(shù)據(jù)分組中的多個輸入超文 本傳輸協(xié)議請求和響應對中的每個對的可能標簽的排序,確定所述預測網(wǎng)絡主機和所述預 測路徑信息中的所述至少一個。
19. 根據(jù)權利要求12的系統(tǒng),其中基于實值權重到包括在所述已加密數(shù)據(jù)分組中的多 個輸入超文本傳輸協(xié)議請求和響應對中的每個對的可能標簽的映射,確定所述預測網(wǎng)絡主 機和所述預測路徑信息中的所述至少一個。
20. 根據(jù)權利要求12的系統(tǒng),其中所述建模引擎在執(zhí)行所述關聯(lián)時,考慮所述未加密 數(shù)據(jù)分組的子域和資源路徑。
【文檔編號】H04L29/06GK104102687SQ201410146871
【公開日】2014年10月15日 申請日期:2014年4月14日 優(yōu)先權日:2013年4月15日
【發(fā)明者】M·克里斯托多雷斯庫, 胡欣, D·L·沙勒斯, R·賽勒, M·菲斯多克林, 王挺, A·M·懷特 申請人:國際商業(yè)機器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1