本公開涉及網(wǎng)絡(luò)檢測
技術(shù)領(lǐng)域:
,具體地,涉及一種攻擊檢測方法、裝置、網(wǎng)絡(luò)設(shè)備及終端設(shè)備。
背景技術(shù):
:隨著互聯(lián)網(wǎng)的普及以及信息技術(shù)的高速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為與人們生活密不可分的一部分。網(wǎng)絡(luò)為人們提供方便的同時(shí),網(wǎng)絡(luò)攻擊問題也帶來了新的麻煩與威脅。不法攻擊者利用web服務(wù)做為傳播惡意代碼的手段,非法竊取用戶信息、破壞用戶環(huán)境,給用戶帶來巨大損失。因此,如何有效檢測web類攻擊成為亟待解決的問題。相關(guān)技術(shù)中,檢測web攻擊的方法包括誤用檢測、利用機(jī)器學(xué)習(xí)進(jìn)行檢測、利用學(xué)習(xí)算法(例如,支持向量機(jī)算法(SVM)、基于ID3決策樹算法、貝葉斯網(wǎng)絡(luò)等)進(jìn)行檢測。為了提高網(wǎng)絡(luò)傳輸效率,web文本絕大多數(shù)是采用gzip壓縮的。在對(duì)經(jīng)gzip壓縮的web文本進(jìn)行檢測前,上述相關(guān)技術(shù)的攻擊檢測方法都需要先對(duì)web文本進(jìn)行解壓縮。由于gzip解壓算法的設(shè)計(jì)原因,每次解壓縮都需要在內(nèi)存中開辟一定大小的解壓空間(例如,32K大小)。因此,對(duì)gzip壓縮的web文本解壓縮后再進(jìn)行攻擊檢測,不但耗費(fèi)系統(tǒng)大量處理時(shí)間,同時(shí)也消耗了系統(tǒng)大量內(nèi)存。當(dāng)網(wǎng)絡(luò)中連接數(shù)很大時(shí),對(duì)檢測系統(tǒng)內(nèi)存的要求很高,使得大部分系統(tǒng)不可能滿足要求。公開內(nèi)容為解決相關(guān)技術(shù)的缺陷,本公開的目的是提供一種攻擊檢測方法、裝置、網(wǎng)絡(luò)設(shè)備及終端設(shè)備。第一方面,本公開提供一種攻擊檢測方法,包括:獲取gzip壓縮的待檢測web文本;將所述待檢測web文本轉(zhuǎn)換為特征向量;根據(jù)訓(xùn)練得到的分類器,以及所述特征向量,對(duì)所述待檢測web文本進(jìn)行攻擊檢測。在一個(gè)實(shí)施例中,所述方法還包括:獲取初始特征詞集合,所述初始特征詞集合中包括一個(gè)或多個(gè)特征詞;確定訓(xùn)練樣本和類別集合,所述類別集合包括:攻擊類別和非攻擊類別;根據(jù)所述訓(xùn)練樣本中屬于攻擊類別的文本數(shù)、所述訓(xùn)練樣本中屬于非攻擊類別的文本數(shù)和所述訓(xùn)練樣本中出現(xiàn)每個(gè)特征詞的文本數(shù),獲取攻擊類別對(duì)應(yīng)的第一先驗(yàn)概率、非攻擊類別對(duì)應(yīng)的第二先驗(yàn)概率,以及每個(gè)特征詞在攻擊類別下的第一條件概率和在非攻擊類別下的第二條件概率;將所述第一先驗(yàn)概率、所述第二先驗(yàn)概率、所述第一條件概率和所述第二條件概率作為所述分類器的分類參數(shù)。在一個(gè)實(shí)施例中,所述方法還包括:對(duì)于所述初始特征詞集合中的每個(gè)特征詞,生成字節(jié)長度大于預(yù)設(shè)長度的一個(gè)或多個(gè)子串,得到所述初始特征詞集合的子串矩陣;獲取所述子串矩陣中每個(gè)子串對(duì)應(yīng)的概率,得到子串概率矩陣。在一個(gè)實(shí)施例中,根據(jù)以下公式獲取所述子串矩陣中每個(gè)子串對(duì)應(yīng)的概率:Pij=T0ij/T1ij其中,i∈[1,n],j∈[1,m],n為所述特征詞的個(gè)數(shù),m為所述初始特征詞集合中具有最多子串的特征詞的子串個(gè)數(shù);T0ij為子串Wij在gzip壓縮的訓(xùn)練樣本中出現(xiàn)且所述子串Wij與一替換信息相鄰,則在gzip解碼后的訓(xùn)練樣本中,所述子串Wij對(duì)應(yīng)的特征詞Wi出現(xiàn)的次數(shù);T1ij為在gzip壓縮的訓(xùn)練樣本中,所述子串Wij出現(xiàn)且所述子串Wij與替換信息相鄰的次數(shù)。在一個(gè)實(shí)施例中,將所述待檢測web文本轉(zhuǎn)換為的特征向量的步驟包括:若所述初始特征詞集合中的一特征詞Wj在所述待檢測web文本中出現(xiàn),將與所述特征詞Wj對(duì)應(yīng)的特征向量中的元素Vj的值設(shè)為1;若所述初始特征詞集合中的所述特征詞Wj未在所述待檢測web文本中出現(xiàn),將所述元素Vj的值設(shè)為所述特征詞Wj的最長子串在所述子串概率矩陣中的對(duì)應(yīng)值。在一個(gè)實(shí)施例中,將所述待檢測web文本轉(zhuǎn)換為的特征向量的步驟包括:實(shí)時(shí)獲取待檢測web文本的目標(biāo)數(shù)據(jù)塊;當(dāng)塊結(jié)束標(biāo)志不為1時(shí),檢測所述目標(biāo)數(shù)據(jù)塊的編碼標(biāo)志位;若所述目標(biāo)數(shù)據(jù)塊的編碼標(biāo)志位為0,則根據(jù)所述初始特征詞集合和所述子串概率矩陣,對(duì)所述目標(biāo)數(shù)據(jù)塊進(jìn)行匹配獲得所述目標(biāo)數(shù)據(jù)塊對(duì)應(yīng)的特征向量;若所述目標(biāo)數(shù)據(jù)塊的編碼標(biāo)志位為1,則進(jìn)行靜態(tài)huffman解碼,并根據(jù)所述初始特征詞集合和所述子串概率矩陣,對(duì)解碼后的數(shù)據(jù)塊進(jìn)行匹配獲得所述目標(biāo)數(shù)據(jù)塊對(duì)應(yīng)的特征向量;若所述目標(biāo)數(shù)據(jù)塊的編碼標(biāo)志位為2,則進(jìn)行動(dòng)態(tài)huffman解碼,并根據(jù)所述初始特征詞集合和所述子串概率矩陣,對(duì)解碼后的數(shù)據(jù)塊進(jìn)行匹配獲得所述目標(biāo)數(shù)據(jù)塊對(duì)應(yīng)的特征向量;將所述待檢測web文本所包括的所有目標(biāo)數(shù)據(jù)塊的特征向量疊加以得到所述待檢測web文本的特征向量。在一個(gè)實(shí)施例中,所述根據(jù)所述初始特征詞集合和所述子串概率矩陣,對(duì)數(shù)據(jù)塊進(jìn)行匹配獲取所述目標(biāo)數(shù)據(jù)塊對(duì)應(yīng)的特征向量的步驟包括:根據(jù)指示信息,確定相應(yīng)的處理節(jié)點(diǎn);根據(jù)確定的處理節(jié)點(diǎn)和獲取的處理狀態(tài),對(duì)所述目標(biāo)數(shù)據(jù)塊進(jìn)行處理,若所述初始特征詞集合中的特征詞出現(xiàn)在所述目標(biāo)數(shù)據(jù)塊中,將與所述特征詞Wi對(duì)應(yīng)的特征向量中的元素Vi的值設(shè)為1;若所述子串矩陣中的子串出現(xiàn)在所述目標(biāo)數(shù)據(jù)塊中,則將與所述子串對(duì)應(yīng)的特征向量中的元素的值設(shè)為所述子串對(duì)應(yīng)的特征詞的最長子串在所述子串概率矩陣中的對(duì)應(yīng)值。在一個(gè)實(shí)施例中,根據(jù)訓(xùn)練得到的分類器,以及所述特征向量,對(duì)所述待檢測web文本進(jìn)行分類攻擊檢測的步驟包括:根據(jù)所述特征向量、所述第一先驗(yàn)概率、所述第二先驗(yàn)概率、所述第一條件概率和所述第二條件概率,獲取所述待檢測web文本屬于攻擊類別的第一后驗(yàn)概率和屬于非攻擊類別的第二后驗(yàn)概率;根據(jù)所述第一后驗(yàn)概率和所述第二后驗(yàn)概率,將所述待檢測web文本歸屬于攻擊類別或非攻擊類別。在一個(gè)實(shí)施例中,根據(jù)以下公式獲取所述待檢測web文本的第一后驗(yàn)概率:以及根據(jù)以下公式獲取所述待檢測web文本的第二后驗(yàn)概率:其中,Vj為所述特征向量中的一與特征詞Wj對(duì)應(yīng)的元素,P(C0)為所述第一先驗(yàn)概率,P(Wj/C0)為特征詞Wj的第一條件概率;P(C1)為所述第二先驗(yàn)概率,P(Wj/C1)為特征詞Wj的第二條件概率。第二方面,本公開提供一種攻擊檢測裝置,包括:第一獲取模塊,用于獲取gzip壓縮的待檢測web文本;轉(zhuǎn)換模塊,用于將所述待檢測web文本轉(zhuǎn)換為特征向量;檢測模塊,用于根據(jù)訓(xùn)練得到的分類器,以及所述特征向量,對(duì)所述待檢測web文本進(jìn)行攻擊檢測。在一個(gè)實(shí)施例中,所述裝置還包括:第二獲取模塊,用于獲取初始特征詞集合,所述初始特征詞集合中包括一個(gè)或多個(gè)特征詞;確定模塊,用于確定訓(xùn)練樣本和類別集合,所述類別集合包括:攻擊類別和非攻擊類別;第三獲取模塊,用于根據(jù)所述訓(xùn)練樣本中屬于攻擊類別的文本數(shù)、所述訓(xùn)練樣本中屬于非攻擊類別的文本數(shù)和所述訓(xùn)練樣本中出現(xiàn)每個(gè)特征詞的文本數(shù),獲取攻擊類別對(duì)應(yīng)的第一先驗(yàn)概率、非攻擊類別對(duì)應(yīng)的第二先驗(yàn)概率,以及每個(gè)特征詞在攻擊類別下的第一條件概率和在非攻擊類別下的第二條件概率;分類參數(shù)確定模塊,用于將所述第一先驗(yàn)概率、所述第二先驗(yàn)概率、所述第一條件概率和所述第二條件概率作為所述分類器的分類參數(shù)。在一個(gè)實(shí)施例中,所述裝置還包括:子串矩陣獲取模塊,用于對(duì)于所述初始特征詞集合中的每個(gè)特征詞,生成字節(jié)長度大于預(yù)設(shè)長度的一個(gè)或多個(gè)子串,得到所述初始特征詞集合的子串矩陣;子串概率矩陣獲取模塊,用于獲取所述子串矩陣中每個(gè)子串對(duì)應(yīng)的概率,得到子串概率矩陣。在一個(gè)實(shí)施例中,所述轉(zhuǎn)換模塊,用于若所述初始特征詞集合中的一特征詞Wi在所述待檢測web文本中出現(xiàn),將與所述特征詞Wi對(duì)應(yīng)的特征向量中的元素Vi的值設(shè)為1;若所述初始特征詞集合中的所述特征詞Wi未在所述待檢測web文本中出現(xiàn),將所述元素Vi的值設(shè)為所述特征詞Wi的最長子串在所述子串概率矩陣中的對(duì)應(yīng)值。在一個(gè)實(shí)施例中,所述轉(zhuǎn)換模塊包括:目標(biāo)數(shù)據(jù)塊獲取子模塊,用于實(shí)時(shí)獲取待檢測web文本的目標(biāo)數(shù)據(jù)塊;編碼標(biāo)志位檢測子模塊,用于當(dāng)塊結(jié)束標(biāo)志不為1時(shí),檢測所述目標(biāo)數(shù)據(jù)塊的編碼標(biāo)志位;匹配子模塊,用于若所述目標(biāo)數(shù)據(jù)塊的編碼標(biāo)志位為0,則根據(jù)所述初始特征詞集合和所述子串概率矩陣,對(duì)所述目標(biāo)數(shù)據(jù)塊進(jìn)行匹配獲得所述目標(biāo)數(shù)據(jù)塊對(duì)應(yīng)的特征向量;若所述目標(biāo)數(shù)據(jù)塊的編碼標(biāo)志位為1,則進(jìn)行靜態(tài)huffman解碼,并根據(jù)所述初始特征詞集合和所述子串概率矩陣,對(duì)解碼后的數(shù)據(jù)塊進(jìn)行匹配獲得所述目標(biāo)數(shù)據(jù)塊對(duì)應(yīng)的特征向量;若所述目標(biāo)數(shù)據(jù)塊的編碼標(biāo)志位為2,則進(jìn)行動(dòng)態(tài)huffman解碼,并根據(jù)所述初始特征詞集合和所述子串概率矩陣,對(duì)解碼后的數(shù)據(jù)塊進(jìn)行匹配獲得所述目標(biāo)數(shù)據(jù)塊對(duì)應(yīng)的特征向量;疊加子模塊,用于將所述待檢測web文本所包括的所有目標(biāo)數(shù)據(jù)塊的特征向量疊加以得到所述待檢測web文本的特征向量。在一個(gè)實(shí)施例中,所述匹配子模塊包括:處理節(jié)點(diǎn)確定子模塊,用于根據(jù)指示信息,確定相應(yīng)的處理節(jié)點(diǎn);特征向量生成子模塊,用于根據(jù)確定的處理節(jié)點(diǎn)和獲取的處理狀態(tài),對(duì)所述目標(biāo)數(shù)據(jù)塊進(jìn)行處理,若所述初始特征詞集合中的特征詞出現(xiàn)在所述目標(biāo)數(shù)據(jù)塊中,將與所述特征詞Wi對(duì)應(yīng)的特征向量中的元素Vi的值設(shè)為1;若所述子串矩陣中的子串出現(xiàn)在所述目標(biāo)數(shù)據(jù)塊中,則將與所述子串對(duì)應(yīng)的特征向量中的元素的值設(shè)為所述子串對(duì)應(yīng)的特征詞的最長子串在所述子串概率矩陣中的對(duì)應(yīng)值。在一個(gè)實(shí)施例中,檢測模塊包括:第三獲取子模塊,用于根據(jù)所述特征向量、所述第一先驗(yàn)概率、所述第二先驗(yàn)概率、所述第一條件概率和所述第二條件概率,獲取所述待檢測web文本屬于攻擊類別的第一后驗(yàn)概率和屬于非攻擊類別的第二后驗(yàn)概率;攻擊類別確定子模塊,用于根據(jù)所述第一后驗(yàn)概率和所述第二后驗(yàn)概率,將所述待檢測web文本歸屬于攻擊類別或非攻擊類別。第三方面,本公開提供一種網(wǎng)絡(luò)設(shè)備,包括上述所述的攻擊檢測裝置。第四方面,本公開提供一種終端設(shè)備,包括上述所述的攻擊檢測裝置。第五方面,本公開提供一種攻擊檢測裝置,包括:處理器;用于存儲(chǔ)處理器可執(zhí)行指令的存儲(chǔ)器;其中,所述處理器被配置為:獲取gzip壓縮的待檢測web文本;將所述待檢測web文本轉(zhuǎn)換為特征向量;根據(jù)訓(xùn)練得到的分類器,以及所述特征向量,對(duì)所述待檢測web文本進(jìn)行攻擊檢測。通過上述技術(shù)方案,在對(duì)gzip壓縮的web文本進(jìn)行攻擊檢測時(shí),不需要進(jìn)行g(shù)zip解壓縮,而是直接對(duì)gzip壓縮的原始web文本進(jìn)行檢測,可提高攻擊檢測效率,極大的降低系統(tǒng)內(nèi)存消耗;使得web攻擊檢測系統(tǒng)在大流量下的部署成為可能。本公開的其他特征和優(yōu)點(diǎn)將在隨后的具體實(shí)施方式部分予以詳細(xì)說明。附圖說明附圖是用來提供對(duì)本公開的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與下面的具體實(shí)施方式一起用于解釋本公開,但并不構(gòu)成對(duì)本公開的限制。在附圖中:圖1是本公開一實(shí)施例的web系統(tǒng)的結(jié)構(gòu)示意圖;圖2是根據(jù)本公開一示例性實(shí)施例給出的攻擊檢測方法的流程示意圖;圖3是本公開實(shí)施例的在訓(xùn)練階段獲取子串矩陣和子串概率矩陣的流程示意圖;圖4是本公開一實(shí)施例中,在訓(xùn)練階段訓(xùn)練得到分類器的流程示意圖;圖5是本公開一實(shí)施例中,利用訓(xùn)練階段得到的信息,對(duì)gzip壓縮的待檢測web文本進(jìn)行檢測的流程示意圖;圖6是本公開另一實(shí)施例中,利用訓(xùn)練階段得到的信息,對(duì)gzip壓縮的待檢測web文本進(jìn)行檢測的流程示意圖;圖7是本公開的一實(shí)施例中,對(duì)數(shù)據(jù)塊進(jìn)行匹配的流程示意圖;圖8是本公開一實(shí)施例的攻擊檢測裝置的框圖;圖9是根據(jù)本公開一示例性實(shí)施例示出的一種用于攻擊檢測的裝置的框圖;圖10是根據(jù)本公開一示例性實(shí)施例的攻擊檢測裝置設(shè)置在網(wǎng)絡(luò)設(shè)備中的示意圖;圖11是根據(jù)本公開一示例性實(shí)施例的攻擊檢測裝置設(shè)置在終端設(shè)備中的示意圖;圖12是本公開一實(shí)施例的攻擊檢測的流程示意圖。具體實(shí)施方式以下結(jié)合附圖對(duì)本公開的具體實(shí)施方式進(jìn)行詳細(xì)說明。應(yīng)當(dāng)理解的是,此處所描述的具體實(shí)施方式僅用于說明和解釋本公開,并不用于限制本公開。參見圖1,為本公開實(shí)施例的web系統(tǒng)的結(jié)構(gòu)示意圖。終端設(shè)備通過接入網(wǎng)連接到web服務(wù)器。用戶通過終端設(shè)備的瀏覽器,發(fā)送HTTP請(qǐng)求,web服務(wù)器根據(jù)HTTP請(qǐng)求的URL地址連接,找到對(duì)應(yīng)的web文本(即網(wǎng)頁文件),返回給終端設(shè)備。web文本是用文本描述的,例如,為HTML/XML格式。在一些實(shí)施例中,web文本經(jīng)gzip壓縮后傳輸,以減小web文本的大小,提高網(wǎng)絡(luò)傳輸效率。終端設(shè)備瀏覽器將接收到的gzip壓縮的web文本進(jìn)行解壓、解碼等操作后,轉(zhuǎn)換為可視頁面。參見圖1,針對(duì)web的攻擊可包括:對(duì)web服務(wù)器的攻擊,其是對(duì)http請(qǐng)求進(jìn)行攻擊;對(duì)終端設(shè)備的攻擊,其是對(duì)web服務(wù)器返回的gzip壓縮的web文本進(jìn)行攻擊。本公開實(shí)施例,不需要進(jìn)行g(shù)zip解壓縮,直接對(duì)gzip壓縮的原始數(shù)據(jù)進(jìn)行檢測,減少了需要匹配檢測的數(shù)據(jù)量,可提高web攻擊的檢測速度,減低系統(tǒng)內(nèi)存消耗。參見圖2,是根據(jù)本公開一示例性實(shí)施例給出的攻擊檢測方法的流程示意圖。該攻擊檢測方法包括以下步驟:在步驟201中,獲取gzip壓縮的待檢測web文本。本公開實(shí)施例中,gzip壓縮的待檢測web文本是web服務(wù)器接收到終端設(shè)備發(fā)送的HTTP請(qǐng)求后,根據(jù)HTTP請(qǐng)求返回的經(jīng)gzip壓縮后的web文本。在步驟202中,將待檢測web文本轉(zhuǎn)換為特征向量。本公開實(shí)施例中,在訓(xùn)練階段,根據(jù)確定的訓(xùn)練文本和初始特征詞集合,得到初始特征詞集合對(duì)應(yīng)的子串矩陣,并獲取子串矩陣對(duì)應(yīng)的子串概率矩陣。根據(jù)子串概率矩陣和初始特征詞集合,獲取待檢測web文本的特征向量。在步驟203中,根據(jù)訓(xùn)練得到的分類器,以及特征向量,對(duì)待檢測web文本進(jìn)行攻擊檢測。本公開的實(shí)施例中,可根據(jù)分類器和特征向量,將待檢測web文本分為攻擊類或非攻擊類。參見圖3,為本公開實(shí)施例的在訓(xùn)練階段獲取子串矩陣和子串概率矩陣的流程示意圖。在步驟301中,確定初始特征詞集合。初始特征詞集合的獲取,即影響攻擊檢測的準(zhǔn)確性,同時(shí)若確定方式過于復(fù)雜,會(huì)導(dǎo)致性能降低。本公開實(shí)施例通過以下三種方式,選取特征詞,并由這些特征詞構(gòu)成初始特征詞集合,既保證分類精度,又保證快速提取。方式1:根據(jù)公開的誤用檢測規(guī)則,選取snort、ModSecurity開源檢測系統(tǒng)的規(guī)則(專門用于描述攻擊的),從中提取出關(guān)鍵詞作為特征詞。關(guān)鍵詞提取,可采用信息檢索與數(shù)據(jù)挖掘常用的加權(quán)技術(shù)TI-IDF(termfrequency-inversedocumentfrequency)。即若某個(gè)詞或短語在一篇文檔中出現(xiàn)的頻率TF高,并且在其它文檔中出現(xiàn)很少,則認(rèn)為此詞或短語具有很好的類別區(qū)分能力,適合用來分類,將其作為關(guān)鍵詞提取出。方式2:從常見的JavaScript攻擊腳本以及一些跨占攻擊腳本中,提取常用關(guān)鍵詞作為特征詞。方式3:針對(duì)web文本中常出現(xiàn)的系統(tǒng)軟件相關(guān)信息提取關(guān)鍵字作為特征詞,例如,OS相關(guān)信息關(guān)鍵字、瀏覽器相關(guān)信息關(guān)鍵字,adobereader相關(guān)信息關(guān)鍵字。通過上述三種方式,可以構(gòu)造出區(qū)分度高的初始特征詞集合,記為:W={W1W2...Wi...Wn}。在步驟302中,對(duì)于初始特征詞集合中的每個(gè)特征詞,生成字節(jié)長度大于預(yù)設(shè)長度的一個(gè)或多個(gè)子串,得到初始特征詞集合的子串矩陣。在本公開的實(shí)施例中,由于,gzip算法在壓縮時(shí),可能將選取的初始特征詞集合中的特征詞的某些部分用替換信息(例如,替換信息可包括兩者之間距離和長度對(duì))進(jìn)行替換,因此,需要將初始特征詞集合中的特征詞進(jìn)行變換。在本公開的一實(shí)施例中,通過以下方式進(jìn)行變換:對(duì)于初始特征詞集合中的每個(gè)特征詞,生成其字節(jié)長度大于或等于預(yù)設(shè)長度的子串。在本公開的實(shí)施例中,為了使特征詞更有區(qū)分度,選取的初始特征詞集合中的特征詞的字節(jié)長度一般會(huì)大于或等于4,因此,可將預(yù)設(shè)長度設(shè)為4,以生成字節(jié)長度大于或等于4的一個(gè)或多個(gè)子串。例如,對(duì)于初始特征詞集合中的特征詞“abcde”,由于一個(gè)英文字母所占的字節(jié)數(shù)位1,可生成的字節(jié)長度大于或等于4的子串包括:“abcd”和“bcde”。應(yīng)理解,在本公開的一實(shí)施例中,生成其字節(jié)長度大于或等于預(yù)設(shè)長度的子串不包括其對(duì)應(yīng)的特征詞。在本公開的實(shí)施例中,即使不同特征詞存在相同的子串,也需要將其均保留,因?yàn)閮蓚€(gè)不同初特征詞對(duì)應(yīng)的子串統(tǒng)計(jì)出的概率值可不相同。初始特征詞集合中的每一個(gè)特征詞都生成子串后,生成子串矩陣,如下所示:矩陣為n行,m列,其中,n為特征詞的個(gè)數(shù),m為初始特征詞集合中具有最多子串的特征詞的子串個(gè)數(shù)。應(yīng)理解,不同的特征詞可得到的子串的個(gè)數(shù)是不相同的,上述子串矩陣的列數(shù)以子串個(gè)數(shù)最大的特征詞為準(zhǔn)。對(duì)于子串個(gè)數(shù)少于子串個(gè)數(shù)的最大值的特征詞,則將相應(yīng)位置的設(shè)置為空。在步驟303中,確定訓(xùn)練樣本,獲取子串矩陣中每個(gè)子串對(duì)應(yīng)的概率,得到子串概率矩陣。在一實(shí)施例中,訓(xùn)練樣本可通過大量的統(tǒng)計(jì)獲得(例如,獲取某一時(shí)間段內(nèi)的web文本作為訓(xùn)練樣本)或采用現(xiàn)有的訓(xùn)練數(shù)據(jù)作為訓(xùn)練樣本(例如,采用KDDCUP’99訓(xùn)練數(shù)據(jù))。生成子串矩陣后,可統(tǒng)計(jì)生成相應(yīng)的子串概率矩陣,子串概率矩陣與子串矩陣行列相同,只是相應(yīng)子串位置替換為子串出現(xiàn)情況下,可能命中子串對(duì)應(yīng)主串(即對(duì)應(yīng)特征詞)的概率。子串概率矩陣P為:Pij的值是與替換信息(即“兩者之間距離,長度對(duì)”)相鄰的子串Wij在經(jīng)gzip壓縮的web文本中出現(xiàn)時(shí),其對(duì)應(yīng)是特征詞Wi(即主串Wi)的概率。例如,原始web文本Z1為:ABCDEFABCG其對(duì)應(yīng)的gzip壓縮的web文本Z2為:ABCDEF73G若“EFAB”為特征詞Wi(即主串Wi),“EF”為一個(gè)子串Wij。則當(dāng)與替換信息(“兩者之間距離,長度對(duì)”)(即“73”)相鄰的子串Wij(“EF”)在gzip壓縮文本Z2中出現(xiàn)時(shí),其對(duì)應(yīng)是特征詞Wi(“EFAB”)的概率即為Pij。Pij的值通過以下方式獲得:設(shè)每個(gè)子串有兩個(gè)計(jì)數(shù)T0ij和T1ij。其中,T1ij為在整個(gè)gzip壓縮的訓(xùn)練樣本中,子串Wij出現(xiàn)且該子串與替換信息(即“兩者之間距離,長度對(duì)”)相鄰的次數(shù)。即子串Wij在gzip壓縮的訓(xùn)練樣本中出現(xiàn),且子串Wij與替換信息(即“兩者之間距離,長度對(duì)”)相鄰時(shí),T1ij的值加1。T0ij為子串Wij在gzip壓縮的訓(xùn)練樣本中出現(xiàn)且該子串與替換信息(即“兩者之間距離,長度對(duì)”)相鄰,則在gzip解碼后的訓(xùn)練樣本中,子串Wij對(duì)應(yīng)的特征詞Wi出現(xiàn)的次數(shù)。即當(dāng)子串Wij在gzip壓縮文本中出現(xiàn)且該子串與替換信息(“兩者之間距離,長度對(duì)”)相鄰,且在gzip解碼后的訓(xùn)練樣本中,子串Wij對(duì)應(yīng)的特征詞Wi出現(xiàn)時(shí),T0ij的值加1。由此,Pij的值可由式(1)得到。Pij=T0ij/T1ij(1)參見圖4,為本公開的實(shí)施例中,在訓(xùn)練階段訓(xùn)練得到分類器的流程示意圖。在本公開的一實(shí)施例中,利用貝葉斯定理,實(shí)現(xiàn)對(duì)web文本進(jìn)行分類。貝葉斯分類器的分類原理為:借助某對(duì)象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,即該對(duì)象屬于某一類的概率,選擇具有最大后驗(yàn)概率的類作為該對(duì)象所屬的類。在本公開的實(shí)施例中,若類別集合C={C0C1}。其中,C0為攻擊類別,C1為非攻擊類別,利用貝葉斯定理,獲得概率P(Ci/W),即已知初始特征詞集合(攻擊向量)W的條件下,目標(biāo)對(duì)象屬于Ci類的概率(i=0或i=1)。獲得P(C0/W)與P(C1/W)后,選其中概率值大的,將目標(biāo)對(duì)象歸屬于該類。由樸素貝葉斯定理可得:由于P(W)是初始特征詞集合W的概率,在初始特征詞集合W已知的情況下,其為固定值。P(Ci)為先驗(yàn)概率,即Ci類的概率。P(W/Ci)為在目標(biāo)對(duì)象屬于Ci類的條件下,出現(xiàn)初始特征詞向量W的概率密度,即W的條件概率密度。由于P(W)是固定值,因此,只需求的最大值即可獲得P(Ci/W)。在本公開的一實(shí)施例中,由于連續(xù)乘積可導(dǎo)致浮點(diǎn)數(shù)溢出,則將求的最大值轉(zhuǎn)換為求的值,參見式(3)。根據(jù)式(2)和式(3)可得:其中,Vj為目標(biāo)對(duì)象(例如,待檢測web文本)的特征向量中的元素。在本公開的一實(shí)施例中,Vj值可通過以下方式獲得:當(dāng)初始特征詞集合中的特征詞Wj在目標(biāo)對(duì)象中出現(xiàn)時(shí)(即特征詞Wi命中時(shí)),Vj的值為1。否則,Vj的值為Wj的最長子串在子串概率矩陣P中對(duì)應(yīng)值。在另一些實(shí)施例中,當(dāng)特征詞Wj在訓(xùn)練樣本中未出現(xiàn)時(shí),Vj的值也可為特征詞Wj的其它子串在子串概率矩陣P中的對(duì)應(yīng)值。由此,本公開實(shí)施例中,訓(xùn)練分類器的過程,即是根據(jù)訓(xùn)練樣本,獲得式(4)中的用于分類器的分類參數(shù)P(Wj/Ci)和P(Ci)。根據(jù)P(Wj/Ci)和P(Ci),即可實(shí)現(xiàn)獲得概率P(Ci/W),實(shí)現(xiàn)對(duì)目標(biāo)對(duì)象(例如,待檢測web文本)的分類。在本公開的一實(shí)施例中,由于類別集合包括攻擊類別和非攻擊類別,因此,分類參數(shù)包括:第一先驗(yàn)概率P(C0)、第二先驗(yàn)概率P(C1)、第一條件概率P(Wj/C0)和第二條件概率P(Wj/C1)。參見圖4,在本公開的一實(shí)施例中,分類器的分類參數(shù)的獲取流程包括:在步驟401中,分別統(tǒng)計(jì)訓(xùn)練樣本中屬于攻擊類別的文本數(shù)、訓(xùn)練樣本中屬于非攻擊類別的文本數(shù)和訓(xùn)練樣本中出現(xiàn)每個(gè)特征詞的文本數(shù)。攻擊類別C0和非攻擊類別C1中分別包括多個(gè)文本,將訓(xùn)練樣本分別與攻擊類別C0和攻擊類別C1比較,即可得到訓(xùn)練樣本中屬于攻擊類別的文本數(shù)、訓(xùn)練樣本中屬于非攻擊類別的文本數(shù)。將訓(xùn)練樣本分別與初始特征詞集合中的每個(gè)特征詞語進(jìn)行比較,即可得到訓(xùn)練樣本中出現(xiàn)每個(gè)特征詞的文本數(shù)。在步驟402中,根據(jù)訓(xùn)練樣本中屬于攻擊類別的文本數(shù)、訓(xùn)練樣本中屬于非攻擊類別的文本數(shù)和訓(xùn)練樣本中出現(xiàn)每個(gè)特征詞的文本數(shù),獲取攻擊類別對(duì)應(yīng)的第一先驗(yàn)概率、非攻擊類別對(duì)應(yīng)的第二先驗(yàn)概率,以及每個(gè)特征詞在攻擊類別下的第一條件概率和在非攻擊類別下的第二條件概率。在本公開的實(shí)施例中,第一先驗(yàn)概率P(C0)和第二先驗(yàn)概率P(C1)可通過以下方式獲得:將Ci集合中文本數(shù)量與C0集合和C1集合中的總文本數(shù)相比得到P(Ci)。在本公開的一實(shí)施例中,第一條件概率P(Wj/C0)和第二條件概率P(Wj/C1)可通過以下方式獲得:對(duì)于訓(xùn)練樣本,統(tǒng)計(jì)訓(xùn)練樣本中出現(xiàn)特征詞Wj的文本數(shù)。則特征詞Wj的條件概率P(Wj/Ci)為出現(xiàn)特征詞Wj的文本數(shù)與Ci集合中文本總數(shù)的比值。由此,可獲得用于對(duì)web文本進(jìn)行攻擊檢測的分類器的分類參數(shù)。參見圖5,在本公開的實(shí)施例中,利用訓(xùn)練階段得到的信息,對(duì)gzip壓縮的待檢測web文本進(jìn)行檢測的流程包括:在步驟501中,根據(jù)初始特征詞集合和訓(xùn)練階段得到的子串概率矩陣,將待檢測web文本轉(zhuǎn)換為特征向量。若初始特征詞集合中的一特征詞Wj在待檢測web文本中出現(xiàn),將與特征詞Wj對(duì)應(yīng)的特征向量中的元素Vj的值設(shè)為1。若初始特征詞集合中的特征詞Wj未在待檢測web文本中出現(xiàn),將元素Vj的值設(shè)為特征詞Wj的最長子串在子串概率矩陣中的對(duì)應(yīng)值。在步驟502中,根據(jù)特征向量,以及訓(xùn)練階段得到的第一先驗(yàn)概率、第二先驗(yàn)概率、第一條件概率和第二條件概率,獲取待檢測web文本屬于攻擊類別的第一后驗(yàn)概率和屬于非攻擊類別的第二后驗(yàn)概率。根據(jù)以下公式(5)獲取待檢測web文本的第一后驗(yàn)概率:根據(jù)以下公式(6)獲取待檢測web文本的第二后驗(yàn)概率:其中,Vj為待檢測web文本的特征向量中的一與特征詞Wj對(duì)應(yīng)的元素,P(C0)為第一先驗(yàn)概率,P(Wj/C0)為特征詞Wj的第一條件概率;P(C1)為第二先驗(yàn)概率,P(Wj/C1)為特征詞Wj的第二條件概率。在步驟503中,根據(jù)第一后驗(yàn)概率和第二后驗(yàn)概率,將待檢測web文本歸屬于攻擊類別或非攻擊類別。若第一后驗(yàn)概率大于第二后驗(yàn)概率,則將待檢測web文本歸屬于攻擊類別;若第二后驗(yàn)概率大于第一后驗(yàn)概率,則將待檢測web文本歸屬于非攻擊類別。參見圖6,在本公開的另一實(shí)施例中,利用訓(xùn)練階段得到的信息,對(duì)gzip壓縮的待檢測web文本進(jìn)行檢測的流程示意圖。待檢測web文本為經(jīng)gzip壓縮的web文本。在本公開的實(shí)施例中,經(jīng)gzip壓縮后的web文本,可被分成多個(gè)數(shù)據(jù)塊。數(shù)據(jù)被一個(gè)字節(jié)一個(gè)字節(jié)的存儲(chǔ),8個(gè)字節(jié)為1個(gè)位。其中,每個(gè)數(shù)據(jù)塊第1位為塊=標(biāo)志,若該位為1,則表示該數(shù)據(jù)塊為最后一塊;若為0,則表示該數(shù)據(jù)塊不是最后一塊。數(shù)據(jù)塊的第2位和第3位,為編碼標(biāo)志位,用于標(biāo)識(shí)該數(shù)據(jù)塊的編碼方式,00表示未經(jīng)編碼,01表示利用靜態(tài)huffman編碼對(duì)壓縮后的web文本進(jìn)行編碼后傳輸,10表示利用動(dòng)態(tài)huffman編碼對(duì)壓縮后的web文本進(jìn)行編碼后傳輸。在步驟601中,實(shí)時(shí)獲取待檢測web文本的目標(biāo)數(shù)據(jù)塊。在一個(gè)實(shí)施例中,可通過數(shù)據(jù)采集器從網(wǎng)絡(luò)中抓取數(shù)據(jù)包,并進(jìn)行降采樣、離散數(shù)據(jù)處理、歸一化等數(shù)據(jù)處理。在步驟602中,當(dāng)塊結(jié)束標(biāo)志不為1時(shí),檢測目標(biāo)數(shù)據(jù)塊的編碼標(biāo)志位。當(dāng)塊結(jié)束標(biāo)志e==1時(shí),流程結(jié)束;否則,檢測目標(biāo)數(shù)據(jù)塊的編碼標(biāo)志位,并檢測當(dāng)前的目標(biāo)數(shù)據(jù)塊的第1位是否為1,則將塊結(jié)束標(biāo)志e設(shè)為1,否則,將塊結(jié)束標(biāo)志e設(shè)為0。當(dāng)數(shù)據(jù)塊的第1位為1時(shí),代表其為最后一個(gè)數(shù)據(jù)塊,因此,可將塊結(jié)束標(biāo)志e設(shè)為1,則在對(duì)該最后一個(gè)數(shù)據(jù)塊處理完成后,流程就結(jié)束,即對(duì)該待檢測web文本的檢測結(jié)束。若目標(biāo)數(shù)據(jù)塊的編碼標(biāo)志位為0,轉(zhuǎn)到步驟606;若目標(biāo)數(shù)據(jù)塊的編碼標(biāo)志位為1,則轉(zhuǎn)到步驟603,進(jìn)行靜態(tài)huffman解碼;若目標(biāo)數(shù)據(jù)塊的編碼標(biāo)志位為2,則轉(zhuǎn)到步驟604,進(jìn)行動(dòng)態(tài)huffman解碼。在步驟603中,根據(jù)靜態(tài)huffman編碼信息,建立靜態(tài)huffman樹,對(duì)該目標(biāo)數(shù)據(jù)塊依據(jù)建立的huffman樹進(jìn)行解碼,將解碼數(shù)據(jù)依次傳給數(shù)據(jù)匹配模塊,即轉(zhuǎn)到步驟606,直到當(dāng)前目標(biāo)數(shù)據(jù)塊處理結(jié)束,結(jié)束后轉(zhuǎn)到步驟601,繼續(xù)進(jìn)行下一數(shù)據(jù)塊的處理。在步驟604中,根據(jù)數(shù)據(jù)塊的動(dòng)態(tài)huffman編碼信息,建立動(dòng)態(tài)huffman樹,對(duì)該數(shù)據(jù)塊依據(jù)建立的huffman樹進(jìn)行解碼,將解碼數(shù)據(jù)依次傳給數(shù)據(jù)匹配模塊,即轉(zhuǎn)到步驟605,直到當(dāng)前目標(biāo)數(shù)據(jù)塊處理結(jié)束,結(jié)束后轉(zhuǎn)到步驟601,繼續(xù)進(jìn)行下一數(shù)據(jù)塊的處理。在步驟605中,根據(jù)初始特征詞集合和子串概率矩陣,對(duì)數(shù)據(jù)塊進(jìn)行匹配獲取目標(biāo)數(shù)據(jù)塊對(duì)應(yīng)的特征向量,并逐步更新特征向量的狀態(tài)。在步驟606中,將待檢測web文本所包括的所有目標(biāo)數(shù)據(jù)塊的特征向量疊加以得到待檢測web文本的特征向量。參見圖7,在本公開的一實(shí)施例中,對(duì)數(shù)據(jù)塊進(jìn)行匹配的流程如下:在步驟701中,根據(jù)指示信息(key信息),確定相應(yīng)的處理節(jié)點(diǎn)(key節(jié)點(diǎn))。在實(shí)際網(wǎng)絡(luò)中,終端設(shè)備與web服務(wù)器間先建立用于傳輸HTTP數(shù)據(jù)的TCP連接。終端設(shè)備瀏覽器向web服務(wù)器發(fā)送HTTP請(qǐng)求,以獲取web文本(即網(wǎng)頁信息)。由于通過一個(gè)TCP連接,可以把多個(gè)HTTP請(qǐng)求封裝到不同的幀,發(fā)送到web服務(wù)器。且處理時(shí),可能是同時(shí)處理來自多個(gè)終端設(shè)備的多個(gè)TCP連接。由此,需要根據(jù)指示信息(key信息),進(jìn)行區(qū)分,確定當(dāng)前要匹配的是哪個(gè)web文本。在本公開的一實(shí)施例中,指示信息(key信息)可從http請(qǐng)求中獲取。指示信息(key信息)可為五元組信息,包括源IP地址、目的IP地址、協(xié)議號(hào)、源端口和目的端口。在步驟702中,根據(jù)確定的處理節(jié)點(diǎn)和獲取的處理狀態(tài),對(duì)目標(biāo)數(shù)據(jù)塊進(jìn)行處理,若初始特征詞集合中的特征詞出現(xiàn)在目標(biāo)數(shù)據(jù)塊中,將與特征詞Wi對(duì)應(yīng)的特征向量中的元素Vi的值設(shè)為1;若子串矩陣中的子串出現(xiàn)在目標(biāo)數(shù)據(jù)塊中,則將與子串對(duì)應(yīng)的特征向量中的元素的值設(shè)為子串對(duì)應(yīng)的特征詞的最長子串在所述子串概率矩陣中的對(duì)應(yīng)值。若web文本的所有數(shù)據(jù)塊匹配結(jié)束,輸出對(duì)應(yīng)特征向量V。由于一個(gè)web文本包括多個(gè)數(shù)據(jù)塊,而每個(gè)數(shù)據(jù)塊,可被分為多個(gè)數(shù)據(jù)包進(jìn)行傳輸。因此,當(dāng)一個(gè)數(shù)據(jù)包處理完畢時(shí),需要記錄其處理狀態(tài)(STATE狀態(tài))。在一個(gè)實(shí)施例中,處理狀態(tài)(STATE狀態(tài))包括:中斷位置、已經(jīng)命中的特征串和半命中狀態(tài)的特征串。由此,當(dāng)處理下一個(gè)數(shù)據(jù)包時(shí),根據(jù)STATE狀態(tài)繼續(xù)進(jìn)行處理。在本公開的一實(shí)施例中,判斷命中的特征詞(即特征詞出現(xiàn)在數(shù)據(jù)塊中)對(duì)應(yīng)特征向量V的相應(yīng)位置是否已經(jīng)設(shè)置為1,如果已經(jīng)設(shè)置,則不進(jìn)行設(shè)置。若命中的特征詞是初始特征詞集合中的特征詞,設(shè)置該特征詞對(duì)應(yīng)的特征向量相應(yīng)位為1。若命中的特征詞是子串矩陣中的子串,將特征向量相應(yīng)位置設(shè)置為最長子串在子串概率矩陣中的對(duì)應(yīng)值P。設(shè)置好后,更新特征向量V,并將特征向量V與對(duì)應(yīng)處理節(jié)點(diǎn)(key節(jié)點(diǎn))進(jìn)行綁定。對(duì)于所有半命中狀態(tài)的特征串,即只命中初始特征詞集合的一部分或者子串矩陣中子串的一部分時(shí),獲取處理狀態(tài)(STATE狀態(tài)),并與當(dāng)前處理節(jié)點(diǎn)(key節(jié)點(diǎn))綁定。再次輸入數(shù)據(jù)時(shí)(即處理下一個(gè)數(shù)據(jù)包時(shí)),根據(jù)處理狀態(tài)(STATE狀態(tài))的信息進(jìn)行匹配。經(jīng)過上述步驟601至606,以及步驟701至702,將待檢測web文本所包括的所有數(shù)據(jù)塊的特征向量疊加(例如,合并)以得到待檢測web文本的特征向量。將gzip壓縮的web文本轉(zhuǎn)化為特征向量V={V1V2...Vi...Vn},其中Vi為匹配過程中計(jì)算得到的[01]區(qū)間的一個(gè)值。根據(jù)得到的特征向量V和上述公式(4),可得到P(Ci/W),由此,可以判定經(jīng)gzip壓縮的web文本的類別,即判定出其是屬于攻擊類別,還是非攻擊類別,得到攻擊檢測的結(jié)果。對(duì)于屬于攻擊類別的web文本可進(jìn)一步進(jìn)行隔離、丟棄等操作。應(yīng)理解,本公開實(shí)施例還可用其它的算法實(shí)現(xiàn)分類器的功能,例如,利用增量學(xué)習(xí)策略改進(jìn)后的貝葉斯分類器等等。本公開可以在對(duì)gzip壓縮的web文本不進(jìn)行解壓縮的情況下對(duì)其進(jìn)行檢測,且達(dá)到較高的檢測精度。由于不對(duì)web文本進(jìn)行解壓縮處理,需要匹配的數(shù)據(jù)量變小了,提高了檢測系統(tǒng)的性能,同時(shí)也極大的降低了檢測系統(tǒng)內(nèi)存使用量,使得web攻擊檢測系統(tǒng)在大流量下的部署成為可能。參見圖8,為本公開實(shí)施例的攻擊檢測裝置的框圖。該攻擊檢測裝置800包括:第一獲取模塊801,用于獲取gzip壓縮的待檢測web文本;轉(zhuǎn)換模塊802,用于將待檢測web文本轉(zhuǎn)換為特征向量;檢測模塊803,用于根據(jù)訓(xùn)練得到的分類器,以及特征向量,對(duì)待檢測web文本進(jìn)行攻擊檢測。在一個(gè)實(shí)施例中,裝置800還包括:第二獲取模塊804,用于獲取初始特征詞集合,初始特征詞集合中包括一個(gè)或多個(gè)特征詞;確定模塊805,用于確定訓(xùn)練樣本和類別集合,類別集合包括:攻擊類別和非攻擊類別;第三獲取模塊806,用于根據(jù)訓(xùn)練樣本中屬于攻擊類別的文本數(shù)、訓(xùn)練樣本中屬于非攻擊類別的文本數(shù)和訓(xùn)練樣本中出現(xiàn)每個(gè)特征詞的文本數(shù),獲取攻擊類別對(duì)應(yīng)的第一先驗(yàn)概率、非攻擊類別對(duì)應(yīng)的第二先驗(yàn)概率,以及每個(gè)特征詞在攻擊類別下的第一條件概率和在非攻擊類別下的第二條件概率;分類參數(shù)確定模塊807,用于將第一先驗(yàn)概率、第二先驗(yàn)概率、第一條件概率和第二條件概率作為分類器的分類參數(shù)。在一個(gè)實(shí)施例中,裝置800還包括:子串矩陣獲取模塊808,用于對(duì)于初始特征詞集合中的每個(gè)特征詞,生成字節(jié)長度大于預(yù)設(shè)長度的一個(gè)或多個(gè)子串,得到初始特征詞集合的子串矩陣;子串概率矩陣獲取模塊809,用于獲取子串矩陣中每個(gè)子串對(duì)應(yīng)的概率,得到子串概率矩陣。在一個(gè)實(shí)施例中,轉(zhuǎn)換模塊802,用于若初始特征詞集合中的一特征詞Wi在待檢測web文本中出現(xiàn),將與特征詞Wi對(duì)應(yīng)的特征向量中的元素Vi的值設(shè)為1;若初始特征詞集合中的特征詞Wi未在待檢測web文本中出現(xiàn),將元素Vi的值設(shè)為特征詞Wi的最長子串在子串概率矩陣中的對(duì)應(yīng)值。在一個(gè)實(shí)施例中,轉(zhuǎn)換模塊802包括:目標(biāo)數(shù)據(jù)塊獲取子模塊,用于實(shí)時(shí)獲取待檢測web文本的目標(biāo)數(shù)據(jù)塊;編碼標(biāo)志位檢測子模塊,用于當(dāng)塊結(jié)束標(biāo)志不為1時(shí),檢測目標(biāo)數(shù)據(jù)塊的編碼標(biāo)志位;匹配子模塊,用于若目標(biāo)數(shù)據(jù)塊的編碼標(biāo)志位為0,則根據(jù)初始特征詞集合和子串概率矩陣,對(duì)目標(biāo)數(shù)據(jù)塊進(jìn)行匹配獲得目標(biāo)數(shù)據(jù)塊對(duì)應(yīng)的特征向量;若目標(biāo)數(shù)據(jù)塊的編碼標(biāo)志位為1,則進(jìn)行靜態(tài)huffman解碼,并根據(jù)初始特征詞集合和子串概率矩陣,對(duì)解碼后的數(shù)據(jù)塊進(jìn)行匹配獲得目標(biāo)數(shù)據(jù)塊對(duì)應(yīng)的特征向量;若目標(biāo)數(shù)據(jù)塊的編碼標(biāo)志位為2,則進(jìn)行動(dòng)態(tài)huffman解碼,并根據(jù)初始特征詞集合和子串概率矩陣,對(duì)解碼后的數(shù)據(jù)塊進(jìn)行匹配獲得目標(biāo)數(shù)據(jù)塊對(duì)應(yīng)的特征向量;疊加子模塊,用于將待檢測web文本所包括的所有目標(biāo)數(shù)據(jù)塊的特征向量疊加以得到待檢測web文本的特征向量。在一個(gè)實(shí)施例中,匹配子模塊包括:處理節(jié)點(diǎn)確定子模塊,用于根據(jù)指示信息,確定相應(yīng)的處理節(jié)點(diǎn);特征向量生成子模塊,用于根據(jù)確定的處理節(jié)點(diǎn)和獲取的處理狀態(tài),對(duì)目標(biāo)數(shù)據(jù)塊進(jìn)行處理,若初始特征詞集合中的特征詞出現(xiàn)在目標(biāo)數(shù)據(jù)塊中,將與特征詞Wi對(duì)應(yīng)的特征向量中的元素Vi的值設(shè)為1;若子串矩陣中的子串出現(xiàn)在目標(biāo)數(shù)據(jù)塊中,則將與子串對(duì)應(yīng)的特征向量中的元素的值設(shè)為子串對(duì)應(yīng)的特征詞的最長子串在子串概率矩陣中的對(duì)應(yīng)值。在一個(gè)實(shí)施例中,檢測模塊803包括:第三獲取子模塊,用于根據(jù)特征向量、第一先驗(yàn)概率、第二先驗(yàn)概率、第一條件概率和第二條件概率,獲取待檢測web文本屬于攻擊類別的第一后驗(yàn)概率和屬于非攻擊類別的第二后驗(yàn)概率;攻擊類別確定子模塊,用于根據(jù)第一后驗(yàn)概率和第二后驗(yàn)概率,將待檢測web文本歸屬于攻擊類別或非攻擊類別。關(guān)于上述實(shí)施例中的裝置,其中各個(gè)模塊執(zhí)行操作的具體方式已經(jīng)在有關(guān)該方法的實(shí)施例中進(jìn)行了詳細(xì)描述,此處將不做詳細(xì)闡述說明。圖9是根據(jù)一示例性實(shí)施例示出的一種用于攻擊檢測的裝置900的框圖。該裝置900可以被提供為一網(wǎng)絡(luò)設(shè)備或終端設(shè)備。應(yīng)理解,該網(wǎng)絡(luò)設(shè)備可為網(wǎng)關(guān)設(shè)備、交換機(jī)、路由器等。終端設(shè)備設(shè)可為手機(jī)、平板電腦、臺(tái)式電腦、便攜式電腦、電子書、個(gè)人數(shù)字助理、可穿戴式設(shè)備等。參照?qǐng)D9,裝置900包括處理組件901,其進(jìn)一步包括一個(gè)或多個(gè)處理器,以及由存儲(chǔ)器902所代表的存儲(chǔ)器資源,用于存儲(chǔ)可由處理組件901的執(zhí)行的指令,例如應(yīng)用程序。存儲(chǔ)器902中存儲(chǔ)的應(yīng)用程序可以包括一個(gè)或一個(gè)以上的每一個(gè)對(duì)應(yīng)于一組指令的模塊。此外,處理組件901被配置為執(zhí)行指令,以執(zhí)行攻擊檢測方法。裝置900還可以包括一個(gè)電源組件903被配置為執(zhí)行裝置900的電源管理,一個(gè)有線或無線網(wǎng)絡(luò)接口904被配置為將裝置900連接到網(wǎng)絡(luò),和一個(gè)輸入輸出(I/O)接口905。裝置900可以操作基于存儲(chǔ)在存儲(chǔ)器902的操作系統(tǒng),例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,F(xiàn)reeBSDTM或類似。參見圖10,在本公開的一實(shí)施例中,攻擊檢測裝置可設(shè)置于網(wǎng)關(guān)設(shè)備中,以執(zhí)行web文本的攻擊檢測。參見圖11,在本公開的一實(shí)施例中,攻擊檢測裝置也可設(shè)置于終端設(shè)備中,由終端設(shè)備執(zhí)行web文本的攻擊檢測。參見圖12,本公開通過初始特征詞提取、生成子串矩陣、生成子串概率矩陣、訓(xùn)練得到貝葉斯分離器中的分類參數(shù)以及利用初始特征詞集合和子串概率矩陣,將gzip壓縮的web文本轉(zhuǎn)換為特征向量,集合分類參數(shù),進(jìn)行分類等步驟,可以在對(duì)gzip壓縮的web文本不進(jìn)行解壓縮的情況下對(duì)其進(jìn)行檢測,且達(dá)到較高的檢測精度。由于不對(duì)web文本進(jìn)行解壓縮處理,需要匹配的數(shù)據(jù)量變小了,提高了檢測系統(tǒng)的性能,同時(shí)也極大的降低了檢測系統(tǒng)內(nèi)存使用量,使得web攻擊檢測系統(tǒng)在大流量下的部署成為可能。以上結(jié)合附圖詳細(xì)描述了本公開的優(yōu)選實(shí)施方式,但是,本公開并不限于上述實(shí)施方式中的具體細(xì)節(jié),在本公開的技術(shù)構(gòu)思范圍內(nèi),可以對(duì)本公開的技術(shù)方案進(jìn)行多種簡單變型,這些簡單變型均屬于本公開的保護(hù)范圍。另外需要說明的是,在上述具體實(shí)施方式中所描述的各個(gè)具體技術(shù)特征,在不矛盾的情況下,可以通過任何合適的方式進(jìn)行組合。為了避免不必要的重復(fù),本公開對(duì)各種可能的組合方式不再另行說明。此外,本公開的各種不同的實(shí)施方式之間也可以進(jìn)行任意組合,只要其不違背本公開的思想,其同樣應(yīng)當(dāng)視為本公開所公開的內(nèi)容。當(dāng)前第1頁1 2 3