亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于http報文數(shù)據(jù)的并行化網(wǎng)絡(luò)異常檢測方法與系統(tǒng)的制作方法

文檔序號:9754655閱讀:781來源:國知局
基于http報文數(shù)據(jù)的并行化網(wǎng)絡(luò)異常檢測方法與系統(tǒng)的制作方法
【專利說明】
[0001 ] 技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)安全應(yīng)用領(lǐng)域,尤其涉及基于HTTP報文數(shù)據(jù)的并行化網(wǎng)絡(luò)異常檢測方法與系統(tǒng)。
[0002]【背景技術(shù)】:
目前,網(wǎng)絡(luò)異常已經(jīng)成為國內(nèi)乃至全世界的網(wǎng)絡(luò)安全領(lǐng)域最為關(guān)注的危害之一。伴隨著網(wǎng)絡(luò)應(yīng)用的迅速發(fā)展,網(wǎng)絡(luò)異常帶來的危害和影響也日益突顯。根據(jù)CNCERT統(tǒng)計,SQL注入攻擊、跨站點腳本攻擊等主要網(wǎng)絡(luò)攻擊已經(jīng)占網(wǎng)絡(luò)安全事件的一半以上。網(wǎng)絡(luò)異常一方面影響用戶的正常享受網(wǎng)絡(luò)服務(wù),對網(wǎng)絡(luò)服務(wù)提供商造成巨大的經(jīng)濟危害和信用危害,另一方面會竊取用戶的隱私信息,甚至威脅到用戶的資金安全和信息安全,危害巨大。
[0003]網(wǎng)絡(luò)異常中的SQL注入、XSS等主要異常雖然攻擊具體實現(xiàn)技術(shù)各不相同,但它們具有通用的攻擊發(fā)起模式。即通過對參數(shù)進行注入payload來進行攻擊,參數(shù)可能出現(xiàn)在GET、P0ST、PATH等等位置。因此,針對請求URL中的參數(shù)進行挖掘分析,是解決網(wǎng)絡(luò)異常的一個重要突破口。已有的網(wǎng)絡(luò)異常檢測主要采用濫用檢測方法和異常檢測方法。濫用檢測方法是利用預(yù)先定義的攻擊特征來檢測攻擊,這種方法的準(zhǔn)確率高,可應(yīng)用于商業(yè)的入侵檢測;它的缺點是:一方面需要手動定義不同的攻擊特征模式,另一方面它無法有效應(yīng)對新出現(xiàn)的攻擊類型。異常檢測方法學(xué)習(xí)訪問的正常行為并建立正常訪問的行為特征,檢測并發(fā)現(xiàn)偏離正常訪問的行為。異常檢測方法的缺點是,對異常訪問較為敏感,檢測的錯誤率較尚O
[0004]
【發(fā)明內(nèi)容】
:
針對上述問題,本發(fā)明要解決的技術(shù)問題是提供基于HTTP報文數(shù)據(jù)的并行化網(wǎng)絡(luò)異常檢測方法與系統(tǒng)。
[0005]本發(fā)明的基于HTTP報文數(shù)據(jù)的并行化網(wǎng)絡(luò)異常檢測方法與系統(tǒng),其特征在于:包括以下步驟:
a.獲取HTTP報文數(shù)據(jù);
b.對HTTP報文數(shù)據(jù)進行數(shù)據(jù)清洗并入庫;
c.對入庫的報文數(shù)據(jù)進行分層抽樣,引入隱馬爾科夫語法模型構(gòu)建組合分類器并構(gòu)建模糊化集合;
d.使用組合分類器作為檢測模型,引入模糊化集合動態(tài)判斷待檢測樣本是否為異常訪問記錄,輸出異常訪問記錄。
[0006]優(yōu)選的,所述HTTP報文數(shù)據(jù)包括記錄標(biāo)識、日期、時間、源IP點分式、請求URL的域名、路徑、參數(shù)、HTTP訪問的狀態(tài)碼和HTTP請求方式。
[0007]優(yōu)選的,所述步驟b中數(shù)據(jù)清洗是基于HADOOP分布式計算框架,對HTTP報文數(shù)據(jù)進行清洗、入庫,清洗后的HTTP報文數(shù)據(jù)包括源IP點分式、請求URL的域名、請求URL的路徑、請求URL的參數(shù)、訪問次數(shù)和日期,對參數(shù)嘗試使用GBK、UTF-8、GB2312進行解碼,進一步根據(jù)報文記錄中的訪問日期、源IP、請求URL的域名和請求URL的參數(shù)進行記錄分組并統(tǒng)計頻次。
[0008]優(yōu)選的,所述步驟c中分層抽樣是對樣本記錄進行抽樣,每個IP每天抽取一條記錄作為訓(xùn)練樣本,以減少訓(xùn)練的計算復(fù)雜度,然后對抽取訓(xùn)練樣本中的參數(shù)值和參數(shù)序列,弓丨入隱馬爾科夫語法模型并行的構(gòu)造正常參數(shù)值和正常參數(shù)序列的語法模型,將不同參數(shù)的隱馬爾科夫語法模型組成對應(yīng)的隱馬爾科夫組合分類器。
[0009]優(yōu)選的,所述步驟d中組合分類器是作為檢測模型,對待檢測樣本進行檢測,計算得到待檢測樣本的評估概率值,為提高評估的正確率,引入模糊化集合,依據(jù)評估概率值進行模糊化和推理,判斷該樣本是否為異常訪問記錄。
[0010]本發(fā)明的基于HTTP報文數(shù)據(jù)的并行化網(wǎng)絡(luò)異常檢測系統(tǒng),包括:
數(shù)據(jù)采集單元,用于獲取HTTP報文數(shù)據(jù);
數(shù)據(jù)清洗單元,用于對HTTP報文數(shù)據(jù)進行清洗并入庫;
數(shù)據(jù)訓(xùn)練單元,用于對入庫的報文數(shù)據(jù)進行分層抽樣,引入隱馬爾科夫語法模型構(gòu)建組合分類器并構(gòu)建模糊化集合;
數(shù)據(jù)檢測單元,用于使用組合分類器作為檢測模型,引入模糊化集合動態(tài)判斷待檢測樣本是否為異常訪問記錄,輸出異常訪問記錄。
[0011]優(yōu)選的,所述數(shù)據(jù)采集單元是通過架設(shè)HTTP報文采集服務(wù)器、鏡像交換機以及光電轉(zhuǎn)換等設(shè)備,實現(xiàn)HTTP報文數(shù)據(jù)的采集。
[0012]本發(fā)明有益效果:本發(fā)明基于HADOOP大數(shù)據(jù)分析平臺,可以全量分析HTTP報文數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)中隱藏的網(wǎng)絡(luò)異常;分析確定發(fā)起攻擊的IP地址,可以針對IP地址進行封殺,使得已發(fā)生的網(wǎng)絡(luò)異常減少影響范圍。此外,通過源IP進行回溯,還可以通過與IP資源比對,進一步挖掘發(fā)起攻擊的終端的地理位置等社會信息,使得源頭上阻止網(wǎng)絡(luò)攻擊發(fā)生變成可能。
[0013]【附圖說明】:
為了易于說明,本發(fā)明由下述的具體實施及附圖作以詳細(xì)描述。
[0014]圖1是本發(fā)明基于HTTP報文數(shù)據(jù)的并行化網(wǎng)絡(luò)異常分析方法的業(yè)務(wù)流程圖;
圖2是本發(fā)明基于HTTP報文數(shù)據(jù)的并行化網(wǎng)絡(luò)異常分析方法的數(shù)據(jù)流程圖;
圖3是本發(fā)明基于HTTP報文數(shù)據(jù)的并行化網(wǎng)絡(luò)異常分析方法的數(shù)據(jù)清洗的流程示意圖;
圖4是本發(fā)明基于HTTP報文數(shù)據(jù)的并行化網(wǎng)絡(luò)異常分析系統(tǒng)的模塊示意圖。
[0015]【具體實施方式】:
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明了,下面通過附圖中示出的具體實施例來描述本發(fā)明。但是應(yīng)該理解,這些描述只是示例性的,而并非要限制本發(fā)明的范圍。此夕卜,在以下說明中,省略了對公知結(jié)構(gòu)和技術(shù)的描述,以避免不必要地混淆本發(fā)明的概念。
[0016]如圖1-4所示,本實施例的基于HTTP報文數(shù)據(jù)的并行化網(wǎng)絡(luò)異常檢測方法,其特征在于:包括以下步驟:
a.獲取HTTP報文數(shù)據(jù);
b.對HTTP報文數(shù)據(jù)進行數(shù)據(jù)清洗并入庫;
c.對入庫的報文數(shù)據(jù)進行分層抽樣,引入隱馬爾科夫語法模型構(gòu)建組合分類器并構(gòu)建模糊化集合;
d.使用組合分類器作為檢測模型,引入模糊化集合動態(tài)判斷待檢測樣本是否為異常訪問記錄,輸出異常訪問記錄。
[0017]具體地,HTTP報文數(shù)據(jù)包括記錄標(biāo)識、日期、時間、源IP點分式、請求URL的域名、路徑、參數(shù)、HTTP訪問的狀態(tài)碼和HTTP請求方式。
[0018]具體地,檢測方法包含三個主要的數(shù)據(jù)處理過程,第一、數(shù)據(jù)清洗;第二、引入隱馬爾科夫語法模型并行構(gòu)建檢測模型;第三、根據(jù)檢測模型評估待檢測記錄。詳細(xì)針對以上結(jié)構(gòu)說明,步驟2中,基于HADOOP分布式計算框架,對HTTP報文數(shù)據(jù)進行清洗并入庫。
[0019]數(shù)據(jù)清洗使用MapReduce計算實現(xiàn),分為兩個MapReduce程序。MapReduce程序一包含Mapper階段,無Reducer階段。Mapper階段將原始的HTTP報文數(shù)據(jù)作為計算輸入,其主要功能是去除不相關(guān)的字段、對參數(shù)值解碼。
[0020]MapReduce程序二分為Mapper階段和Reducer階段。Mapper階段對報文數(shù)據(jù)進行分片并分配到集群環(huán)境上并行運行。以源IP+日期+請求的URL作為KEY進行統(tǒng)計。Reducer階段將Mapper階段的輸出根據(jù)KEY值進行規(guī)約統(tǒng)計,最終輸出清洗后的HTTP報文數(shù)據(jù)。
[0021]清洗前的HTTP報文數(shù)據(jù)包括:記錄標(biāo)識、日期、時間、源IP點分式、請求URL的域名、路徑、參數(shù)、HTTP訪問的狀態(tài)碼、HTTP請求方式;
清洗后的HTTP報文數(shù)據(jù)包括:源IP點分式、請求URL的域名、請求URL的路徑、請求URL的參數(shù)、訪問次數(shù)、日期。
[0022]步驟3中,抽樣選取報文記錄、引入隱馬爾科夫語法模型并行建立請求URL參數(shù)的檢測模型、將不同參數(shù)的隱馬爾科夫語法模型組成對應(yīng)的隱馬爾科夫組合分類器。
[0023]訓(xùn)練模型由三個過程組成。I)在HADOOP平臺上,對樣本記錄按照IP字段分片,作并行分層抽樣操作,保證每個源IP每天針對某一個請求只提供一個樣本,得到訓(xùn)練樣本集合B= Ib^b2,引入隱馬爾科夫語法模型建立請求URL參數(shù)的訪問記錄的正常模型。對請求URL樣本bi(l < i < η)進行分割,得到請求的域名、路徑、參數(shù)。針對請求的不同參數(shù)在HADOOP平臺的不同節(jié)點并行建立隱馬爾科夫語法模型。請求的參數(shù)可作為一個字符序列Sequence。設(shè)bi中包含的參數(shù)集合為P= {pi,p2,…,Pm},則請求記錄中包含字符序列Sequence=Kpi,vi),(P2,V2),…,(Pm, vn)}。其中,Pj對應(yīng)某個參數(shù)名稱,Vj對應(yīng)某個參數(shù)值。對于bi的參數(shù)名稱,{ Pl,P2,…,Pm}組成一個狀態(tài)序列SQi,每一個參數(shù)名稱通過編碼對應(yīng)該序列中的一個狀態(tài),對參數(shù)名稱序列建立隱馬爾科夫語法模型Mq1。對于bl的參數(shù)值,
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1