亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于Hadoop的網(wǎng)絡安全事件分析方法

文檔序號:7819216閱讀:228來源:國知局
一種基于Hadoop的網(wǎng)絡安全事件分析方法
【專利摘要】本發(fā)明公開了一種基于Hadoop的網(wǎng)絡安全事件分析方法,利用hadoop在海量數(shù)據(jù)處理上具有的高效、高容錯、高擴展和高可靠性以及開源的特點,采用HDFS的高容錯性、高伸縮性優(yōu)點,允許用戶將Hadoop部署在普通低廉的硬件上,形成分布式系統(tǒng);MapReduce提供開發(fā)并行應用程序,在集群上實現(xiàn)分布式計算和并行任務處理;HDFS在MapReduce任務處理過程中提供了文件操作和存儲等支持,數(shù)據(jù)采集系統(tǒng)從各個網(wǎng)絡安全設備采集網(wǎng)絡安全事件信息并生成數(shù)據(jù)文件,使用API或命令將它們存入HDFS,數(shù)據(jù)由HDFS在多個普通硬件資源的節(jié)點上分布式存儲,然后使用MapReduce對事件信息進行分析并輸出分析結(jié)果進行展示MapReduce在HDFS的基礎上實現(xiàn)了任務的分發(fā)、跟蹤、執(zhí)行等工作,并收集結(jié)果,二者相互作用,完成Hadoop分布式集群的主要任務。
【專利說明】—種基于Hadoop的網(wǎng)絡安全事件分析方法

【技術領域】
[0001]本發(fā)明涉及網(wǎng)絡安全領域,具體涉及一種基于Hadoop的網(wǎng)絡安全事件分析方法。

【背景技術】
[0002]網(wǎng)絡安全管理平臺的應用,能夠?qū)崿F(xiàn)整體網(wǎng)絡安全狀態(tài)的可視化監(jiān)測和配置,簡化人工分析和管理的復雜度,節(jié)省網(wǎng)絡安全人力資源,并為快速的應急響應處置提供技術依據(jù)。但隨著信息化規(guī)模日漸增長,網(wǎng)絡安全防護的范圍越來越廣,安全管理的復雜性也越來越高。應用系統(tǒng)使用越多,安全的數(shù)據(jù)量越大,對網(wǎng)絡安全管理平臺數(shù)據(jù)處理的要求越來越高,處理的海量數(shù)據(jù)有可能達到TB、甚至PB級。如果數(shù)據(jù)處理效率無法應對日益增長的數(shù)據(jù)規(guī)模要求,將對網(wǎng)絡安全管理平臺的適用性、可用性、可靠性等產(chǎn)生影響,人工維護的成本也可能大大增加??梢哉f,大數(shù)據(jù)時代的到來,海量事件的分析處理將是網(wǎng)絡安全管理平臺面臨的最嚴峻的挑戰(zhàn)之一。
[0003]Hadoop是Apache的一個開源分布式計算平臺。由于Hadoop在海量數(shù)據(jù)處理上具有的高效、高容錯、高擴展和高可靠性以及開源的特點,使得它在眾多行業(yè)和科研領域中被廣泛采用:雅虎通過Hadoop支持廣告系統(tǒng)和Web搜索的研究,Facebook用其支持數(shù)據(jù)分析和機器學習,百度使用Hadoop進行搜索日志的分析和網(wǎng)頁數(shù)據(jù)的挖掘工作,淘寶的Hadoop系統(tǒng)用于存儲并處理電子商務交易的相關數(shù)據(jù)等。
[0004]HDFS, Hadoop Distributed File System,簡稱 HDFS,是一個分布式文件系統(tǒng)。HDFS有著高容錯性(fault-tolerant)的特點,并且設計用來部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)來訪問應用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應用程序。HDFS 放寬了(relax)POSIX 的要求(requirements)這樣可以實現(xiàn)流的形式訪問(streaming access)文件系統(tǒng)中的數(shù)據(jù)。HDFS開始是為開源的apache項目nutch的基礎結(jié)構(gòu)而創(chuàng)建,HDFS是hadoop項目的一部分,而hadoop又是Iucene的一部分。
[0005]MapReduce是Google提出的一個軟件架構(gòu),用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算。概念“Map (映射)”和“Reduce (化簡)”,及他們的主要思想,都是從函數(shù)式編程語言借來的,還有從矢量編程語言借來的特性。[I]當前的軟件實現(xiàn)是指定一個Map (映射)函數(shù),用來把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce (化簡)函數(shù),用來保證所有映射的鍵值對中的每一個共享相同的鍵組。


【發(fā)明內(nèi)容】

[0006]本發(fā)明要解決的技術問題是:本發(fā)明應用Hadoop處理海量事件的技術,提出了一種基于Hadoop的網(wǎng)絡安全事件分析方法,旨在為將來提升網(wǎng)絡安全管理平臺大數(shù)據(jù)量的處理效率提供解決思路。
[0007]本發(fā)明所采用的技術方案為:
一種基于Hadoop的網(wǎng)絡安全事件分析方法,利用hadoop在海量數(shù)據(jù)處理上具有的高效、高容錯、高擴展和高可靠性以及開源的特點,采用HDFS的高容錯性、高伸縮性等優(yōu)點,允許用戶將Hadoop部署在普通低廉的硬件上,形成分布式系統(tǒng);MapReduce提供開發(fā)并行應用程序,在集群上實現(xiàn)分布式計算和并行任務處理;HDFS在MapReduce任務處理過程中提供了文件操作和存儲等支持,數(shù)據(jù)采集系統(tǒng)從各個網(wǎng)絡安全設備采集網(wǎng)絡安全事件信息并生成數(shù)據(jù)文件,使用API或命令將它們存入HDFS,數(shù)據(jù)由HDFS在多個普通硬件資源的節(jié)點上分布式存儲,然后使用MapReduce對事件信息進行分析并輸出分析結(jié)果進行展示MapReduce在HDFS的基礎上實現(xiàn)了任務的分發(fā)、跟蹤、執(zhí)行等工作,并收集結(jié)果,二者相互作用,完成Hadoop分布式集群的主要任務。
[0008]所述方法采用分布式存儲HDFS集群,由一個NameNode和若干個DataNode組成,如附圖1所示。其中NameNode作為主服務器,管理文件系統(tǒng)的命名空間和客戶端對文件的訪問操作;集群中的DataNode管理存儲的數(shù)據(jù);HDFS允許用戶以文件的形式存儲數(shù)據(jù);從內(nèi)部來看,文件被分成若干個數(shù)據(jù)塊(Block)并存放在一組DataNode上;NameNode執(zhí)行文件系統(tǒng)的命名空間操作,如打開、關閉、重命名文件或目錄等,它也負責數(shù)據(jù)塊到具體DataNode的映射;DataNode負責處理文件系統(tǒng)客戶端的文件讀寫請求,并在NameNode的統(tǒng)一調(diào)度下進行數(shù)據(jù)塊的創(chuàng)建、刪除和復制.所述MapReduce數(shù)據(jù)處理流程是通過利用一個輸入的key/value對集合來產(chǎn)生一個輸出的key value對集合,對應MapReduce庫的兩個函數(shù)Map和Reduce, —個MapReduce作業(yè)把輸入的數(shù)據(jù)集切分為若干獨立的數(shù)據(jù)塊,由Map任務以并行的方式處理,先進行Map輸出的排序,然后把結(jié)果輸入給Reduce任務;作業(yè)的輸入和輸出都會被存儲在文件系統(tǒng)中,每一個Map任務和每一個Reduce任務均能夠同時運行于一個單獨的計算節(jié)點上。
[0009]所述Hadoop集群采用主從(Master/Slave)模式,在Hadoop的架構(gòu)中,namenode和 jobtracker 屬于 master, datanode 和 tasktracker 屬于 slave, master 只有一個,而slave有多個。
[0010]所述方法的進程如下:
1)數(shù)據(jù)采集系統(tǒng)從各個網(wǎng)絡安全設備采集網(wǎng)絡安全事件信息并生成數(shù)據(jù)文件,使用API或命令將它們存入HDFS,數(shù)據(jù)由HDFS在多個普通硬件資源的節(jié)點上分布式存儲;
2)使用MapReduce對事件信息進行分析并輸出分析結(jié)果進行展示;MapReduce的輸入即為來自存儲在HDFS中的網(wǎng)絡安全事件信息(可支持文本、二進制、數(shù)據(jù)庫等多種格式),使用MapReduce對事件信息進行分析過程時,用戶需要自定義Mapper、Reducer函數(shù);
3)Hadoop根據(jù)設定的InputDataFormat來將輸入文件分割成一個個(keyl, valuel)對,然后將這些(keyl,valuel)集合傳遞給map函數(shù)作輸入處理,map函數(shù)根據(jù)輸入(keyl,valuel),形成中間數(shù)據(jù)(key2, value2)并在節(jié)點間進行交換;
4)在map過程完成之后,Hadoop將這些生成的中間數(shù)據(jù)(key2,value2)按照Key2進行分組(sort),形成<Key2, list (Value2) >,之后傳遞給reduce函數(shù),在該函數(shù)中最終得到程序的輸出結(jié)果<Key3,Value3> ;
5)reduce將自己的輸出寫入到結(jié)果文件中,使用output data format來配置輸出的文件格式。
[0011]本發(fā)明有益效果:本發(fā)明應用Hadoop處理海量事件的技術,基于HDFS和MapReduce的Hadoop集群架構(gòu)也符合網(wǎng)絡安全管理平臺的應用模式,提出了一種基于Hadoop的網(wǎng)絡安全事件分析方法,大大提升網(wǎng)絡安全管理平臺大數(shù)據(jù)量的處理效率。應對了大數(shù)據(jù)時代的到來給海量事件的分析處理的網(wǎng)絡安全管理平臺帶來的挑戰(zhàn),實現(xiàn)整體網(wǎng)絡安全狀態(tài)的可視化監(jiān)測和配置,簡化人工分析和管理的復雜度,節(jié)省網(wǎng)絡安全人力資源,并為快速的應急響應處置提供技術依據(jù),增加對網(wǎng)絡安全管理平臺的適用性,為將來提升網(wǎng)絡安全管理平臺大數(shù)據(jù)量的處理效率提供了很高的技術價值。
[0012]Hadoop在海量數(shù)據(jù)處理上具有的聞效、聞容錯、聞擴展和聞可罪性以及開源的特點與網(wǎng)絡安全管理平臺的應用,能夠應對日益增長的數(shù)據(jù)規(guī)模,安全管理的復雜性也越來越高的要求,處理海量數(shù)據(jù)達到TB、甚至PB級的的數(shù)據(jù)的網(wǎng)絡安全,實現(xiàn)整體網(wǎng)絡安全狀態(tài)的可視化監(jiān)測和配置,簡化人工分析和管理的復雜度,節(jié)省網(wǎng)絡安全人力資源,并為快速的應急響應處置提供技術依據(jù),增加對網(wǎng)絡安全管理平臺的適用性、可用性可靠性等產(chǎn)生影響,HDFS對文件采用“一次性寫,多次讀”的訪問模型。文件一旦創(chuàng)建、寫入、關閉之后就不需要修改了。這簡化了數(shù)據(jù)一致性問題,使高吞吐量的數(shù)據(jù)訪問成為可能,Mapreduce的設計很適合使用這樣的模型。網(wǎng)絡安全管理平臺的數(shù)據(jù)來源主要為網(wǎng)絡安全設備和系統(tǒng)的日志信息,為保證數(shù)據(jù)真實性一經(jīng)生成,不允許修改,主要用于檢索查詢和統(tǒng)計分析等因此基于HDFS和MapReduce的Hadoop集群架構(gòu)也符合網(wǎng)絡安全管理平臺的應用模式。

【專利附圖】

【附圖說明】
[0013]圖1為本發(fā)明HDFS結(jié)構(gòu)示意圖。

【具體實施方式】
[0014]下面根據(jù)說明書附圖,結(jié)合具體實施例,對本發(fā)明進一步說明:
使用三臺機器,均安裝Ubuntu 11.04。一臺為分布式文件系統(tǒng)HDFS的NameNode (192.168.1.1)及 MapReduce 的 JobTracker 節(jié)點,其它兩臺機器(192.168.1.2,192.168.1.3)作為 HDFS 的 Data Node 以及 MapReduce 的 Task Tracker 節(jié)點。在實驗環(huán)境中,Name Node通過SSH來啟動和停止Data Node上的各類進程。
[0015]HDFS的分布式存儲結(jié)合MapReduce的并行分布式計算思想的特點,構(gòu)建一個基于Hadoop的安全事件分析原型平臺,所述方法的進程如下:
1)數(shù)據(jù)采集系統(tǒng)從各個網(wǎng)絡安全設備采集網(wǎng)絡安全事件信息并生成數(shù)據(jù)文件,使用API或命令將它們存入HDFS,數(shù)據(jù)由HDFS在多個普通硬件資源的節(jié)點上分布式存儲;
2)使用MapReduce對事件信息進行分析并輸出分析結(jié)果進行展示;MapReduce的輸入即為來自存儲在HDFS中的網(wǎng)絡安全事件信息(可支持文本、二進制、數(shù)據(jù)庫等多種格式),使用MapReduce對事件信息進行分析過程時,用戶需要自定義Mapper、Reducer函數(shù);
3)Hadoop根據(jù)設定的InputDataFormat來將輸入文件分割成一個個(keyl, valuel)對,然后將這些(keyl, valuel)集合傳遞給map函數(shù)作輸入處理,map函數(shù)根據(jù)輸入(keyl,valuel),形成中間數(shù)據(jù)(key2, value2)并在節(jié)點間進行交換;
4)在map過程完成之后,Hadoop將這些生成的中間數(shù)據(jù)(key2,value2)按照Key2進行分組(sort),形成<Key2, list (Value2) >,之后傳遞給reduce函數(shù),在該函數(shù)中最終得到程序的輸出結(jié)果<Key3,Value3> ;
5)reduce將自己的輸出寫入到結(jié)果文件中,使用output data format來配置輸出的文件格式。
【權利要求】
1.一種基于他如叩的網(wǎng)絡安全事件分析方法,其特征在于:利用匕如叩在海量數(shù)據(jù)處理上具有的聞效、聞容錯、聞擴展和聞可罪性以及開源的特點,米用的聞容錯性、聞伸縮性優(yōu)點,允許用戶將他如。!)部署在普通低廉的硬件上,形成分布式系統(tǒng)提供開發(fā)并行應用程序,在集群上實現(xiàn)分布式計算和并行任務處理出0?3在妨叩如如⑶任務處理過程中提供了文件操作和存儲等支持,數(shù)據(jù)采集系統(tǒng)從各個網(wǎng)絡安全設備采集網(wǎng)絡安全事件信息并生成數(shù)據(jù)文件,使用仙I或命令將它們存入冊?3,數(shù)據(jù)由冊?3在多個普通硬件資源的節(jié)點上分布式存儲,然后使用妨叩如如⑶對事件信息進行分析并輸出分析結(jié)果進行展示妨叩如如⑶在冊?3的基礎上實現(xiàn)了任務的分發(fā)、跟蹤、執(zhí)行等工作,并收集結(jié)果,二者相互作用,完成他如叩分布式集群的主要任務。
2.根據(jù)權利要求1所述的一種基于他如叩的網(wǎng)絡安全事件分析方法,其特征在于:所述方法采用分布式存儲冊?3集群,由一個版11116^0(16和若干個組成,其中^1116^0(16作為主服務器,管理文件系統(tǒng)的命名空間和客戶端對文件的訪問操作;集群中的021^^0(16管理存儲的數(shù)據(jù)出0?3允許用戶以文件的形式存儲數(shù)據(jù);從內(nèi)部來看,文件被分成若干個數(shù)據(jù)塊并存放在一組0^2^0(16上#£11116^0(16執(zhí)行文件系統(tǒng)的命名空間操作,也負責數(shù)據(jù)塊到具體此仏如如的映射負責處理文件系統(tǒng)客戶端的文件讀寫請求,并在的統(tǒng)一調(diào)度下進行數(shù)據(jù)塊的創(chuàng)建、刪除和復制。
3.根據(jù)權利要求1或2所述的一種基于他如叩的網(wǎng)絡安全事件分析方法,其特征在于:所述1^^6(11106數(shù)據(jù)處理流程是利用一個輸入的1^67八211116對集合來產(chǎn)生一個輸出的垃67妨1116對集合,對應庫的兩個函數(shù)1叩和06(11106,一個作業(yè)把輸入的數(shù)據(jù)集切分為若干獨立的數(shù)據(jù)塊,由任務以并行的方式處理,先進行輸出的排序,然后把結(jié)果輸入給如如⑶任務;作業(yè)的輸入和輸出都會被存儲在文件系統(tǒng)中,每一個1叩任務和每一個06(11106任務均能夠同時運行于一個單獨的計算節(jié)點上。
4.根據(jù)權利要求3所述的一種基于他如叩的網(wǎng)絡安全事件分析方法,其特征在于:所述集群米用主從模式,在的架構(gòu)中,1181116110(16和』0)31:屬于胍81:61~,(1^1:8110(16 矛口 垃 1:1^0垃61 屬于 81^6, 111881:61-只有——個,而 81^6 有多個。
5.根據(jù)權利要求4所述的一種基于他如叩的網(wǎng)絡安全事件分析方法,其特征在于,所述方法的進程如下: 1)數(shù)據(jù)采集系統(tǒng)從各個網(wǎng)絡安全設備采集網(wǎng)絡安全事件信息并生成數(shù)據(jù)文件,使用八?I或命令將它們存入冊?3,數(shù)據(jù)由!在多個普通硬件資源的節(jié)點上分布式存儲; 2)使用1^^6(11106對事件信息進行分析并輸出分析結(jié)果進行展示的輸入即為來自存儲在冊?3中的網(wǎng)絡安全事件信息,使用妨叩如如⑶對事件信息進行分析過程時,用戶需要自定義此卯61~、1^6(111061-函數(shù); 3)1151(1001)根據(jù)設定的I即來將輸入文件分割成一個個(匕丫丨,^11161)對,然后將這些1)集合傳遞給111叩函數(shù)作輸入處理,111叩函數(shù)根據(jù)輸入(匕71,^11161),形成中間數(shù)據(jù)(1^672, ^11162)并在節(jié)點間進行交換; 4)在111叩過程完成之后,118(1001)將這些生成的中間數(shù)據(jù)(1^672,^11162)按照1(672進行分組,形成〈&372,1181: ^11162)),之后傳遞給1*6(111(36函數(shù),在該函數(shù)中最終得到程序的輸出結(jié)果〈1(673,%11163? ; 5)1*6(111(36將自己的輸出寫入到結(jié)果文件中,使用011如111: (13,13, ?01~胍1:來配置輸出的文件格式。
【文檔編號】H04L29/06GK104363222SQ201410630224
【公開日】2015年2月18日 申請日期:2014年11月11日 優(yōu)先權日:2014年11月11日
【發(fā)明者】黃敏 申請人:浪潮電子信息產(chǎn)業(yè)股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1