一種基于Spark大數(shù)據(jù)平臺的日志審計倒查系統(tǒng)的制作方法
【專利說明】一種基于Spark大數(shù)據(jù)平臺的日志審計倒查系統(tǒng)
[0001]
技術(shù)領(lǐng)域
[0002]本發(fā)明涉及大數(shù)據(jù)與信息安全領(lǐng)域,具體地說是一種基于Spark大數(shù)據(jù)平臺的日志審計倒查系統(tǒng)。
【背景技術(shù)】
[0003]大數(shù)據(jù)技術(shù)近些年飛速發(fā)展,隨著組織網(wǎng)絡(luò)環(huán)境的日益復(fù)雜、信息安全的要求日益加劇。主要表現(xiàn)在:1、網(wǎng)絡(luò)環(huán)境的日志復(fù)雜,則日志審計系統(tǒng)的每秒需要的處理能力的要求日益增加;2、組織面臨的攻擊方法也日益多樣化,規(guī)則庫的更新是否及時成為衡量日志審計系統(tǒng)的重要標準;3、組織對信息安全的重視程度也日益增加,使用審計系統(tǒng)的使用者的專業(yè)技能日益深厚。因此,如何實現(xiàn)快速、直觀、全面的溯源倒查成為本領(lǐng)域技術(shù)人員迫切解決的技術(shù)問題。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的技術(shù)任務(wù)是針對上述現(xiàn)有技術(shù)的不足,提供一種實用性強的基于Spark大數(shù)據(jù)平臺的日志審計倒查系統(tǒng)。
[0005]本發(fā)明的技術(shù)任務(wù)是按以下方式實現(xiàn)的:一種基于Spark大數(shù)據(jù)平臺的日志審計倒查系統(tǒng),包括日志采集模塊、日志審計分析模塊、日志審計倒查模塊、日志離線挖掘模塊及視圖模塊:
所述日志采集模塊用于采集各種設(shè)備的日志并實時傳遞給分析模塊(SparkStreaming系統(tǒng));
所述日志審計分析模塊用于對采集到的日志做范式化統(tǒng)一規(guī)格,并根據(jù)規(guī)則庫實時分析得到告警信息;
所述日志審計倒查模塊用于通過日志審計分析的結(jié)果(告警信息)倒查溯源,找到產(chǎn)生告警的源信息以及過程,包括攻擊源地址以及攻擊路徑等;
所述日志離線挖掘模塊用于對存儲在HDFS (Hadoop分布式文件系統(tǒng))的歷史日志信息進行離線分析,并與規(guī)則庫結(jié)合產(chǎn)生新的規(guī)則庫中沒有包含的規(guī)則條目,發(fā)現(xiàn)未知攻擊,可通過Spark對數(shù)據(jù)挖掘和機器學(xué)習(xí)技術(shù)的支持實現(xiàn);
所述視圖模塊通過Mysql數(shù)據(jù)庫中信息的查詢和展現(xiàn),提供告警信息和日志信息的查詢和分析。
[0006]上述系統(tǒng)通過日志采集模塊采集組織系統(tǒng)中的日志信息并實時推送到日志審計分析模塊,由日志審計分析模塊實時分析產(chǎn)生告警信息并發(fā)送到視圖模塊的前端頁面,并提實現(xiàn)查溯源和離線挖掘的功能。
[0007]作為優(yōu)選,日志采集模塊利用Flume (Cloudera提供的日志收集系統(tǒng))實現(xiàn)日志采集及日志的實時傳遞,可以實現(xiàn)采集syslog日志、監(jiān)控文件夾,并且可以很好的和SparkStreaming對接實現(xiàn)日志實時傳遞給分析模塊。
[0008]日志審計分析模塊接收到日志信息后,首先利用XML文件進行范式化,然后根據(jù)規(guī)則對日志實時分析得到告警信息,并傳遞給視圖模塊,同時將范式化后的日志信息存入HDFS中,將告警信息和日志信息存入Mysql。
[0009]所述規(guī)則庫包括以下規(guī)則:
一、根據(jù)單條日志的部分內(nèi)容,以內(nèi)容作為告警信息:例如Windows系統(tǒng)日志中出現(xiàn)登錄、開關(guān)機內(nèi)容的內(nèi)容都要作為告警信息,可使用MapReduce查找關(guān)鍵詞;
二、根據(jù)單位時間內(nèi)特殊事件出現(xiàn)的頻率,以特殊事件為告警信息:例如Windows日志中的未知用戶名或已知用戶名密碼錯誤事件在3分鐘內(nèi)發(fā)生了超過5次則可以視為一次暴力破解,可使用SparkStreaming中的時間窗的概念與MapReduce結(jié)合;
三、多設(shè)備日志間的關(guān)聯(lián)分析,以分析結(jié)果為告警信息:例如IPS或者IDS檢測到信息刺探在同一時間檢測到攻擊入侵可以視為一次單設(shè)備典型攻擊,可在SparkStreaming流處理的過程中使用SparkSQL即席查詢。
[0010]所述日志審計倒查模塊通過存儲在Mysql數(shù)據(jù)庫中告警信息與日志信息的關(guān)系表實現(xiàn)告警的進行倒查分析,具體實現(xiàn)方法為:在日志審計分析模塊產(chǎn)生告警信息的同時將與之有關(guān)的Log信息記錄,在往Mysql數(shù)據(jù)庫中寫入日志和告警信息的同時將該關(guān)聯(lián)規(guī)則記錄。當(dāng)需要對某一告警進行倒查分析的時候,可以通過記錄的關(guān)聯(lián)信息找到對應(yīng)日志信息,通過對這些日志信息的分析即可以得到攻擊源,攻擊路徑等信息。
[0011 ] 與現(xiàn)有技術(shù)相比,本發(fā)明的基于Spark大數(shù)據(jù)平臺的日志審計倒查系統(tǒng)具有以下突出的有益效果:
(一)大數(shù)據(jù)平臺的分布式架構(gòu)易于擴展和縮減,可以應(yīng)對組織網(wǎng)絡(luò)規(guī)模的改變而改變自身系統(tǒng)的大小到達資源的有效利用;
(二)倒查功能可以為組織中系統(tǒng)的使用人員提供詳盡的告警信息分析,方便其工作;
(三)利用大數(shù)據(jù)技術(shù)進行數(shù)據(jù)挖掘與機器學(xué)習(xí)可以有效的利用收集到的海量歷史日志信息,通過與現(xiàn)有規(guī)則庫結(jié)合的離線分析可以自動擴展規(guī)則庫,增強系統(tǒng)規(guī)則的實用性。
【附圖說明】
[0012]附圖1是本發(fā)明基于Spark大數(shù)據(jù)平臺的日志審計倒查系統(tǒng)的架構(gòu)圖;
附圖2是本發(fā)明基于Spark大數(shù)據(jù)平臺的日志審計倒查系統(tǒng)的流程圖。
【具體實施方式】
[0013]參照說明書附圖以具體實施例對本發(fā)明的基于Spark大數(shù)據(jù)平臺的日志審計倒查系統(tǒng)作以下詳細地說明。
[0014]實施例:
本發(fā)明的基于Spark大數(shù)據(jù)平臺的日志審計倒查系統(tǒng)通過Flume分布式日志采集系統(tǒng)收集組織系統(tǒng)環(huán)境中的日志并實時傳遞給分析模塊,分析模塊通過規(guī)則庫實時分析的結(jié)果及時的推送給前臺,并且提供告警信息溯源倒查以及離線挖掘功能。其架構(gòu)如附圖1所示:(1)日志采集模塊:由Flume分布式日志采集系統(tǒng)組成(2)日志審計分析模塊:由SparkStreaming完成(3)日志審計倒查模塊:主要依靠存儲在Mysql數(shù)據(jù)庫中告警信息與日志信息的關(guān)系表來實現(xiàn)(4)日志離線挖掘模塊,依靠Spark大數(shù)據(jù)平臺的數(shù)據(jù)挖掘與機器學(xué)習(xí)技術(shù)來實現(xiàn)。(5)視圖模塊,提供告警信息及分析、日志信息及分析的查詢。
[0015]所述日志采集模塊是日志審計分析的前提,是整個系統(tǒng)的最底層,可利用Flume來實現(xiàn)日志采集系統(tǒng)。該模塊主要負責(zé)采集系統(tǒng)中各種操作系統(tǒng)、路由交換、安全設(shè)備的日志并實時傳遞給分析模塊也就是SparkStreaming系統(tǒng)中。可以提供一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,F(xiàn)lume提供對數(shù)據(jù)進行簡單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力。提供了從 console (控制臺)、RPC (Thrift-RPC)、tex