本發(fā)明涉及信息安全和網(wǎng)絡管理技術領域,具體涉及一種日志數(shù)據(jù)的審計方法和審計裝置。
背景技術:
日志(log)是用于展示某些事件全貌的日志消息的集合。日志數(shù)據(jù)(log data)就是一條日志消息的內(nèi)在含義。換句話說,日志數(shù)據(jù)就是一條日志消息里用來告訴你為什么生成日志消息的信息。例如,Web服務器一般會在有人訪問Web頁面請求資源(圖片、文件等等)的時候記錄日志。如果用戶訪問的頁面需要通過認證,日志消息將會包含用戶名。這就是日志數(shù)據(jù)的一個例子:可以使用用戶名來判斷哪一個用戶訪問過一個資源。
日志審計是通過集中采集系統(tǒng)中的系統(tǒng)安全事件、用戶訪問記錄、系統(tǒng)運行日志、系統(tǒng)運行狀態(tài)等各類日志信息,經(jīng)過規(guī)范化、過濾、歸并和告警分析等預處理后,進行集中存儲和管理,結(jié)合日志數(shù)據(jù)統(tǒng)計匯總及關聯(lián)分析功能,實現(xiàn)對系統(tǒng)日志數(shù)據(jù)的全面審計。
現(xiàn)有技術在審計過程中,審計系統(tǒng)的日志采集裝置直接將采集到的越來越龐大的日志數(shù)據(jù)以及審計結(jié)果存儲在本地關系數(shù)據(jù)庫中,供管理員查詢查看。由于傳統(tǒng)關系型數(shù)據(jù)庫存儲的數(shù)據(jù)量非常龐大,嚴重影響日志數(shù)據(jù)的查詢速度和審計效率。
技術實現(xiàn)要素:
本發(fā)明提供了一種日志數(shù)據(jù)的審計方法和審計裝置以解決現(xiàn)有技術中審計處理過程中審計系統(tǒng)的日志采集裝置直接將采集的日志數(shù)據(jù)存儲到關系數(shù)據(jù)庫中,影響日志數(shù)據(jù)的查詢速度和審計效率的技術問題。
為了達到上述目的,本發(fā)明的技術方案是這樣實現(xiàn)的:
根據(jù)本發(fā)明的一個方面,提供了一種日志數(shù)據(jù)的審計方法,該方法包括:
獲取采集的原始日志數(shù)據(jù)經(jīng)預處理后得到的預處理日志數(shù)據(jù),并保存到分布式存儲平臺的各個子節(jié)點中;
對所述分布式存儲平臺的各個子節(jié)點中保存的預處理日志數(shù)據(jù)進行分布式標準化處理,得到標準化日志數(shù)據(jù)并保存在相應的原子節(jié)點中;
對所述分布式存儲平臺的各個子節(jié)點中保存的標準化日志數(shù)據(jù)進行分析處理,得到審計結(jié)果;
將所述審計結(jié)果發(fā)送到關系數(shù)據(jù)庫中保存。
可選地,所述對分布式存儲平臺的各個子節(jié)點中保存的預處理日志數(shù)據(jù)進行分布式標準化處理包括:
從所述分布式存儲平臺中的主控制節(jié)點獲取標準化組件到各個子節(jié)點;
由每個子節(jié)點利用所述標準化組件完成所在節(jié)點的預處理日志數(shù)據(jù)的標準化處理,得到標準化日志數(shù)據(jù)。
可選地,所述對分布式存儲平臺的各個子節(jié)點中保存的標準化日志數(shù)據(jù)進行分析處理,得到審計結(jié)果包括:
根據(jù)預定的篩選規(guī)則,對分布式存儲平臺的各個子節(jié)點中保存的標準化日志數(shù)據(jù)進行篩選得到待審計日志數(shù)據(jù),對所述待審計日志數(shù)據(jù)進行分布式分析處理,得到審計結(jié)果。
可選地,所述對所述待審計日志數(shù)據(jù)進行分布式分析處理包括:
從所述分布式存儲平臺中的主控制節(jié)點獲取分析組件到各個子節(jié)點;
由每個子節(jié)點進行待審計日志數(shù)據(jù)的統(tǒng)計分析、關鍵字分析和關聯(lián)分析處理。
可選地,所述獲取采集的原始日志數(shù)據(jù)經(jīng)預處理后得到的預處理日志數(shù)據(jù),并保存到分布式存儲平臺的各個子節(jié)點中包括:
獲取采集的原始日志數(shù)據(jù)按照預定業(yè)務規(guī)則進行過濾、清洗、轉(zhuǎn)換預處理后的預處理日志數(shù)據(jù);
將所述預處理日志數(shù)據(jù)以日志文件的形式保存到所述分布式存儲平臺的各個子節(jié)點中,每個所述日志文件中還包括根據(jù)預處理日志數(shù)據(jù)的業(yè)務特性而建立的索引文件。
可選地,所述獲取采集的原始日志數(shù)據(jù)經(jīng)預處理后得到的預處理日志數(shù)據(jù),并保存到分布式存儲平臺的各個子節(jié)點中還包括:
所述分布式存儲平臺的各個子節(jié)點采用緩存技術,將使用頻次高的預處理日志數(shù)據(jù)按日志估算量進行緩存。
根據(jù)本發(fā)明的另一個方面,還提供了一種日志數(shù)據(jù)的審計裝置,該日志數(shù)據(jù)的審計裝置包括:
日志獲取模塊,用于獲取采集的原始日志數(shù)據(jù)經(jīng)預處理后得到的預處理日志數(shù)據(jù),并保存到分布式存儲平臺的各個子節(jié)點中;
標準化模塊,用于對所述分布式存儲平臺的各個子節(jié)點中保存的預處理日志數(shù)據(jù)進行分布式標準化處理,得到標準化日志數(shù)據(jù)并保存在相應的原子節(jié)點中;
審計分析模塊,用于對所述分布式存儲平臺的各個子節(jié)點中保存的標準化日志數(shù)據(jù)進行分析處理,得到審計結(jié)果;
結(jié)果模塊,用于將所述審計結(jié)果發(fā)送到關系數(shù)據(jù)庫中保存。
可選地,所述標準化模塊,具體用于從所述分布式存儲平臺中的主控制節(jié)點獲取標準化組件到各個子節(jié)點;由每個子節(jié)點利用所述標準化組件完成所在節(jié)點的預處理日志數(shù)據(jù)的標準化處理,得到標準化日志數(shù)據(jù)。
可選地,所述審計分析模塊,具體用于根據(jù)預定的篩選規(guī)則,對分布式存儲平臺的各個子節(jié)點中保存的標準化日志數(shù)據(jù)進行篩選得到待審計日志數(shù)據(jù),對所述待審計日志數(shù)據(jù)進行分布式分析處理,得到審計結(jié)果。
可選地,所述審計分析模塊,還用于從所述分布式存儲平臺中的主控制 節(jié)點獲取分析組件到各個子節(jié)點;由每個子節(jié)點進行待審計日志數(shù)據(jù)的統(tǒng)計分析、關鍵字分析和關聯(lián)分析處理。
本發(fā)明的有益效果是:本發(fā)明的日志數(shù)據(jù)的審計方法和審計裝置,通過獲取采集的原始日志數(shù)據(jù)預處理后的預處理日志數(shù)據(jù),并將預處理日志數(shù)據(jù)保存到分布式存儲平臺個子節(jié)點中,在該分布式存儲平臺的子節(jié)點中進行預處理日志數(shù)據(jù)的標準化處理,得到標準化日志數(shù)據(jù);對得到的標準化日志數(shù)據(jù)根據(jù)篩選規(guī)則,確定待審計數(shù)據(jù),并對待審計數(shù)據(jù)進行分析處理和數(shù)據(jù)挖掘,體現(xiàn)日志數(shù)據(jù)的審計業(yè)務價值。本發(fā)明的技術方案逐步實現(xiàn)了審計日志存儲分布化與分析處理分布化的效果,利用分布式存儲子節(jié)點的計算能力提升審計性能和效率,在將審計結(jié)果保存在關系數(shù)據(jù)庫的基礎上,實現(xiàn)日志數(shù)據(jù)和審計結(jié)果的快速查詢檢索。
附圖說明
圖1是本發(fā)明一個實施例的一種日志數(shù)據(jù)的審計方法的流程圖;
圖2是本發(fā)明一個實施例的一種日志數(shù)據(jù)的審計流程圖;
圖3是本發(fā)明一個實施例的預處理日志數(shù)據(jù)標準化的示意圖;
圖4是本發(fā)明一個實施例的標準化日志數(shù)據(jù)分析的示意圖;
圖5是本發(fā)明一個實施例的一種日志數(shù)據(jù)的審計裝置的框圖。
具體實施方式
本發(fā)明的核心思想是:針對現(xiàn)有技術中審計系統(tǒng)的日志采集裝置直接將采集到的越來越龐大的日志數(shù)據(jù)存儲在本地關系數(shù)據(jù)庫中,而本地關系數(shù)據(jù)庫往往存儲大量數(shù)據(jù),嚴重影響了日志數(shù)據(jù)查詢速度和審計效率的問題,提供了一種日志數(shù)據(jù)的審計方法和審計裝置。本發(fā)明的技術方案主要是將現(xiàn)有的日志數(shù)據(jù)存儲在關系數(shù)據(jù)庫中的方式轉(zhuǎn)變?yōu)閿?shù)據(jù)庫存儲和文件存儲相結(jié)合的存儲方式;其中,數(shù)據(jù)庫中存儲審計結(jié)果數(shù)據(jù),而原始日志數(shù)據(jù)、標準化日志數(shù)據(jù)以及待審計日志數(shù)據(jù)以文件的形式存儲在分布式存儲平臺的各子節(jié)點上,利用分布式存儲平臺中的各個子節(jié)點來完成日志數(shù)據(jù)的標準化和分析 處理,將原有的單節(jié)點處理能力提升為集群處理能力,從而提升審計性能和效率。
圖1是本發(fā)明一個實施例的一種日志數(shù)據(jù)的審計方法的流程圖,參見圖1,日志數(shù)據(jù)的審計方法包括:
步驟S11,獲取采集的原始日志數(shù)據(jù)經(jīng)預處理后得到的預處理日志數(shù)據(jù),并保存到分布式存儲平臺的各個子節(jié)點中;
步驟S12,對所述分布式存儲平臺的各個子節(jié)點中保存的預處理日志數(shù)據(jù)進行分布式標準化處理,得到標準化日志數(shù)據(jù)并保存在相應的原子節(jié)點中;
步驟S13,對所述分布式存儲平臺的各個子節(jié)點中保存的標準化日志數(shù)據(jù)進行分析處理,得到審計結(jié)果;
步驟S14,將所述審計結(jié)果發(fā)送到關系數(shù)據(jù)庫中保存。
經(jīng)過圖1所示的步驟,本發(fā)明的這種日志數(shù)據(jù)的審計方法通過獲取采集的原始的日志數(shù)據(jù)經(jīng)預處理后得到的預處理日志數(shù)據(jù),并保存到分布式存儲平臺的各個子節(jié)點中,實現(xiàn)了日志數(shù)據(jù)的分布式存儲,這樣在后續(xù)對預處理日志數(shù)據(jù)進行標準化以及審計分析處理時都可以在各個子節(jié)點之間并行處理完成,實現(xiàn)了分布式并行計算,將原有的單節(jié)點計算能力提升為集群計算能力,增強處理能力的同時,避免了單節(jié)點處理過程中出現(xiàn)丟包、阻塞、過度延時等問題,提升了審計性能和審計效率。另外,將大數(shù)據(jù)的日志分散存儲在各個子節(jié)點上,實現(xiàn)了磁盤I/O分流以及計算分擔。并且,將預處理日志數(shù)據(jù)分布式存儲,實現(xiàn)了系統(tǒng)計算資源和內(nèi)存資源的最大化利用。
在本發(fā)明的一個實施例中,對分布式存儲平臺的各個子節(jié)點中保存的預處理日志數(shù)據(jù)進行分布式標準化處理包括:
從分布式存儲平臺中的主控制節(jié)點獲取標準化組件到各個子節(jié)點;
由每個子節(jié)點利用標準化組件完成所在節(jié)點的預處理日志數(shù)據(jù)的標準化處理,得到標準化日志數(shù)據(jù)。
其中,標準化組件是子節(jié)點從主控節(jié)點獲取的,標準化組件包括了如何 對預處理后的日志數(shù)據(jù)進行標準化處理的處理規(guī)則,具體的處理規(guī)則可以根據(jù)需要進行設定,并且審計過程中的標準化過程是現(xiàn)有技術,可以采用現(xiàn)有的技術手段實現(xiàn),對此不作限制。本發(fā)明實施例是將標準化的處理過程進行分布式,以提升審計的效率和性能。
圖2是本發(fā)明一個實施例的一種日志數(shù)據(jù)的審計流程圖,參見圖2,本實施例中,對日志數(shù)據(jù)的審計過程如下:
步驟S21,采集原始日志數(shù)據(jù);
系統(tǒng)中的安全審計是建立在采集的原始日志數(shù)據(jù)的基礎上,因而,審計的前提是采集得到原始日志數(shù)據(jù);
步驟S22,過濾、清洗、轉(zhuǎn)換;
采集得到原始日志數(shù)據(jù)后,對原始日志數(shù)據(jù)進行預處理,這里預處理主要包括:過濾、清洗和轉(zhuǎn)換??梢岳斫?,數(shù)據(jù)的過濾和/或清洗和/或轉(zhuǎn)換時預處理步驟是根據(jù)采集到的原始日志數(shù)據(jù)的狀態(tài),采取具體的數(shù)據(jù)預處理方式,例如利用采集器按照實際業(yè)務規(guī)則,對異常數(shù)據(jù)進行清洗;或者,對數(shù)據(jù)結(jié)構(gòu)異常的數(shù)據(jù)識別與篩選、再次加工(即數(shù)據(jù)轉(zhuǎn)換)、或者,基于業(yè)務規(guī)則的數(shù)據(jù)質(zhì)量稽核與判定;其中,實際業(yè)務規(guī)則是日志數(shù)據(jù)的來源以及業(yè)務特性。例如采集器在采集堡壘主機的回顯日志數(shù)據(jù)時,配置回顯日志的規(guī)則對堡壘主機的回顯日志進行過濾,滿足規(guī)則的日志均被過濾掉。需要說明的是,這里預處理過程和現(xiàn)有技術中的將日志數(shù)據(jù)保存到本地關系數(shù)據(jù)庫中的預處理過程相同,并且預處理過程為現(xiàn)有技術,可以采用現(xiàn)有技術手段來實現(xiàn),在此不再贅述。
步驟S23,裝載、壓縮入云存儲;
數(shù)據(jù)通過清洗和轉(zhuǎn)換等預處理后,形成預處理日志數(shù)據(jù),將預處理日志數(shù)據(jù)按照一定的壓縮規(guī)則裝載到分布式存儲平臺的各子節(jié)點中,這里的入云存儲的含義即,將預處理日志數(shù)據(jù)保存到分布式存儲平臺的各子節(jié)點中。數(shù)據(jù)的裝載方式可以是不間斷裝載,系統(tǒng)出現(xiàn)峰值時的數(shù)據(jù)裝載,數(shù)據(jù)漏傳后的補采裝載,數(shù)據(jù)處理異常后的重新裝載,數(shù)據(jù)結(jié)構(gòu)發(fā)生變化后的重新裝載。
步驟S24,標準化處理;
預處理日志數(shù)據(jù)保存到分布式存儲平臺的各子節(jié)點中后,將保存在各個子節(jié)點中的預處理日志數(shù)據(jù)進行分布式標準化處理,即標準化處理過程的云化。
步驟S25,再次存儲;
預處理日志數(shù)據(jù)經(jīng)過標準化后,得到標準化日志數(shù)據(jù),將新得到的標準化日志數(shù)據(jù)壓縮形成日志文件,并在日志文件中根據(jù)日志的業(yè)務特性建立索引文件,將日志文件和索引文件裝載到對應的原子節(jié)點中;這里的日志文件是將復雜的單條同類日志數(shù)據(jù)集合成一個大文件的形式進行存儲,以方便后續(xù)的日志標準化處理和分析處理。
具體的日志數(shù)據(jù)都會以不同名字命名的日志文件形式分布到分布式存儲平臺的各子節(jié)點。日志明細數(shù)據(jù)將以日志文件的形式存儲,對日志文件的審計分析結(jié)果數(shù)據(jù)存儲在關系數(shù)據(jù)庫里。
步驟S26,分析;
根據(jù)篩選規(guī)則對標準化完成的標準化日志數(shù)據(jù)進行篩選,經(jīng)過篩選后得到待審計數(shù)據(jù),對待審計日志數(shù)據(jù)進行分布式分析處理。
步驟S27,審計結(jié)果展現(xiàn);
根據(jù)待審計日志數(shù)據(jù)的分析處理形成結(jié)果數(shù)據(jù),利用結(jié)果數(shù)據(jù)展現(xiàn)告警信息,并對影響系統(tǒng)安全的關鍵數(shù)據(jù)進行記錄,將審計結(jié)果存儲到本地關系數(shù)據(jù)庫中。具體的如何展現(xiàn)審計結(jié)果可以根據(jù)實際應用場景進行調(diào)整和選擇,對此不作限制。
在本發(fā)明的一個實施例中,對分布式存儲平臺的各個子節(jié)點中保存的預處理日志數(shù)據(jù)進行分布式標準化處理包括:從分布式存儲平臺中的主控制節(jié)點獲取標準化組件到各個子節(jié)點;由每個子節(jié)點利用標準化組件完成所在節(jié)點的預處理日志數(shù)據(jù)的標準化處理,得到標準化日志數(shù)據(jù)。
圖3是本發(fā)明一個實施例的預處理日志數(shù)據(jù)標準化的示意圖。參見圖3,本發(fā)明的這種日志數(shù)據(jù)的審計方法在對預處理日志數(shù)據(jù)進行標準化時,分布 式存儲平臺中設置有一個主控制節(jié)點和三個子節(jié)點,三個子節(jié)點分別是子節(jié)點1、子節(jié)點2和子節(jié)點3,每個子節(jié)點上都保存有預處理日志數(shù)據(jù)。其中,主控制節(jié)點還有一個備份控制節(jié)點,備份控制節(jié)點對主控制節(jié)點中的數(shù)據(jù)進行備份,當主控制節(jié)點發(fā)生故障時,可以由備份控制節(jié)點完成原主控制節(jié)點的功能,提高分布式存儲平臺的穩(wěn)定性和安全性。
基于預處理日志數(shù)據(jù)分布式存儲這一前提,在對預處理日志數(shù)據(jù)標準化時,從分布式存儲平臺中的主控制節(jié)點獲取標準化組件到各個子節(jié)點,由每個子節(jié)點完成所在節(jié)點預處理日志數(shù)據(jù)的標準化處理,最終將標準化的結(jié)果(即標準化日志數(shù)據(jù))保存在對應的原子節(jié)點中。例如,子節(jié)點1利用從主控制節(jié)點中獲取到的標準化組件,對保存在子節(jié)點1上的預處理日志數(shù)據(jù)進行標準化,并將標準化后的結(jié)果即標準化日志數(shù)據(jù)保存在子節(jié)點1中。子節(jié)點2利用從主控制節(jié)點中獲取到的標準化組件,對保存在子節(jié)點2上的預處理日志數(shù)據(jù)進行標準化,并將標準化后的結(jié)果即標準化日志數(shù)據(jù)保存在子節(jié)點2中。同樣地,子節(jié)點3的工作和子節(jié)點1與2的標準化處理相同,在此不再贅述。通過上述說明可知,本發(fā)明的這種日志數(shù)據(jù)的審計方法通過各個子節(jié)點并發(fā)處理,避免了單節(jié)點處理過程中出現(xiàn)的丟包、阻塞、過度延時等問題,提高了日志數(shù)據(jù)標準化的性能。
在本發(fā)明的一個實施例中,對分布式存儲平臺的各個子節(jié)點中保存的標準化日志數(shù)據(jù)進行分析處理,得到審計結(jié)果包括:根據(jù)預定的篩選規(guī)則,對分布式存儲平臺的各個子節(jié)點中保存的標準化日志數(shù)據(jù)進行篩選得到待審計日志數(shù)據(jù),對所述待審計日志數(shù)據(jù)進行分布式分析處理,得到審計結(jié)果。
在本發(fā)明的一個實施例中,對所述待審計日志數(shù)據(jù)進行分布式分析處理包括:從分布式存儲平臺中的主控制節(jié)點獲取分析組件到各個子節(jié)點;由每個子節(jié)點進行待審計日志數(shù)據(jù)的統(tǒng)計分析、關鍵字分析和關聯(lián)分析處理。
圖4是本發(fā)明一個實施例的標準化日志數(shù)據(jù)分析的示意圖,參見圖4,標準化日志數(shù)據(jù)分析也是通過分布式存儲平臺上的子節(jié)點來完成的。
具體的,分布式存儲平臺中設置有一個主控制節(jié)點和三個子節(jié)點,三個 子節(jié)點分別是子節(jié)點1、子節(jié)點2和子節(jié)點3,每個子節(jié)點上都保存有經(jīng)過標準化處理后得到的標準化日志數(shù)據(jù)。其中,主控制節(jié)點還有一個備份控制節(jié)點,對主控制節(jié)點中的數(shù)據(jù)進行備份,這樣當主控制節(jié)點發(fā)生故障時,可以由備份控制節(jié)點完成原主控制節(jié)點的工作,提高分布式存儲平臺的穩(wěn)定性和安全性。
在本實施例中,具體審計分析時先對3個子節(jié)點中的標準化日志數(shù)據(jù)按照篩選規(guī)則進行篩選,得到待審計日志數(shù)據(jù),然后對這些待審計日志數(shù)據(jù)進行分析處理,這樣可以減少計算量,提高審計效率。也就是說,待審計日志數(shù)據(jù)是在標準化日志數(shù)據(jù)的基礎上根據(jù)篩選規(guī)則篩選出來的,待審計日志數(shù)據(jù)是標準化日志數(shù)據(jù)的一個子集。這里的篩選規(guī)則可以根據(jù)實際應用需要自行設定,對此不作限制。
具體對待審計日志數(shù)據(jù)進行分析是從分布式存儲平臺中的主控制節(jié)點獲取分析組件到各個子節(jié)點,由每個子節(jié)點完成所在節(jié)點待審計日志數(shù)據(jù)的分析工作,最終將分析結(jié)果(即審計結(jié)果)保存在關系數(shù)據(jù)庫中。主控制節(jié)點下發(fā)的分析組件中攜帶有分析策略,例如,分析策略為敏感操作規(guī)則,在對待審計日志數(shù)據(jù)分析的過程中如果有待審計日志數(shù)據(jù)滿足這一敏感操作規(guī)則,則進行告警,并對這一待審計日志數(shù)據(jù)中的關鍵數(shù)據(jù)進行記錄。
例如,子節(jié)點1利用從主控制節(jié)點中獲取到的分析組件,對保存在子節(jié)點1上的待審計日志數(shù)據(jù)進行分析,并將分析后的結(jié)果發(fā)送到關系數(shù)據(jù)庫中保存。子節(jié)點2從主控制節(jié)點獲取到的分析組件,對保存在子節(jié)點2上的待審計日志數(shù)據(jù)進行分析,并將分析后的結(jié)果即審計結(jié)果發(fā)送到關系數(shù)據(jù)庫中保存。同樣地,子節(jié)點3的分析工作和子節(jié)點1與2的分析工作相同,通過上述說明可知,本發(fā)明的這種對待審計日志數(shù)據(jù)的分析工作通過各個子節(jié)點并發(fā)處理,提高了日志數(shù)據(jù)分析的性能。
此外,從主控制節(jié)點獲取的分析組件中還設置有分析方式,例如,對待審計日志數(shù)據(jù)的分析包括統(tǒng)計分析、關鍵字分析和關聯(lián)分析。分析后得到審計結(jié)果,將審計結(jié)果存儲到本地關系數(shù)據(jù)庫中,基于不同類型的待審計日志 數(shù)據(jù)可以選擇采用列式或行式進行數(shù)據(jù)記錄的存儲,以適合于批量數(shù)據(jù)處理,降低I/O開銷。并且可以將分析后的審計結(jié)果數(shù)據(jù)根據(jù)關鍵字段建立對應索引信息,達到快速審計查詢的目的。
需要說明的是,上述圖3和圖4所示的分布式存儲平臺中示意性的描述了三個子節(jié)點的結(jié)構(gòu),但是在實際應用中,分布式存儲平臺中的子節(jié)點的數(shù)量不限于本實施例中的三個,而往往包括更多的子節(jié)點。
在本發(fā)明的一個實施例中,分布式存儲平臺中的子節(jié)點同時采用分布式緩存技術,將部分使用頻次高的預處理日志數(shù)據(jù)按日志估算量進行緩存(即將經(jīng)常使用的日志緩存起來)。這樣可以快速響應請求、降低計算開銷,提高處理性能。并且,分布式存儲平臺采用Hadoop分布式文件系統(tǒng)(HDFS)的可靠數(shù)據(jù)存儲服務,以及利用一種叫做MapReduce技術的高性能并行數(shù)據(jù)處理服務提供高吞吐量的數(shù)據(jù)訪問,實現(xiàn)對結(jié)構(gòu)化和復雜數(shù)據(jù)的快速、可靠分析,實現(xiàn)日志數(shù)據(jù)的存儲云化和處理云化,并且將原始日志數(shù)據(jù)、標準化日志數(shù)據(jù)、待審計日志數(shù)據(jù)由現(xiàn)有技術中的數(shù)據(jù)庫存儲方式改為數(shù)據(jù)庫存儲和文件存儲相配合的方式(日志明細數(shù)據(jù)存儲在分布式文件系統(tǒng)(即分布式存儲平臺)中,審計分析結(jié)果數(shù)據(jù)存儲在本地關系數(shù)據(jù)庫里)。
與上述一種日志數(shù)據(jù)的審計方法相對應的,本發(fā)明還提供了一種日志數(shù)據(jù)的審計裝置,該日志數(shù)據(jù)的審計裝置50包括:
日志獲取模塊51,用于獲取采集的原始日志數(shù)據(jù)經(jīng)預處理后得到的預處理日志數(shù)據(jù),并保存到分布式存儲平臺的各個子節(jié)點中;
標準化模塊52,用于對所述分布式存儲平臺的各個子節(jié)點中保存的預處理日志數(shù)據(jù)進行分布式標準化處理,得到標準化日志數(shù)據(jù)并保存在相應的原子節(jié)點中;
審計分析模塊53,用于對所述分布式存儲平臺的各個子節(jié)點中保存的標準化日志數(shù)據(jù)進行分析處理,得到審計結(jié)果;
結(jié)果模塊54,用于將所述審計結(jié)果發(fā)送到關系數(shù)據(jù)庫中保存。
在本發(fā)明的一個實施例中,標準化模塊52,具體用于從分布式存儲平臺中的主控制節(jié)點獲取標準化組件到各個子節(jié)點;由每個子節(jié)點利用標準化組件完成所在節(jié)點的預處理日志數(shù)據(jù)的標準化處理,得到標準化日志數(shù)據(jù)。
在本發(fā)明的一個實施例中,審計分析模塊53,具體用于根據(jù)預定的篩選規(guī)則,對分布式存儲平臺的各個子節(jié)點中保存的標準化日志數(shù)據(jù)進行篩選得到待審計日志數(shù)據(jù),對待審計日志數(shù)據(jù)進行分布式分析處理,得到審計結(jié)果。
在本發(fā)明的一個實施例中,審計分析模塊53,還用于從分布式存儲平臺中的主控制節(jié)點獲取分析組件到各個子節(jié)點;由每個子節(jié)點進行待審計日志數(shù)據(jù)的統(tǒng)計分析、關鍵字分析和關聯(lián)分析處理。
在本發(fā)明的一個實施例中,日志獲取模塊51,還用于獲取采集的原始日志數(shù)據(jù)按照預定業(yè)務規(guī)則進行過濾和/或清洗和/或轉(zhuǎn)換預處理后的預處理日志數(shù)據(jù);將預處理日志數(shù)據(jù)以日志文件的形式保存到分布式存儲平臺的各個子節(jié)點中,每個日志文件中還包括根據(jù)預處理日志數(shù)據(jù)的業(yè)務特性而建立的索引文件。這里的日志文件是指將復雜的單條同類日志數(shù)據(jù)集合成一個大文件,以大文件的形式進行存儲,便于后續(xù)的日志標準化處理和分析處理。日志數(shù)據(jù)都會以日志文件的形式不同名字命名分布到分布式存儲平臺的各子節(jié)點。其中,日志明細數(shù)據(jù)將以日志文件的形式存儲,審計分析結(jié)果數(shù)據(jù)將被存儲在關系數(shù)據(jù)庫里面。
在本發(fā)明的一個實施例中,日志獲取模塊51,還用于在分布式存儲平臺的各個子節(jié)點中采用緩存技術,將使用頻次高的預處理日志數(shù)據(jù)按日志估算量進行緩存,方便后續(xù)的對日志數(shù)據(jù)審計過程中取用數(shù)據(jù),節(jié)省了數(shù)據(jù)查詢和獲取的時間。
需要說明的是,本發(fā)明實施例的這種日志數(shù)據(jù)的審計裝置是和前述的日志數(shù)據(jù)的審計方法相對應的,因而本實施例中日志數(shù)據(jù)的審計裝置的工作過程可以參見上述日志數(shù)據(jù)的審計方法部分的相關具體說明,在此不再贅述。
綜上所述,本發(fā)明的這種日志數(shù)據(jù)的審計方法和審計裝置通過獲取采集的原始日志數(shù)據(jù)預處理后的預處理日志數(shù)據(jù),并將預處理日志數(shù)據(jù)保存到分 布式存儲平臺個子節(jié)點中,在該分布式存儲平臺的子節(jié)點中進行預處理日志數(shù)據(jù)的標準化處理,得到標準化日志數(shù)據(jù);對得到的標準化日志數(shù)據(jù)進行審計分析和數(shù)據(jù)挖掘,體現(xiàn)日志數(shù)據(jù)的審計業(yè)務價值。
本發(fā)明的技術方案的有益效果總結(jié)如下:
1、日志數(shù)據(jù)存儲分布化,將大數(shù)據(jù)的日志分散存儲在分布式存儲平臺的各個子節(jié)點上,實現(xiàn)磁盤I/O分流和計算分擔;同時采用分布式緩存技術,將部分使用頻次高的日志按日志估算量進行緩存。
2、日志數(shù)據(jù)分析處理分布化,將日志數(shù)據(jù)分析處理功能進行云化,實現(xiàn)分布式并行計算,將原有的單節(jié)點計算能力提升為集群計算能力,增強處理能力的同時,還能夠防止單節(jié)點處理過程中出現(xiàn)的丟包、阻塞、過度延時等現(xiàn)象的發(fā)生。
3、分布式存儲平臺采用Hadoop分布式文件系統(tǒng)(HDFS)的可靠數(shù)據(jù)存儲服務,以及MapReduce技術的高性能并行數(shù)據(jù)處理服務提供高吞吐量的數(shù)據(jù)訪問,提供一個使對結(jié)構(gòu)化和復雜數(shù)據(jù)的快速、可靠分析變?yōu)楝F(xiàn)實的基礎,實現(xiàn)日志數(shù)據(jù)的存儲云化(即分布化)和處理云化(即分布化),通過分布化的方式實現(xiàn)日志標準化及分析,實現(xiàn)計算資源和內(nèi)存資源最大化利用,提升審計性能。
4、將原始日志數(shù)據(jù)、標準化日志數(shù)據(jù)、待審計日志數(shù)據(jù)由現(xiàn)有的數(shù)據(jù)庫存儲方式轉(zhuǎn)變?yōu)閿?shù)據(jù)庫存儲和文件存儲配合的方式,提升審計效率,達到快速靈活查詢的效果。
5、本發(fā)明的在這種日志數(shù)據(jù)的審計方案保留關系數(shù)據(jù)庫,審計結(jié)果數(shù)據(jù)保存在本地關系數(shù)據(jù)庫中。由于安全審計涉及業(yè)務關系復雜,需要各種數(shù)據(jù)參照做關聯(lián)性分析,因而保留關系數(shù)據(jù)庫,可以發(fā)揮關系數(shù)據(jù)庫在處理數(shù)據(jù)關聯(lián)和數(shù)據(jù)整合方面的優(yōu)勢,提升審計價值。
以上所述僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進等,均包含在本發(fā)明的保護范圍內(nèi)。