一種基于分布式的海量日志采集系統(tǒng)的制作方法

文檔序號(hào)：6551224閱讀：927來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于分布式的海量日志采集系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開(kāi)了一種基于分布式的海量日志采集系統(tǒng)，該系統(tǒng)包括數(shù)據(jù)源層、分布式緩存層、分布式存儲(chǔ)與計(jì)算層、業(yè)務(wù)處理層、可視化展示層和統(tǒng)一調(diào)度與管理模塊。通過(guò)本發(fā)明能夠有效應(yīng)對(duì)日志采集與高速入庫(kù)的問(wèn)題，同時(shí)，使用分布式存儲(chǔ)與搜索引擎技術(shù)，加快查找與檢索的速度，從而實(shí)現(xiàn)了高速、準(zhǔn)確、可靠地對(duì)海量日志進(jìn)行采集與分析。
【專利說(shuō)明】一種基于分布式的海量日志采集系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)【技術(shù)領(lǐng)域】，尤其涉及一種基于分布式的海量日志采集系統(tǒng)。
【背景技術(shù)】
[0002]隨著云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的崛起與發(fā)展，大數(shù)據(jù)的時(shí)代已經(jīng)來(lái)臨。對(duì)大數(shù)據(jù)業(yè)務(wù)系統(tǒng)進(jìn)行日志采集與分析，是評(píng)價(jià)節(jié)點(diǎn)主機(jī)健康度、對(duì)系統(tǒng)出現(xiàn)的問(wèn)題進(jìn)行分析、展示各類報(bào)表的依據(jù)所在。
[0003]開(kāi)源的海量日志解決方案有很多，例如FaceBook的Scribe、Apache的Chukwa> LinkedIn的Kafka、Cloudera的Flume等，也有綜合的解決方案，例如Kibana+Elasticsearch+LogStash、LogAnalyzer+MySQL+RSyslog> Splunk0 這些角軍決方案，他們都具備三個(gè)基本組件，分別為agent、collector和store,其中agent封裝數(shù)據(jù)源,將數(shù)據(jù)源中的數(shù)據(jù)發(fā)送給collector，collector接收多個(gè)agent的數(shù)據(jù)，并進(jìn)行匯總后導(dǎo)入后端的store中，store為中央存儲(chǔ)系統(tǒng)，應(yīng)該具有可擴(kuò)展性和可靠性，應(yīng)該支持當(dāng)前非常流行的HDFS。agent必須安裝部署在進(jìn)行日志采集的主機(jī)上面，還要配置相關(guān)參數(shù)以確定collector所在主機(jī)的位置。但是該方法中服務(wù)器端的安裝部署比較麻煩，大部分都需要使用源代碼進(jìn)行編譯安裝，而且，開(kāi)源的軟件基本是國(guó)外的軟件，由于中國(guó)大陸對(duì)國(guó)外大部分網(wǎng)站的封鎖以及國(guó)外某些網(wǎng)站對(duì)中國(guó)的封鎖，因此，有可能下載依賴軟件的時(shí)候，會(huì)出現(xiàn)拒絕連接的問(wèn)題。
[0004]Storm是一個(gè)實(shí)時(shí)流計(jì)算框架，可以以近實(shí)時(shí)的速度對(duì)輸入源進(jìn)行處理，然后輸出。Storm具有如下的特性:
[0005]易于擴(kuò)展。Storm使用Zookeeper進(jìn)行集群協(xié)調(diào),這樣可以充分保證大型集群的良好運(yùn)行。
[0006]每條消息的處理都可以得到保證。
[0007]Storm集群管理簡(jiǎn)易。
[0008]Storm的容錯(cuò)機(jī)能很好。一旦Topology遞交,Storm會(huì)一直運(yùn)行它直到Topology被廢除或者被關(guān)閉。而在執(zhí)行中出現(xiàn)錯(cuò)誤時(shí)，也會(huì)由Storm重新分配任務(wù)。
[0009]—般使用Java,但是Storm中的Topology可以用任何語(yǔ)言設(shè)計(jì)。
[0010]但是Storm的Topology的業(yè)務(wù)邏輯,需要自己寫代碼實(shí)現(xiàn)，一定要在Spout中指定數(shù)據(jù)來(lái)源。

【發(fā)明內(nèi)容】

[0011]本發(fā)明為了解決現(xiàn)有技術(shù)中的不足和缺陷，提出一種基于分布式的海量日志采集系統(tǒng)，可以有效應(yīng)對(duì)日志采集與高速入庫(kù)的問(wèn)題，同時(shí)，使用分布式存儲(chǔ)與搜索引擎技術(shù)，加快查找與檢索的速度，從而實(shí)現(xiàn)了高速、準(zhǔn)確、可靠地對(duì)海量日志進(jìn)行采集與分析。
[0012]一種基于分布式的海量日志采集系統(tǒng)，其通過(guò)在目標(biāo)主機(jī)上安裝Agent進(jìn)程，對(duì)目標(biāo)主機(jī)的文本、應(yīng)用程序、數(shù)據(jù)庫(kù)等日志信息進(jìn)行有選擇地定向推送到服務(wù)器集群的統(tǒng)一訪問(wèn)接口，服務(wù)器端采用了分布式緩存與實(shí)時(shí)流處理框架技術(shù)；該系統(tǒng)包括數(shù)據(jù)源層、分布式緩存層、分布式存儲(chǔ)與計(jì)算層、業(yè)務(wù)處理層、可視化展示層和統(tǒng)一調(diào)度與管理模塊。
[0013]數(shù)據(jù)源層，由數(shù)據(jù)采集組件(生產(chǎn)者)模塊對(duì)各個(gè)節(jié)點(diǎn)上面的文本、應(yīng)用程序、數(shù)據(jù)庫(kù)等進(jìn)行采集，推送到分布式緩存層。
[0014]分布式緩存層，由LVS對(duì)各個(gè)節(jié)點(diǎn)的消息隊(duì)列組件進(jìn)行負(fù)載均衡，提供一個(gè)統(tǒng)一的接口來(lái)接收并寫入數(shù)據(jù)源節(jié)點(diǎn)推送過(guò)來(lái)的數(shù)據(jù)，等待分布式存儲(chǔ)與計(jì)算層的數(shù)據(jù)采集組件(消費(fèi)者)來(lái)讀取。
[0015]分布式存儲(chǔ)與計(jì)算層，提供存儲(chǔ)與計(jì)算的功能，包括數(shù)據(jù)采集組件(消費(fèi)者)模塊、離線計(jì)算模塊、實(shí)時(shí)計(jì)算模塊、分布式存儲(chǔ)和搜索引擎；其中，數(shù)據(jù)采集組件(消費(fèi)者)模塊負(fù)責(zé)對(duì)分布式緩存層進(jìn)行數(shù)據(jù)讀??；離線計(jì)算模塊由Hadoop及其生態(tài)系統(tǒng)組成；實(shí)時(shí)計(jì)算模塊由Storm組成。
[0016]業(yè)務(wù)處理層，提供統(tǒng)計(jì)分析和數(shù)據(jù)挖掘的功能與服務(wù)，由上層進(jìn)行調(diào)用。
[0017]可視化展示層，提供普通查詢、全文檢索、報(bào)表展示、導(dǎo)入導(dǎo)出等功能。
[0018]統(tǒng)一調(diào)度與管理模塊，對(duì)上述5層進(jìn)行統(tǒng)一的調(diào)度與管理，基于工作流，自動(dòng)化處理。
[0019]本發(fā)明技術(shù)方案帶來(lái)的有益效果:
[0020]1、由于使用了 Storm實(shí)時(shí)流處理框架技術(shù)，因此,可以近實(shí)時(shí)地對(duì)Kafka分布式緩存中的消息進(jìn)行處理并分類。
[0021]2、推送日志與讀取日志是異步進(jìn)行的，可以不用感知相互的存在，只需要往分布式消息隊(duì)列Kafka里面寫入或者讀取即可。
[0022]3、每分鐘可以處理100萬(wàn)條記錄，可以有效應(yīng)對(duì)大數(shù)據(jù)數(shù)據(jù)采集的問(wèn)題，產(chǎn)生經(jīng)濟(jì)效益。
[0023]4、系統(tǒng)具有高可靠性，保證每條記錄被處理。
【專利附圖】

【附圖說(shuō)明】
[0024]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見(jiàn)地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其它的附圖。
[0025]圖1是本發(fā)明中分布式數(shù)據(jù)采集系統(tǒng)的系統(tǒng)架構(gòu)圖；
[0026]圖2是本發(fā)明中數(shù)據(jù)采集子系統(tǒng)的組成架構(gòu)圖。
【具體實(shí)施方式】
[0027]下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。
[0028]本文提出了一種基于分布式的海量日志采集系統(tǒng)，通過(guò)在目標(biāo)主機(jī)上安裝Agent進(jìn)程，對(duì)目標(biāo)主機(jī)的文本、應(yīng)用程序、數(shù)據(jù)庫(kù)等日志信息進(jìn)行有選擇地定向推送到服務(wù)器集群的統(tǒng)一訪問(wèn)接口，服務(wù)器端采用了分布式緩存與實(shí)時(shí)流處理框架技術(shù)。通過(guò)本發(fā)明解決了現(xiàn)有技術(shù)中使用傳統(tǒng)的日志采集技術(shù)，對(duì)海量日志進(jìn)行采集的過(guò)程中會(huì)出現(xiàn)上傳速度超過(guò)采集處理入庫(kù)速度，導(dǎo)致系統(tǒng)假死或者日志記錄丟失；使用開(kāi)源的分布式日志采集組件，需要在各個(gè)節(jié)點(diǎn)安裝與配置Agent，某些Agent需要依賴很多第三方軟件，由于網(wǎng)絡(luò)等原因，無(wú)法安裝完成的缺點(diǎn)或不足，能夠有效應(yīng)對(duì)日志采集與高速入庫(kù)的問(wèn)題，同時(shí)，使用分布式存儲(chǔ)與搜索引擎技術(shù)，加快查找與檢索的速度，從而實(shí)現(xiàn)了高速、準(zhǔn)確、可靠地對(duì)海量日志進(jìn)行采集與分析。
[0029]如圖1所示為一種基于分布式的海量日志采集系統(tǒng)的系統(tǒng)架構(gòu)圖。
[0030]本系統(tǒng)包括數(shù)據(jù)源層、分布式緩存層、分布式存儲(chǔ)與計(jì)算層、業(yè)務(wù)處理層、可視化展示層和統(tǒng)一調(diào)度與管理模塊。
[0031]數(shù)據(jù)源層，由數(shù)據(jù)采集組件(生產(chǎn)者)模塊對(duì)各個(gè)節(jié)點(diǎn)上面的文本、應(yīng)用程序、數(shù)據(jù)庫(kù)等進(jìn)行采集，推送到分布式緩存層。
[0032]分布式緩存層，由LVS對(duì)各個(gè)節(jié)點(diǎn)的消息隊(duì)列組件進(jìn)行負(fù)載均衡，提供一個(gè)統(tǒng)一的接口來(lái)接收并寫入數(shù)據(jù)源節(jié)點(diǎn)推送過(guò)來(lái)的數(shù)據(jù)，等待分布式存儲(chǔ)與計(jì)算層的數(shù)據(jù)采集組件(消費(fèi)者)來(lái)讀取。
[0033]分布式存儲(chǔ)與計(jì)算層，提供存儲(chǔ)與計(jì)算的功能，包括數(shù)據(jù)采集組件(消費(fèi)者)模塊、離線計(jì)算模塊、實(shí)時(shí)計(jì)算模塊、分布式存儲(chǔ)和搜索引擎。其中，數(shù)據(jù)采集組件(消費(fèi)者)模塊負(fù)責(zé)對(duì)分布式緩存層進(jìn)行數(shù)據(jù)讀取；離線計(jì)算模塊由Hadoop及其生態(tài)系統(tǒng)組成；實(shí)時(shí)計(jì)算模塊由Storm組成。
[0034]業(yè)務(wù)處理層，提供統(tǒng)計(jì)分析和數(shù)據(jù)挖掘的功能與服務(wù)，由上層進(jìn)行調(diào)用。
[0035]可視化展示層，提供普通查詢、全文檢索、報(bào)表展示、導(dǎo)入導(dǎo)出等功能。
[0036]統(tǒng)一調(diào)度與管理模塊，對(duì)上述5層進(jìn)行統(tǒng)一的調(diào)度與管理，基于工作流，自動(dòng)化處理。
[0037]數(shù)據(jù)采集子系統(tǒng)是分布式日志采集系統(tǒng)的核心組成部分，包括數(shù)據(jù)源層、分布式緩存層、數(shù)據(jù)處理層和持久化層，其可以獨(dú)立出來(lái)成為一個(gè)新的系統(tǒng)。其中，數(shù)據(jù)源層即分布式日志采集系統(tǒng)的數(shù)據(jù)源層；分布式緩存層即分布式日志采集系統(tǒng)的分布式緩存層；數(shù)據(jù)處理層即分布式日志采集系統(tǒng)的分布式存儲(chǔ)與計(jì)算層的實(shí)時(shí)計(jì)算模塊和統(tǒng)一調(diào)度與管理模塊；持久化層即分布式日志采集系統(tǒng)的分布式存儲(chǔ)與計(jì)算層的分布式存儲(chǔ)模塊。
[0038]數(shù)據(jù)采集子系統(tǒng)的組成，如圖2所示。
[0039]數(shù)據(jù)采集子系統(tǒng)的核心，主要包括位于數(shù)據(jù)源層的數(shù)據(jù)采集組件(生產(chǎn)者)模塊、分布式緩存層與數(shù)據(jù)處理層。
[0040]數(shù)據(jù)源層，包括很多的數(shù)據(jù)節(jié)點(diǎn)主機(jī)，每個(gè)主機(jī)上都安裝了數(shù)據(jù)采集組件(生產(chǎn)者)模塊，會(huì)啟動(dòng)Agent進(jìn)程來(lái)負(fù)責(zé)接收服務(wù)端的采集指令，把本節(jié)點(diǎn)的文本、應(yīng)用程序、數(shù)據(jù)庫(kù)等數(shù)據(jù)推送到服務(wù)器集群中的統(tǒng)一訪問(wèn)接口中。
[0041]分布式緩存層，位于服務(wù)器集群里面，其主要由LVS負(fù)責(zé)把數(shù)據(jù)自動(dòng)轉(zhuǎn)發(fā)到Kafka集群中的某臺(tái)節(jié)點(diǎn)主機(jī)進(jìn)行寫入，負(fù)責(zé)對(duì)外提供統(tǒng)一訪問(wèn)接口和分布式緩存服務(wù)。其中統(tǒng)一訪問(wèn)接口包括統(tǒng)一的域名/主機(jī)名和端口。
[0042]數(shù)據(jù)處理層，主要由Storm構(gòu)成，其中Topology由I個(gè)Spout和若干個(gè)Bolt構(gòu)成。KafkaReaderSpout負(fù)責(zé)讀取Kafka集群里面的數(shù)據(jù),然后把數(shù)據(jù)傳輸給ExecutorBolt,ExecutorBolt根據(jù)業(yè)務(wù)邏輯及日志的類型，往下傳送數(shù)據(jù)到HbaseWriterBolt、HdfsffriterBolt 或者 SolrffriterBolt 中進(jìn)行持久化存儲(chǔ)。其中，HbaseWriterBolt 負(fù)責(zé)HBase的持久化存儲(chǔ)，HdfsffriterBolt負(fù)責(zé)HDFS的持久化存儲(chǔ)、SolrffriterBolt負(fù)責(zé)Solr-Cloud的持久化存儲(chǔ)。
[0043]持久化層，主要由HBase、HDFS和Solr-Cloud組成。HBase主要是鍵值對(duì)存儲(chǔ)，存儲(chǔ)原始日志、分類處理后的日志；HDFS主要存儲(chǔ)原始日志；S0lr-Cl0ud主要對(duì)HBase存儲(chǔ)的日志進(jìn)行索引，加快檢索速度，可以全文檢索。
[0044]數(shù)據(jù)采集子系統(tǒng)的工作流程:
[0045]首先，數(shù)據(jù)源的所有節(jié)點(diǎn)主機(jī)的Agent進(jìn)程會(huì)自動(dòng)推送本節(jié)點(diǎn)的文本、應(yīng)用程序、數(shù)據(jù)庫(kù)等數(shù)據(jù)到服務(wù)器集群中的統(tǒng)一訪問(wèn)接口中。
[0046]接著，統(tǒng)一訪問(wèn)接口接收到數(shù)據(jù)，由LVS自動(dòng)轉(zhuǎn)發(fā)到某個(gè)Kafka節(jié)點(diǎn)中并寫入數(shù)據(jù)，等待被讀取。
[0047]最后，由實(shí)時(shí)計(jì)算模塊Storm中的Topology進(jìn)行業(yè)務(wù)處理,其中Topology由I個(gè)Spout和若干個(gè)Bo11構(gòu)成。KafkaReaderSpout負(fù)責(zé)讀取Kafka集群中的數(shù)據(jù)，然后把數(shù)據(jù)傳輸給ExecutorBolt, ExecutorBolt根據(jù)業(yè)務(wù)邏輯及日志的類型，往下傳送數(shù)據(jù)到 HbaseWriterBolt、HdfsffriterBolt 或者 SolrWriterBolt 中進(jìn)行持久化存儲(chǔ)。其中，HbaseWriterBolt負(fù)責(zé)HBase的持久化存儲(chǔ)，HdfsffriterBolt負(fù)責(zé)HDFS的持久化存儲(chǔ)、SolrffriterBolt 負(fù)責(zé) Solr-Cloud 的持久化存儲(chǔ)。
[0048]以上對(duì)本發(fā)明實(shí)施例所提供的一種基于分布式的海量日志采集系統(tǒng)進(jìn)行了詳細(xì)介紹，本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述，以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想；同時(shí)，對(duì)于本領(lǐng)域的一般技術(shù)人員，依據(jù)本發(fā)明的思想，在【具體實(shí)施方式】及應(yīng)用范圍上均會(huì)有改變之處，綜上所述，本說(shuō)明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
【權(quán)利要求】
1.一種基于分布式的海量日志采集系統(tǒng)，其特征在于，該系統(tǒng)通過(guò)在目標(biāo)主機(jī)上安裝Agent進(jìn)程，對(duì)目標(biāo)主機(jī)的文本、應(yīng)用程序、數(shù)據(jù)庫(kù)等日志信息進(jìn)行有選擇地定向推送到服務(wù)器集群的統(tǒng)一訪問(wèn)接口，服務(wù)器端采用了分布式緩存與實(shí)時(shí)流處理框架技術(shù)；該系統(tǒng)包括數(shù)據(jù)源層、分布式緩存層、分布式存儲(chǔ)與計(jì)算層、業(yè)務(wù)處理層、可視化展示層和統(tǒng)一調(diào)度與管理模塊；數(shù)據(jù)源層，由數(shù)據(jù)采集組件(生產(chǎn)者)模塊對(duì)各個(gè)節(jié)點(diǎn)上面的文本、應(yīng)用程序、數(shù)據(jù)庫(kù)等進(jìn)行采集，推送到分布式緩存層；分布式緩存層，由LVS對(duì)各個(gè)節(jié)點(diǎn)的消息隊(duì)列組件進(jìn)行負(fù)載均衡，提供一個(gè)統(tǒng)一的接口來(lái)接收并寫入數(shù)據(jù)源節(jié)點(diǎn)推送過(guò)來(lái)的數(shù)據(jù)，等待分布式存儲(chǔ)與計(jì)算層的數(shù)據(jù)采集組件(消費(fèi)者)來(lái)讀??；分布式存儲(chǔ)與計(jì)算層，提供存儲(chǔ)與計(jì)算的功能，包括數(shù)據(jù)采集組件(消費(fèi)者)模塊、離線計(jì)算模塊、實(shí)時(shí)計(jì)算模塊、分布式存儲(chǔ)和搜索引擎；其中，數(shù)據(jù)采集組件(消費(fèi)者)模塊負(fù)責(zé)對(duì)分布式緩存層進(jìn)行數(shù)據(jù)讀?。浑x線計(jì)算模塊由Hadoop及其生態(tài)系統(tǒng)組成；實(shí)時(shí)計(jì)算模塊由Storm組成；業(yè)務(wù)處理層，提供統(tǒng)計(jì)分析和數(shù)據(jù)挖掘的功能與服務(wù)，由上層進(jìn)行調(diào)用；可視化展示層，提供普通查詢、全文檢索、報(bào)表展示、導(dǎo)入導(dǎo)出等功能；統(tǒng)一調(diào)度與管理模塊，對(duì)上述5層進(jìn)行統(tǒng)一的調(diào)度與管理，基于工作流，自動(dòng)化處理。
2.根據(jù)權(quán)利要求1所述的系統(tǒng)，其特征在于，該系統(tǒng)的數(shù)據(jù)源層、分布式緩存層、分布式存儲(chǔ)與計(jì)算層的實(shí)時(shí)計(jì)算模塊和分布式存儲(chǔ)模塊、統(tǒng)一調(diào)度與管理模塊是分布式日志采集系統(tǒng)的核心部分，即數(shù)據(jù)采集子系統(tǒng)，其包括數(shù)據(jù)源層、分布式緩存層、數(shù)據(jù)處理層和持久化層，其可以獨(dú)立出來(lái)成為一個(gè)新的系統(tǒng)；其中，數(shù)據(jù)源層即分布式日志采集系統(tǒng)的數(shù)據(jù)源層；分布式緩存層即分布式日志采集系統(tǒng)的分布式緩存層；數(shù)據(jù)處理層即分布式日志采集系統(tǒng)的分布式存儲(chǔ)與計(jì)算層的實(shí)時(shí)計(jì)算模塊和統(tǒng)一調(diào)度與管理模塊；持久化層即分布式日志采集系統(tǒng)的分布式存儲(chǔ)與計(jì)算層的分布式存儲(chǔ)模塊。
3.根據(jù)權(quán)利要求2所述的系統(tǒng)，其特征在于，數(shù)據(jù)源層，包括很多的數(shù)據(jù)節(jié)點(diǎn)主機(jī)，每個(gè)主機(jī)上都安裝了數(shù)據(jù)采集組件(生產(chǎn)者)模塊，會(huì)啟動(dòng)Agent進(jìn)程來(lái)負(fù)責(zé)接收服務(wù)端的采集指令，把本節(jié)點(diǎn)的文本、應(yīng)用程序、數(shù)據(jù)庫(kù)等數(shù)據(jù)推送到服務(wù)器集群中的統(tǒng)一訪問(wèn)接口中；分布式緩存層，位于服務(wù)器集群里面，其主要由LVS負(fù)責(zé)把數(shù)據(jù)自動(dòng)轉(zhuǎn)發(fā)到Kafka集群中的某臺(tái)節(jié)點(diǎn)主機(jī)進(jìn)行寫入，負(fù)責(zé)對(duì)外提供統(tǒng)一訪問(wèn)接口和分布式緩存服務(wù)；其中統(tǒng)一訪問(wèn)接口包括統(tǒng)一的域名/主機(jī)名和端口；數(shù)據(jù)處理層，由Storm構(gòu)成，其中Topology由I個(gè)Spout和若干個(gè)Bolt構(gòu)成。KafkaReaderSpout負(fù)責(zé)讀取Kafka集群里面的數(shù)據(jù)，然后把數(shù)據(jù)傳輸給ExecutorBolt,ExecutorBolt根據(jù)業(yè)務(wù)邏輯及日志的類型，往下傳送數(shù)據(jù)到HbaseWriterBolt、HdfsffriterBolt 或者 SolrWriterBolt 中進(jìn)行持久化存儲(chǔ)；其中，HbaseWriterBolt 負(fù)責(zé)HBase的持久化存儲(chǔ)，HdfsffriterBolt負(fù)責(zé)HDFS的持久化存儲(chǔ)、SolrffriterBolt負(fù)責(zé)Solr-Cloud的持久化存儲(chǔ)；持久化層，由HBase、HDFS和Solr-Cloud組成。HBase主要是鍵值對(duì)存儲(chǔ)，存儲(chǔ)原始日志、分類處理后的日志；HDFS主要存儲(chǔ)原始日志；Solr-Cloud主要對(duì)HBase存儲(chǔ)的日志進(jìn)行索引，加快檢索速度，可以全文檢索。
4.根據(jù)權(quán)利要求3所述的系統(tǒng)，其特征在于，數(shù)據(jù)采集子系統(tǒng)的核心，包括位于數(shù)據(jù)源層的數(shù)據(jù)采集組件(生產(chǎn)者)模塊、分布式緩存層與數(shù)據(jù)處理層。
5.根據(jù)權(quán)利要求3或4所述的系統(tǒng)，其特征在于，數(shù)據(jù)采集子系統(tǒng)的工作流程為:首先，數(shù)據(jù)源的所有節(jié)點(diǎn)主機(jī)的Agent進(jìn)程會(huì)自動(dòng)推送本節(jié)點(diǎn)的文本、應(yīng)用程序、數(shù)據(jù)庫(kù)等數(shù)據(jù)到服務(wù)器集群中的統(tǒng)一訪問(wèn)接口中；接著，統(tǒng)一訪問(wèn)接口接收到數(shù)據(jù)，由LVS自動(dòng)轉(zhuǎn)發(fā)到某個(gè)Kafka節(jié)點(diǎn)中并寫入數(shù)據(jù)，等待被讀?。? 最后，由實(shí)時(shí)計(jì)算模塊Storm中的Topology進(jìn)行業(yè)務(wù)處理，其中Topology由I個(gè)Spout和若干個(gè)Bolt構(gòu)成；KafkaReaderSpout負(fù)責(zé)讀取Kafka集群中的數(shù)據(jù)，然后把數(shù)據(jù)傳輸給ExecutorBolt, ExecutorBolt根據(jù)業(yè)務(wù)邏輯及日志的類型，往下傳送數(shù)據(jù)到 HbaseWriterBolt、HdfsffriterBolt 或者 SolrWriterBolt 中進(jìn)行持久化存儲(chǔ)；其中，HbaseWriterBolt負(fù)責(zé)HBase的持久化存儲(chǔ)，HdfsffriterBolt負(fù)責(zé)HDFS的持久化存儲(chǔ)、SolrffriterBolt 負(fù)責(zé) Solr-Cloud 的持久化存儲(chǔ)。
【文檔編號(hào)】G06F11/34GK104036025SQ201410299857
【公開(kāi)日】2014年9月10日申請(qǐng)日期:2014年6月27日優(yōu)先權(quán)日:2014年6月27日
【發(fā)明者】楊育斌, 柯宗貴, 趙必廈申請(qǐng)人:藍(lán)盾信息安全技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊育斌;柯宗貴;趙必廈
技術(shù)所有人：藍(lán)盾信息安全技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：用于確定商品包裝方案的方法及裝置制造方法
上一篇：一種基于可靠性規(guī)劃的配電網(wǎng)投資方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

分布式日志采集系統(tǒng)相關(guān)技術(shù)

海量日志處理系統(tǒng)架構(gòu)相關(guān)技術(shù)

分布式日志收集系統(tǒng)相關(guān)技術(shù)

分布式日志系統(tǒng)相關(guān)技術(shù)

分布式日志跟蹤系統(tǒng)相關(guān)技術(shù)

分布式日志分析系統(tǒng)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于分布式的海量日志采集系統(tǒng)的制作方法