背景技術(shù):
數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細研究和概括總結(jié)的過程。這一過程也是質(zhì)量管理體系的支持過程。在實用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當行動。數(shù)據(jù)分析的數(shù)學基礎(chǔ)在20世紀早期就已確立,但直到計算機的出現(xiàn)才使得實際操作成為可能,并使得數(shù)據(jù)分析得以推廣。數(shù)據(jù)分析是數(shù)學與計算機科學相結(jié)合的產(chǎn)物。
數(shù)據(jù)多樣化的形成主要有兩方面的原因:一是數(shù)據(jù)來源多,有搜索引擎、社交網(wǎng)絡(luò)、通話記錄、傳感器等等;二是數(shù)據(jù)格式多,有結(jié)構(gòu)數(shù)據(jù)、半結(jié)構(gòu)數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)。據(jù)相關(guān)數(shù)據(jù)統(tǒng)計,每秒鐘人們發(fā)送290封電子郵件;亞馬遜處理72.9筆訂單;每分鐘人們在You Tube上傳20小時的視頻;每月人們總共在facebook上瀏覽7000億分鐘。
目前的數(shù)據(jù)分析面臨的問題是數(shù)據(jù)量大、多種結(jié)構(gòu)形式和實時性等多樣化要求,這些問題增加了數(shù)據(jù)采集和整合困難,傳統(tǒng)的基于塊和文件的存儲系統(tǒng)的架構(gòu)設(shè)計已無法滿足數(shù)據(jù)分析的需要。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供一種數(shù)據(jù)分析系統(tǒng),該系統(tǒng)可以對數(shù)據(jù)進行采集、存儲、分析、處理和呈現(xiàn),達到數(shù)據(jù)整合的目的。
一種數(shù)據(jù)分析系統(tǒng),包括數(shù)據(jù)采集子系統(tǒng)、數(shù)據(jù)存儲子系統(tǒng)、數(shù)據(jù)處理子系統(tǒng)、數(shù)據(jù)分析子系統(tǒng)和數(shù)據(jù)呈現(xiàn)子系統(tǒng);所述數(shù)據(jù)采集子系統(tǒng)用于采集數(shù)據(jù)并將數(shù)據(jù)傳送到數(shù)據(jù)存儲子系統(tǒng);所述數(shù)據(jù)存儲子系統(tǒng)用于存儲數(shù)據(jù)采集子系統(tǒng)采集的數(shù)據(jù);所述數(shù)據(jù)處理子系統(tǒng)用于清洗、轉(zhuǎn)化、提取和計算數(shù)據(jù)存儲子系統(tǒng)中的數(shù)據(jù);所述數(shù)據(jù)分析子系統(tǒng)用于對數(shù)據(jù)處理子系統(tǒng)處理后的數(shù)據(jù)進行統(tǒng)計分析和深度挖掘;所述數(shù)據(jù)呈現(xiàn)子系統(tǒng)用于以表格、圖片和文字的形式呈現(xiàn)數(shù)據(jù)分析子系統(tǒng)處理后的數(shù)據(jù)。本發(fā)明通過對數(shù)據(jù)的采集、存儲、處理和分析,然后再將經(jīng)過分析的數(shù)據(jù)用文字、圖片和表格等方式呈現(xiàn)給用戶,達到數(shù)據(jù)整合的目的,快速直觀。
進一步地,所述數(shù)據(jù)采集子系統(tǒng)包括硬件部分和軟件部分。本發(fā)明通過硬件系統(tǒng)和軟件系統(tǒng)同時采集數(shù)據(jù),使采集的數(shù)據(jù)范圍大、來源廣,增加數(shù)據(jù)分析的可靠性。
進一步地,所述軟件部分包括系統(tǒng)日志采集模塊、網(wǎng)絡(luò)數(shù)據(jù)采集模塊和其他數(shù)據(jù)采集模塊;所述日志采集模塊為基于插件的模式,構(gòu)建適應(yīng)業(yè)務(wù)場景的采集插件,系統(tǒng)會根據(jù)不同的日志源調(diào)用不同的采集服務(wù)對數(shù)據(jù)進行采集,并統(tǒng)一格式處理,持久到日志庫;所述網(wǎng)絡(luò)數(shù)據(jù)采集模塊通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API的方式從網(wǎng)站上獲取數(shù)據(jù)信息,將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中抽取出來并以結(jié)構(gòu)化的方式存儲為統(tǒng)一的本地數(shù)據(jù)文件。所述其他數(shù)據(jù)采集模塊通過與企業(yè)或研究機構(gòu)合作,使用特定系統(tǒng)接口的方式采集數(shù)據(jù)。本發(fā)明的日志采集模塊采用分布式架構(gòu),能滿足每秒數(shù)百MB的日志數(shù)據(jù)采集和傳輸需求;網(wǎng)絡(luò)數(shù)據(jù)采集模塊支持圖片、音頻和視頻等文件或附件的采集,附件與正文可以自動關(guān)聯(lián);其他數(shù)據(jù)采集模塊主要是針對企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)或?qū)W科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),使用特定系統(tǒng)接口提高數(shù)據(jù)安全性。
進一步地,所述硬件部分包括依次連接的傳感器、前置放大器、濾波器、多路模擬開關(guān)、采樣保持器、A/D轉(zhuǎn)換器和計算機系統(tǒng)。傳感器包括各種類型的傳感器,可以對圖像、聲音、溫度等等數(shù)據(jù)進行采集,加強數(shù)據(jù)來源的完整性。
本發(fā)明的有益效果在于:
1、本發(fā)明通過對數(shù)據(jù)的采集、存儲、處理和分析,然后再將經(jīng)過分析的數(shù)據(jù)用文字、圖片和表格等方式呈現(xiàn)給用戶,達到數(shù)據(jù)整合的目的,快速直觀。
2、通過硬件系統(tǒng)和軟件系統(tǒng)同時采集數(shù)據(jù),使采集的數(shù)據(jù)范圍大、來源廣,增加數(shù)據(jù)分析的可靠性。
3、本發(fā)明的日志采集模塊采用分布式架構(gòu),能滿足每秒數(shù)百MB的日志數(shù)據(jù)采集和傳輸需求;網(wǎng)絡(luò)數(shù)據(jù)采集模塊支持圖片、音頻和視頻等文件或附件的采集,附件與正文可以自動關(guān)聯(lián);其他數(shù)據(jù)采集模塊主要是針對企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)或?qū)W科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),使用特定系統(tǒng)接口提高數(shù)據(jù)安全性。
附圖說明
此處所說明的附圖用來提供對本發(fā)明實施例的進一步理解,構(gòu)成本申請的一部分,并不構(gòu)成對本發(fā)明實施例的限定。在附圖中:
圖1為本發(fā)明的結(jié)構(gòu)示意圖。
具體實施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,下面結(jié)合實施例和附圖,對本發(fā)明作進一步的詳細說明,本發(fā)明的示意性實施方式及其說明僅用于解釋本發(fā)明,并不作為對本發(fā)明的限定。
實施例1
如圖1所示,本實施例提供一種數(shù)據(jù)分析系統(tǒng),包括數(shù)據(jù)采集子系統(tǒng)、數(shù)據(jù)存儲子系統(tǒng)、數(shù)據(jù)處理子系統(tǒng)、數(shù)據(jù)分析子系統(tǒng)和數(shù)據(jù)呈現(xiàn)子系統(tǒng);數(shù)據(jù)采集子系統(tǒng)用于采集數(shù)據(jù)并將數(shù)據(jù)傳送到數(shù)據(jù)存儲子系統(tǒng);數(shù)據(jù)存儲子系統(tǒng)用于存儲數(shù)據(jù)采集子系統(tǒng)采集的數(shù)據(jù);數(shù)據(jù)處理子系統(tǒng)用于清洗、轉(zhuǎn)化、提取和計算數(shù)據(jù)存儲子系統(tǒng)中的數(shù)據(jù);數(shù)據(jù)分析子系統(tǒng)用于對數(shù)據(jù)處理子系統(tǒng)處理后的數(shù)據(jù)進行統(tǒng)計分析和深度挖掘;數(shù)據(jù)呈現(xiàn)子系統(tǒng)用于以表格、圖片和文字的形式呈現(xiàn)數(shù)據(jù)分析子系統(tǒng)處理后的數(shù)據(jù);數(shù)據(jù)采集子系統(tǒng)包括硬件部分和軟件部分,軟件部分包括系統(tǒng)日志采集模塊、網(wǎng)絡(luò)數(shù)據(jù)采集模塊和其他數(shù)據(jù)采集模塊,
日志采集模塊為基于插件的模式,構(gòu)建適應(yīng)業(yè)務(wù)場景的采集插件,系統(tǒng)會根據(jù)不同的日志源調(diào)用不同的采集服務(wù)對數(shù)據(jù)進行采集,并統(tǒng)一格式處理,持久到日志庫,網(wǎng)絡(luò)數(shù)據(jù)采集模塊通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API的方式從網(wǎng)站上獲取數(shù)據(jù)信息,將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中抽取出來并以結(jié)構(gòu)化的方式存儲為統(tǒng)一的本地數(shù)據(jù)文件,其他數(shù)據(jù)采集模塊通過與企業(yè)或研究機構(gòu)合作,使用特定系統(tǒng)接口的方式采集數(shù)據(jù);硬件部分包括依次連接的傳感器、前置放大器、濾波器、多路模擬開關(guān)、采樣保持器、A/D轉(zhuǎn)換器和計算機系統(tǒng)。
以上所述的具體實施方式,對本發(fā)明的目的、技術(shù)方案和有益效果進行了進一步詳細說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實施方式而已,并不用于限定本發(fā)明的保護范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。