本發(fā)明涉及分布式計算技術(shù)領(lǐng)域,尤其涉及一種基于hadoop架構(gòu)數(shù)據(jù)分析圖表展示的方法及系統(tǒng)。
背景技術(shù):
傳統(tǒng)的關(guān)系型數(shù)據(jù)庫中的表通常由一個或多個字段組成,每個字段都預(yù)先定義了其可存儲數(shù)據(jù)的格式及約束等,這類的數(shù)據(jù)就是結(jié)構(gòu)化數(shù)據(jù)。相應(yīng)地,非結(jié)構(gòu)化數(shù)據(jù)就是指那些沒有一個預(yù)定義的數(shù)據(jù)模型或不適于存儲在關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù),這些數(shù)據(jù)沒有額外的描述信息,因此無法推斷這些信息的真實意義。
現(xiàn)今身處于數(shù)據(jù)大爆炸的世界,如搜索引擎類公司的網(wǎng)絡(luò)爬蟲爬行而來的web頁面或社交類站點產(chǎn)生的用戶訪問日志都屬半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)對這類數(shù)據(jù)的存儲及處理能力有限,大型數(shù)據(jù)集或數(shù)據(jù)的分析能力很快成為各大行業(yè)機(jī)構(gòu)競爭力的關(guān)鍵基礎(chǔ),成為生產(chǎn)力、行業(yè)成長和創(chuàng)新發(fā)展新趨勢的基石。
技術(shù)實現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題是提供一種基于hadoop架構(gòu)數(shù)據(jù)分析圖表展示的方法及系統(tǒng),實現(xiàn)可以高效管理和分析海量數(shù)據(jù),可以對所展現(xiàn)數(shù)據(jù)進(jìn)行挖掘、提取、修正或整合,讓用戶可以有不同的方式解讀同樣的數(shù)據(jù)。
為解決上述技術(shù)問題,本發(fā)明采用的一個技術(shù)方案是:提供一種基于hadoop架構(gòu)數(shù)據(jù)分析圖表展示的方法,包括:進(jìn)行原始數(shù)據(jù)采集;采用分布式文件系統(tǒng)hdfs作為底層數(shù)據(jù)存儲介質(zhì),在其之上構(gòu)建更高層次的分布式的、面向列的開源數(shù)據(jù)庫hbase和數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架hive進(jìn)行數(shù)據(jù)管理;流式大數(shù)據(jù)處理框架storm流處理,實時處理解析所述數(shù)據(jù)管理中的數(shù)據(jù)流;將所述經(jīng)storm流處理得到的數(shù)據(jù)流,導(dǎo)入關(guān)系數(shù)據(jù)庫;分析處理所述關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),并直觀展示所述經(jīng)分析處理后的數(shù)據(jù)。
其中,所述進(jìn)行原始數(shù)據(jù)采集,包括:
采用分布式網(wǎng)絡(luò)爬蟲進(jìn)行原始數(shù)據(jù)采集。
其中,所述采用分布式網(wǎng)絡(luò)爬蟲進(jìn)行原始數(shù)據(jù)采集,包括:
采用定時定向的信息采集方式進(jìn)行統(tǒng)一調(diào)度,采用分布式網(wǎng)絡(luò)爬蟲進(jìn)行原始數(shù)據(jù)采集。
其中,所述采用分布式文件系統(tǒng)hdfs作為底層數(shù)據(jù)存儲介質(zhì),在其之上構(gòu)建更高層次的分布式的、面向列的開源數(shù)據(jù)庫hbase和數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架hive進(jìn)行數(shù)據(jù)管理,包括:
采用分布式文件系統(tǒng)hdfs作為底層數(shù)據(jù)存儲介質(zhì),通過映射函數(shù)mapreduce編程模式進(jìn)行分析,在其之上構(gòu)建更高層次的分布式的、面向列的開源數(shù)據(jù)庫hbase和數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架hive進(jìn)行數(shù)據(jù)管理。
其中,所述分析處理所述關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),并直觀展示所述經(jīng)分析處理后的數(shù)據(jù),包括:
分析處理所述關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),并通過商業(yè)級數(shù)據(jù)圖表echarts前端技術(shù)直觀展示所述經(jīng)分析處理后的數(shù)據(jù)。
為解決上述技術(shù)問題,本發(fā)明采用的另一個技術(shù)方案是:提供一種一種基于hadoop架構(gòu)數(shù)據(jù)分析圖表展示的系統(tǒng),包括:采集控制器、分布式計算hadoop平臺、數(shù)據(jù)流處理器、數(shù)據(jù)庫、界面展示器;所述采集控制器,用于進(jìn)行原始數(shù)據(jù)采集;所述分布式計算hadoop平臺,用于采用分布式文件系統(tǒng)hdfs作為底層數(shù)據(jù)存儲介質(zhì),在其之上構(gòu)建更高層次的分布式的、面向列的開源數(shù)據(jù)庫hbase和數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架hive進(jìn)行數(shù)據(jù)管理;所述數(shù)據(jù)流處理器,用于流式大數(shù)據(jù)處理框架storm流處理,實時處理解析所述數(shù)據(jù)管理中的數(shù)據(jù)流;所述數(shù)據(jù)庫,用于將所述經(jīng)storm流處理得到的數(shù)據(jù)流,導(dǎo)入關(guān)系數(shù)據(jù)庫;所述界面展示器,用于分析處理所述關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),并直觀展示所述經(jīng)分析處理后的數(shù)據(jù)。
其中,所述采集控制器具體用于:采用分布式網(wǎng)絡(luò)爬蟲進(jìn)行原始數(shù)據(jù)采集。
其中,所述采集控制器具體用于:
采用定時定向的信息采集方式進(jìn)行統(tǒng)一調(diào)度,采用分布式網(wǎng)絡(luò)爬蟲進(jìn)行原始數(shù)據(jù)采集。
其中,所述分布式計算hadoop平臺具體用于:
采用分布式文件系統(tǒng)hdfs作為底層數(shù)據(jù)存儲介質(zhì),通過映射函數(shù)mapreduce編程模式進(jìn)行分析,在其之上構(gòu)建更高層次的分布式的、面向列的開源數(shù)據(jù)庫hbase和數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架hive進(jìn)行數(shù)據(jù)管理。
其中,所述界面展示器具體用于:
分析處理所述關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),并通過商業(yè)級數(shù)據(jù)圖表echarts前端技術(shù)直觀展示所述經(jīng)分析處理后的數(shù)據(jù)。
本發(fā)明提供的基于hadoop架構(gòu)數(shù)據(jù)分析圖表展示的方法,包括:進(jìn)行原始數(shù)據(jù)采集;采用分布式文件系統(tǒng)hdfs作為底層數(shù)據(jù)存儲介質(zhì),在其之上構(gòu)建更高層次的分布式的、面向列的開源數(shù)據(jù)庫hbase和數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架hive進(jìn)行數(shù)據(jù)管理;流式大數(shù)據(jù)處理框架storm流處理,實時處理解析該數(shù)據(jù)管理中的數(shù)據(jù)流;將該經(jīng)storm流處理得到的數(shù)據(jù)流,導(dǎo)入關(guān)系數(shù)據(jù)庫;分析處理該關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),并直觀展示該經(jīng)分析處理后的數(shù)據(jù);從而達(dá)到實現(xiàn)可以高效管理和分析海量數(shù)據(jù),可以對所展現(xiàn)數(shù)據(jù)進(jìn)行挖掘、提取、修正或整合,讓用戶可以有不同的方式解讀同樣的數(shù)據(jù)。
本發(fā)明提供的基于hadoop架構(gòu)數(shù)據(jù)分析圖表展示的系統(tǒng),包括:采集控制器、分布式計算hadoop平臺、數(shù)據(jù)流處理器、數(shù)據(jù)庫、界面展示器;采集控制器,用于進(jìn)行原始數(shù)據(jù)采集;分布式計算hadoop平臺,用于采用分布式文件系統(tǒng)hdfs作為底層數(shù)據(jù)存儲介質(zhì),在其之上構(gòu)建更高層次的分布式的、面向列的開源數(shù)據(jù)庫hbase和數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架hive進(jìn)行數(shù)據(jù)管理;數(shù)據(jù)流處理器,用于流式大數(shù)據(jù)處理框架storm流處理,實時處理解析該數(shù)據(jù)管理中的數(shù)據(jù)流;數(shù)據(jù)庫,用于將該經(jīng)storm流處理得到的數(shù)據(jù)流,導(dǎo)入關(guān)系數(shù)據(jù)庫;界面展示器,用于分析處理該關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),并直觀展示該經(jīng)分析處理后的數(shù)據(jù);從而達(dá)到實現(xiàn)可以高效管理和分析海量數(shù)據(jù),可以對所展現(xiàn)數(shù)據(jù)進(jìn)行挖掘、提取、修正或整合,讓用戶可以有不同的方式解讀同樣的數(shù)據(jù)。
附圖說明
圖1為本發(fā)明基于hadoop架構(gòu)數(shù)據(jù)分析圖表展示的方法的流程示意圖;
圖2為本發(fā)明基于hadoop架構(gòu)數(shù)據(jù)分析圖表展示的系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施方式
本發(fā)明提供一種基于hadoop架構(gòu)數(shù)據(jù)分析圖表展示的方法及系統(tǒng),應(yīng)用于分布式計算技術(shù)領(lǐng)域,本發(fā)明基于hadoop架構(gòu)數(shù)據(jù)分析圖表展示的方法,包括:進(jìn)行原始數(shù)據(jù)采集;采用分布式文件系統(tǒng)hdfs作為底層數(shù)據(jù)存儲介質(zhì),在其之上構(gòu)建更高層次的分布式的、面向列的開源數(shù)據(jù)庫hbase和數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架hive進(jìn)行數(shù)據(jù)管理;流式大數(shù)據(jù)處理框架storm流處理,實時處理解析該數(shù)據(jù)管理中的數(shù)據(jù)流;將該經(jīng)storm流處理得到的數(shù)據(jù)流,導(dǎo)入關(guān)系數(shù)據(jù)庫;分析處理該關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),并直觀展示該經(jīng)分析處理后的數(shù)據(jù);從而達(dá)到實現(xiàn)可以高效管理和分析海量數(shù)據(jù),可以對所展現(xiàn)數(shù)據(jù)進(jìn)行挖掘、提取、修正或整合,讓用戶可以有不同的方式解讀同樣的數(shù)據(jù)。
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
本發(fā)明提供一種基于hadoop架構(gòu)數(shù)據(jù)分析圖表展示的方法。
請參見圖1,圖1為本發(fā)明基于hadoop架構(gòu)數(shù)據(jù)分析圖表展示的方法的流程示意圖,需注意的是,若有實質(zhì)上相同的結(jié)果,本發(fā)明的方法并不以圖1所示的流程順序為限,本發(fā)明基于hadoop架構(gòu)數(shù)據(jù)分析圖表展示的方法,包括:
s11:進(jìn)行原始數(shù)據(jù)采集。
其中,進(jìn)行原始數(shù)據(jù)采集,包括:
采用分布式網(wǎng)絡(luò)爬蟲進(jìn)行原始數(shù)據(jù)采集。
其中,采用分布式網(wǎng)絡(luò)爬蟲進(jìn)行原始數(shù)據(jù)采集,包括:
采用定時定向的信息采集方式進(jìn)行統(tǒng)一調(diào)度,采用分布式網(wǎng)絡(luò)爬蟲進(jìn)行原始數(shù)據(jù)采集。
s12:采用分布式文件系統(tǒng)(hdfs)作為底層數(shù)據(jù)存儲介質(zhì),在其之上構(gòu)建更高層次的分布式的、面向列的開源數(shù)據(jù)庫(hbase)和數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架(hive)進(jìn)行數(shù)據(jù)管理。
其中,采用分布式文件系統(tǒng)hdfs作為底層數(shù)據(jù)存儲介質(zhì),在其之上構(gòu)建更高層次的分布式的、面向列的開源數(shù)據(jù)庫hbase和數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架hive進(jìn)行數(shù)據(jù)管理,包括:
采用分布式文件系統(tǒng)hdfs作為底層數(shù)據(jù)存儲介質(zhì),通過映射函數(shù)(mapreduce)編程模式進(jìn)行分析,在其之上構(gòu)建更高層次的分布式的、面向列的開源數(shù)據(jù)庫hbase和數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架hive進(jìn)行數(shù)據(jù)管理。
s13:流式大數(shù)據(jù)處理框架(storm)流處理,實時處理解析該數(shù)據(jù)管理中的數(shù)據(jù)流。
s14:將該經(jīng)storm流處理得到的數(shù)據(jù)流,導(dǎo)入關(guān)系數(shù)據(jù)庫。
s15:分析處理該關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),并直觀展示該經(jīng)分析處理后的數(shù)據(jù)。
其中,分析處理該關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),并直觀展示該經(jīng)分析處理后的數(shù)據(jù),包括:
分析處理該關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),并通過商業(yè)級數(shù)據(jù)圖表(echarts)前端技術(shù)直觀展示該經(jīng)分析處理后的數(shù)據(jù)。
本發(fā)明還提供一種基于hadoop架構(gòu)數(shù)據(jù)分析圖表展示的系統(tǒng)。
請參見圖2,圖2為本發(fā)明基于hadoop架構(gòu)數(shù)據(jù)分析圖表展示的系統(tǒng)的結(jié)構(gòu)示意圖,本發(fā)明基于hadoop架構(gòu)數(shù)據(jù)分析圖表展示的系統(tǒng),包括:采集控制器21、分布式計算hadoop平臺22、數(shù)據(jù)流處理器23、數(shù)據(jù)庫24、界面展示器25;
采集控制器21,用于進(jìn)行原始數(shù)據(jù)采集。
分布式計算hadoop平臺22,用于采用分布式文件系統(tǒng)hdfs作為底層數(shù)據(jù)存儲介質(zhì),在其之上構(gòu)建更高層次的分布式的、面向列的開源數(shù)據(jù)庫hbase和數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架hive進(jìn)行數(shù)據(jù)管理。
數(shù)據(jù)流處理器23,用于流式大數(shù)據(jù)處理框架storm流處理,實時處理解析該數(shù)據(jù)管理中的數(shù)據(jù)流。
數(shù)據(jù)庫24,用于將該經(jīng)storm流處理得到的數(shù)據(jù)流,導(dǎo)入關(guān)系數(shù)據(jù)庫。
界面展示器25,用于分析處理該關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),并直觀展示該經(jīng)分析處理后的數(shù)據(jù)。
其中,采集控制器21可以具體用于:采用分布式網(wǎng)絡(luò)爬蟲進(jìn)行原始數(shù)據(jù)采集。
其中,采集控制器21可以具體用于:
采用定時定向的信息采集方式進(jìn)行統(tǒng)一調(diào)度,采用分布式網(wǎng)絡(luò)爬蟲進(jìn)行原始數(shù)據(jù)采集。
其中,分布式計算hadoop平臺22可以具體用于:
采用分布式文件系統(tǒng)hdfs作為底層數(shù)據(jù)存儲介質(zhì),通過映射函數(shù)mapreduce編程模式進(jìn)行分析,在其之上構(gòu)建更高層次的分布式的、面向列的開源數(shù)據(jù)庫hbase和數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架hive進(jìn)行數(shù)據(jù)管理。
其中,界面展示器25可以具體用于:
分析處理該關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),并通過商業(yè)級數(shù)據(jù)圖表echarts前端技術(shù)直觀展示該經(jīng)分析處理后的數(shù)據(jù)。
本發(fā)明提供的基于hadoop架構(gòu)數(shù)據(jù)分析圖表展示的方法,包括:進(jìn)行原始數(shù)據(jù)采集;采用分布式文件系統(tǒng)hdfs作為底層數(shù)據(jù)存儲介質(zhì),在其之上構(gòu)建更高層次的分布式的、面向列的開源數(shù)據(jù)庫hbase和數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架hive進(jìn)行數(shù)據(jù)管理;流式大數(shù)據(jù)處理框架storm流處理,實時處理解析該數(shù)據(jù)管理中的數(shù)據(jù)流;將該經(jīng)storm流處理得到的數(shù)據(jù)流,導(dǎo)入關(guān)系數(shù)據(jù)庫;分析處理該關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),并直觀展示該經(jīng)分析處理后的數(shù)據(jù);從而達(dá)到實現(xiàn)可以高效管理和分析海量數(shù)據(jù),可以對所展現(xiàn)數(shù)據(jù)進(jìn)行挖掘、提取、修正或整合,讓用戶可以有不同的方式解讀同樣的數(shù)據(jù)。
本發(fā)明提供的基于hadoop架構(gòu)數(shù)據(jù)分析圖表展示的系統(tǒng),包括:采集控制器21、分布式計算hadoop平臺22、數(shù)據(jù)流處理器23、數(shù)據(jù)庫24、界面展示器25;采集控制器21,用于進(jìn)行原始數(shù)據(jù)采集;分布式計算hadoop平臺22,用于采用分布式文件系統(tǒng)hdfs作為底層數(shù)據(jù)存儲介質(zhì),在其之上構(gòu)建更高層次的分布式的、面向列的開源數(shù)據(jù)庫hbase和數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架hive進(jìn)行數(shù)據(jù)管理;數(shù)據(jù)流處理器23,用于流式大數(shù)據(jù)處理框架storm流處理,實時處理解析該數(shù)據(jù)管理中的數(shù)據(jù)流;數(shù)據(jù)庫24,用于將該經(jīng)storm流處理得到的數(shù)據(jù)流,導(dǎo)入關(guān)系數(shù)據(jù)庫;界面展示器25,用于分析處理該關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),并直觀展示該經(jīng)分析處理后的數(shù)據(jù);從而達(dá)到實現(xiàn)可以高效管理和分析海量數(shù)據(jù),可以對所展現(xiàn)數(shù)據(jù)進(jìn)行挖掘、提取、修正或整合,讓用戶可以有不同的方式解讀同樣的數(shù)據(jù)。
需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或者操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包含”、“包括”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系統(tǒng)要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個、、、、、、”限定的要素,并不排除在包括所述要素的過程、方法、物品、設(shè)備或者裝置中還存在另外的相同要素。
對于本發(fā)明基于hadoop架構(gòu)數(shù)據(jù)分析圖表展示的方法及系統(tǒng),實現(xiàn)的形式是多種多樣的。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。