亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種可視化大數(shù)據(jù)分析方法及系統(tǒng)與流程

文檔序號(hào):11830572閱讀:1173來(lái)源:國(guó)知局
一種可視化大數(shù)據(jù)分析方法及系統(tǒng)與流程

本發(fā)明涉及大數(shù)據(jù)分析技術(shù)領(lǐng)域,特別涉及一種可視化大數(shù)據(jù)分析方法及系統(tǒng)。



背景技術(shù):

現(xiàn)如今是大數(shù)據(jù)飛速發(fā)展的時(shí)代,大數(shù)據(jù)已經(jīng)被上升到國(guó)家戰(zhàn)略層面,隨著時(shí)間的推移,大數(shù)據(jù)會(huì)在各種應(yīng)用鄰域發(fā)揮極其重要的作用。

但是在現(xiàn)有技術(shù)中,大數(shù)據(jù)的使用成本還是比較高的,除了搜集和存儲(chǔ)平臺(tái)的建立,更多體現(xiàn)在采集的數(shù)據(jù)上,對(duì)采集的數(shù)據(jù)有效的利用才能夠體現(xiàn)大數(shù)據(jù)時(shí)代的價(jià)值。而現(xiàn)有的使用方式以及使用的數(shù)據(jù)中非業(yè)務(wù)東西太多,并且業(yè)務(wù)人員無(wú)法選擇大數(shù)據(jù)的處理和分析方式,經(jīng)常性將非業(yè)務(wù)數(shù)據(jù)融入到分析系統(tǒng)中導(dǎo)致系統(tǒng)的冗余及分析結(jié)果的不準(zhǔn)確。因此,對(duì)非業(yè)務(wù)數(shù)據(jù)屏蔽,尤其是根據(jù)業(yè)務(wù)人員的選擇進(jìn)行大數(shù)據(jù)分析顯得非常重要的。



技術(shù)實(shí)現(xiàn)要素:

為了保證業(yè)務(wù)人員可視化分析大數(shù)據(jù)得到分析結(jié)果,有效的屏蔽非業(yè)務(wù)數(shù)據(jù),本發(fā)明提供了一種可視化大數(shù)據(jù)分析方法及系統(tǒng)。

所述技術(shù)方案如下:

第一方面,提供了一種可視化大數(shù)據(jù)分析方法,其特征在于,所述方法包括:

采集原始數(shù)據(jù)并對(duì)所述原始數(shù)據(jù)進(jìn)行ETL操作;其中,所述原始數(shù)據(jù)包括離線數(shù)據(jù)和/或?qū)崟r(shí)流式數(shù)據(jù);

對(duì)所述原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗得到基礎(chǔ)數(shù)據(jù);

對(duì)所述基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)業(yè)務(wù)處理,生成基本的數(shù)據(jù)結(jié)果;

建立可視化分析模型并根據(jù)所述可視化分析模型和所述基本的數(shù)據(jù)結(jié)果得到分析結(jié)果,可視化顯示所述分析結(jié)果。

結(jié)合第一方面,在第一種可能的實(shí)施方式中,所述對(duì)所述原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗得到基礎(chǔ)數(shù)據(jù)包括:

根據(jù)業(yè)務(wù)規(guī)則對(duì)所述原始數(shù)據(jù)過(guò)濾得到業(yè)務(wù)數(shù)據(jù),其中,所述業(yè)務(wù)規(guī)則為用戶(hù)自定義業(yè)務(wù)規(guī)則或者預(yù)設(shè)規(guī)則;

將所述業(yè)務(wù)數(shù)據(jù)進(jìn)行格式化得到所述基礎(chǔ)數(shù)據(jù)。

結(jié)合第一方面,在第二種可能的實(shí)施方式中,所述對(duì)所述基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)業(yè)務(wù)處理,生成基本的數(shù)據(jù)結(jié)果包括:

對(duì)所述基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)關(guān)聯(lián)處理、挖掘業(yè)務(wù)模型和迭代計(jì)算;

根據(jù)挖掘的所述業(yè)務(wù)模型對(duì)所述基礎(chǔ)數(shù)據(jù)進(jìn)行迭代計(jì)算,得到基本的數(shù)據(jù)結(jié)果;

其中,數(shù)據(jù)關(guān)聯(lián)處理包括對(duì)所述基礎(chǔ)數(shù)據(jù)IP定位、手機(jī)號(hào)定位或僵木蠕類(lèi)型定位。

結(jié)合第一方面,在第三種可能的實(shí)施方式中,所述建立可視化分析模型包括:

根據(jù)用戶(hù)指示生成可視化的初步分析模型;

用戶(hù)將所述初步分析模型與預(yù)期分析模型進(jìn)行比對(duì),調(diào)整所述初步分析模型;

當(dāng)所述初步分析模型與預(yù)期分析模型一致時(shí),判定生成最終的可視化分析模型。

結(jié)合第一方面或第一種至第三種任意一種可能的實(shí)施方式,在第四種可能的實(shí)施方式中,

所述方法還包括:

在所述可視化分析模型配置展示接口、查詢(xún)接口;

其中,所述展示接口用于實(shí)時(shí)展示分析結(jié)果;

其中,所述查詢(xún)接口用于將所述分析結(jié)果分享到其他系統(tǒng)建立分析模型云平臺(tái)。

第二方面,提供了一種可視化大數(shù)據(jù)分析系統(tǒng),其特征在于,所述系統(tǒng)包括:

數(shù)據(jù)采集模塊,用于采集原始數(shù)據(jù)并對(duì)所述原始數(shù)據(jù)進(jìn)行ETL操作;其中,所述原始數(shù)據(jù)包括離線數(shù)據(jù)和/或?qū)崟r(shí)流式數(shù)據(jù);

數(shù)據(jù)清洗模塊,用于對(duì)所述原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗得到基礎(chǔ)數(shù)據(jù);

數(shù)據(jù)處理模塊,用于對(duì)所述基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)業(yè)務(wù)處理,生成基本的數(shù)據(jù)結(jié)果;

分析顯示模塊,用于建立可視化分析模型并根據(jù)所述可視化分析模型和所述基本的數(shù)據(jù)結(jié)果得到分析結(jié)果,可視化顯示所述分析結(jié)果。

結(jié)合第二方面,在第一種可能的實(shí)施方式中,所述數(shù)據(jù)清洗模塊具體用于:

根據(jù)業(yè)務(wù)規(guī)則對(duì)所述原始數(shù)據(jù)過(guò)濾得到業(yè)務(wù)數(shù)據(jù),其中,所述業(yè)務(wù)規(guī)則為用戶(hù)自定義業(yè)務(wù)規(guī)則或者預(yù)設(shè)規(guī)則;

將所述業(yè)務(wù)數(shù)據(jù)進(jìn)行格式化得到所述基礎(chǔ)數(shù)據(jù)。

結(jié)合第二方面,在第二種可能的實(shí)施方式中,所述數(shù)據(jù)處理模塊具體用于:

對(duì)所述基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)關(guān)聯(lián)處理、挖掘業(yè)務(wù)模型和迭代計(jì)算;

根據(jù)挖掘的所述業(yè)務(wù)模型對(duì)所述基礎(chǔ)數(shù)據(jù)進(jìn)行迭代計(jì)算,得到基本的數(shù)據(jù)結(jié)果;

其中,數(shù)據(jù)關(guān)聯(lián)處理包括對(duì)所述基礎(chǔ)數(shù)據(jù)IP定位、手機(jī)號(hào)定位或僵木蠕類(lèi)型定位。

結(jié)合第二方面,在第三種可能的實(shí)施方式中,所述分析顯示模塊具體用于:

根據(jù)用戶(hù)指示生成可視化的初步分析模型;

用戶(hù)將所述初步分析模型與預(yù)期分析模型進(jìn)行比對(duì),調(diào)整所述初步分析模型;

當(dāng)所述初步分析模型與預(yù)期分析模型一致時(shí),判定生成最終的可視化分析模型。

結(jié)合第二方面或第二方面的第一種至第三種任意一種可能的實(shí)施方式,在第四種可能的實(shí)施方式中,所述系統(tǒng)還包括接口模塊,具體用于所述可視化分析模型配置有展示接口、查詢(xún)接口;

其中,所述展示接口用于實(shí)時(shí)展示分析結(jié)果;

其中,所述查詢(xún)接口用于將所述分析結(jié)果分享到其他系統(tǒng)建立分析模型云平臺(tái)。

第三方面,提供了一種可視化大數(shù)據(jù)分析系統(tǒng),其特征在于,所述系統(tǒng)包括:FTP服務(wù)器、數(shù)據(jù)中心和網(wǎng)安平臺(tái),其中,F(xiàn)TP服務(wù)器用于采集原始數(shù)據(jù),此處的原始數(shù)據(jù)可以是各個(gè)管理局、運(yùn)營(yíng)商和其他第三方廠商提供的。網(wǎng)安平臺(tái)用于提供查詢(xún)分析結(jié)果的入口平臺(tái)和可視化展示查詢(xún)結(jié)果。數(shù)據(jù)中心存儲(chǔ)有數(shù)據(jù)分析程序,用于執(zhí)行以下操作:

對(duì)FTP服務(wù)器采集的原始數(shù)據(jù)進(jìn)行ETL操作;其中,原始數(shù)據(jù)包括離線數(shù)據(jù)和/或?qū)崟r(shí)流式數(shù)據(jù);

對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗得到基礎(chǔ)數(shù)據(jù);

對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)業(yè)務(wù)處理,生成基本的數(shù)據(jù)結(jié)果;

建立可視化分析模型并根據(jù)可視化分析模型和基本的數(shù)據(jù)結(jié)果得到分析結(jié)果,可視化顯示分析結(jié)果。

結(jié)合第三方面,在第一種可能的實(shí)施方式中,數(shù)據(jù)中心存儲(chǔ)的數(shù)據(jù)分析程序用于執(zhí)行以下操作:

根據(jù)業(yè)務(wù)規(guī)則對(duì)原始數(shù)據(jù)過(guò)濾得到業(yè)務(wù)數(shù)據(jù),其中,業(yè)務(wù)規(guī)則為用戶(hù)自定義業(yè)務(wù)規(guī)則或者預(yù)設(shè)規(guī)則;

將業(yè)務(wù)數(shù)據(jù)進(jìn)行格式化得到基礎(chǔ)數(shù)據(jù)。

格式化后的基礎(chǔ)數(shù)據(jù)形成處理后數(shù)據(jù)目錄,然后根據(jù)輪詢(xún)的方式把數(shù)據(jù)發(fā)送到分布式文件系統(tǒng)(HDFS文件系統(tǒng))中數(shù)據(jù)節(jié)點(diǎn)的每個(gè)服務(wù)器上。

結(jié)合第三方面,在第二種可能的實(shí)施方式中,數(shù)據(jù)中心存儲(chǔ)的數(shù)據(jù)分析程序用于執(zhí)行以下操作:

對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)關(guān)聯(lián)處理、挖掘業(yè)務(wù)模型和迭代計(jì)算;

根據(jù)挖掘的業(yè)務(wù)模型對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行迭代計(jì)算,得到基本的數(shù)據(jù)結(jié)果。

對(duì)存儲(chǔ)于上述Hadoop分布式文件系統(tǒng)中的基礎(chǔ)數(shù)據(jù)通過(guò)Spark數(shù)據(jù)關(guān)聯(lián)定位,該定位包括IP定位、手機(jī)號(hào)定位或僵木蠕類(lèi)型定位。

結(jié)合第三方面,在第三種可能的實(shí)施方式中,數(shù)據(jù)中心存儲(chǔ)的數(shù)據(jù)分析程序用于執(zhí)行以下操作:

關(guān)聯(lián)定位后的基本的數(shù)據(jù)結(jié)果上傳至Hadoop分布式文件系統(tǒng)(HDFS文件系統(tǒng)中)中,具體地,建立可視化分析模型包括:

根據(jù)用戶(hù)指示生成可視化的初步分析模型;

用戶(hù)將所述初步分析模型與預(yù)期分析模型進(jìn)行比對(duì),調(diào)整所述初步分析模型;

當(dāng)所述初步分析模型與預(yù)期分析模型一致時(shí),判定生成最終的可視化分析模型。

結(jié)合第三方面或第三方面的第一種至第三種任意一種可能的實(shí)施方式,在第四種可能的實(shí)施方式中,數(shù)據(jù)中心存儲(chǔ)的數(shù)據(jù)分析程序用于執(zhí)行以下操作:

數(shù)據(jù)中心配置接口模塊,具體包括查詢(xún)接口和展示接口,其中,查詢(xún)接口用于提供數(shù)據(jù)查詢(xún)服務(wù);展示接口用于實(shí)時(shí)展示分析結(jié)果。該查詢(xún)接口一端與Impala查詢(xún)服務(wù)和ES查詢(xún)服務(wù)連接,另一端與網(wǎng)安平臺(tái)連接。數(shù)據(jù)查詢(xún)接口服務(wù)具體包括:認(rèn)證訪問(wèn)接口、統(tǒng)計(jì)分析任務(wù)下發(fā)接口、關(guān)聯(lián)查詢(xún)?nèi)蝿?wù)下發(fā)接口、結(jié)果查詢(xún)接口、任務(wù)刪除接口、數(shù)據(jù)添加接口和數(shù)據(jù)文件批量導(dǎo)入接口等。

本發(fā)明實(shí)施例提供了一種可視化大數(shù)據(jù)分析方法及系統(tǒng),通過(guò)采集不同形式的原始數(shù)據(jù)并進(jìn)行ETL操作,完成了對(duì)客戶(hù)提供的各種原始數(shù)據(jù)的匯總、轉(zhuǎn)化、提取工作,使各種不同格式、不同途徑的原始海量數(shù)據(jù)完成了進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)中的前期工作,并且ETL通過(guò)底層的SOCKET完成,最大化的利用網(wǎng)絡(luò)資源,最大化提升ETL性能;通過(guò)對(duì)原始數(shù)據(jù)的數(shù)據(jù)清洗,可以濾除非業(yè)務(wù)數(shù)據(jù);通過(guò)對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)業(yè)務(wù)處理,生成基本的數(shù)據(jù)結(jié)果,可以作為可視化分析的基礎(chǔ);通過(guò)建立可視化分析模型,用戶(hù)可以根據(jù)已知業(yè)務(wù)可視化選擇建立分析模型并經(jīng)過(guò)不斷的調(diào)整生成最終的分析模型;可視化顯示分析結(jié)果有助于業(yè)務(wù)人員根據(jù)自己的興趣和業(yè)務(wù)分類(lèi)去選擇結(jié)果展示樣例。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1是本發(fā)明一優(yōu)選實(shí)施例提供的一種可視化大數(shù)據(jù)分析方法流程圖;

圖2是本發(fā)明另一優(yōu)選實(shí)施例提供的一種可視化大數(shù)據(jù)分析系統(tǒng)結(jié)構(gòu)示意圖;

圖3是本發(fā)明另一優(yōu)選實(shí)施例提供的一種可視化大數(shù)據(jù)分析系統(tǒng)結(jié)構(gòu)示意圖。

具體實(shí)施方式

為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

參見(jiàn)圖1,在一優(yōu)選的實(shí)施例中提供了一種可視化大數(shù)據(jù)分析方法,包括:

S101、采集原始數(shù)據(jù)并對(duì)原始數(shù)據(jù)進(jìn)行ETL操作;其中,原始數(shù)據(jù)包括離線數(shù)據(jù)和/或?qū)崟r(shí)流式數(shù)據(jù)。

其中,客戶(hù)原始數(shù)據(jù)既可以包含離線數(shù)據(jù)(CSV、JSON、各種文本格式原始數(shù)據(jù))也可以包含實(shí)時(shí)的流式數(shù)據(jù)(通過(guò)監(jiān)聽(tīng)服務(wù)器服務(wù)端口、通過(guò)各種實(shí)時(shí)采集技術(shù)如Flume等各種中間件上報(bào)的數(shù)據(jù)),統(tǒng)一完成了對(duì)客戶(hù)提供的各種原始數(shù)據(jù)的匯總、轉(zhuǎn)化、提取工作,使各種不同格式、不同途徑的原始海量數(shù)據(jù)完成了進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)中的前期工作。

在S101中,ETL操作都是通過(guò)底層的SOCKET操作完成,最大化利用網(wǎng)絡(luò)資源,同時(shí)最大化提升了ETL性能。

原始數(shù)據(jù)可以來(lái)源于FTP上傳的數(shù)據(jù),具體有各個(gè)管理局、運(yùn)營(yíng)商和其他第三方廠商提供。

S102、對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗得到基礎(chǔ)數(shù)據(jù)。

具體地,根據(jù)業(yè)務(wù)規(guī)則對(duì)原始數(shù)據(jù)過(guò)濾得到業(yè)務(wù)數(shù)據(jù),其中,業(yè)務(wù)規(guī)則為用戶(hù)自定義業(yè)務(wù)規(guī)則或者預(yù)設(shè)規(guī)則;

將業(yè)務(wù)數(shù)據(jù)進(jìn)行格式化得到基礎(chǔ)數(shù)據(jù)。

對(duì)原始數(shù)據(jù)過(guò)濾得到業(yè)務(wù)數(shù)據(jù)包括:原始文本數(shù)據(jù)分割標(biāo)示的明確、不符合要求數(shù)據(jù)的過(guò)濾和提示、原始數(shù)據(jù)基本的數(shù)據(jù)加標(biāo)記等。

由于原始數(shù)據(jù)的格式、規(guī)范可能不一樣,就需要系統(tǒng)對(duì)原始數(shù)據(jù)進(jìn)行統(tǒng)一個(gè)格式化,確保系統(tǒng)中數(shù)據(jù)的格式統(tǒng)一。具體的處理包含:對(duì)運(yùn)營(yíng)商提供的僵木蠕、惡意事件、惡意樣本等原始數(shù)據(jù)進(jìn)行加標(biāo)記操作,對(duì)所有數(shù)據(jù)日期進(jìn)行處理,添加年月日數(shù)據(jù)字段(ever data格式Y(jié)YYYMMDD),處理完成的數(shù)據(jù)會(huì)根據(jù)輪詢(xún)方式把數(shù)據(jù)發(fā)送到分布式文件系統(tǒng)中數(shù)據(jù)節(jié)點(diǎn)的每個(gè)服務(wù)器上。

S103、對(duì)所述基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)業(yè)務(wù)處理,生成基本的數(shù)據(jù)結(jié)果。

具體地,對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)關(guān)聯(lián)處理、挖掘業(yè)務(wù)模型和迭代計(jì)算;

根據(jù)挖掘的業(yè)務(wù)模型對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行迭代計(jì)算,得到基本的數(shù)據(jù)結(jié)果;

其中,數(shù)據(jù)關(guān)聯(lián)處理包括對(duì)基礎(chǔ)數(shù)據(jù)IP定位、手機(jī)號(hào)定位或僵木蠕類(lèi)型定位。

具體地,對(duì)原始數(shù)據(jù)進(jìn)行IP定位、手機(jī)號(hào)定位、僵木蠕類(lèi)型定位等操作。這部分需要數(shù)據(jù)的支持,包含IP類(lèi):IP全球資源庫(kù)、IP全國(guó)IDC機(jī)房資源庫(kù),手機(jī)號(hào)碼類(lèi):全國(guó)手機(jī)號(hào)碼段資源庫(kù),僵木蠕類(lèi):僵木蠕類(lèi)別庫(kù)。

其中,挖掘業(yè)務(wù)模型具體包括:用戶(hù)根據(jù)已知的業(yè)務(wù)邏輯形成數(shù)據(jù)基本的計(jì)算模型。

根據(jù)挖掘的業(yè)務(wù)模型對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行迭代計(jì)算,得到基本的數(shù)據(jù)結(jié)果可以作為可視化分析的基礎(chǔ)。

S104、建立可視化分析模型并根據(jù)所述可視化分析模型和所述基本的數(shù)據(jù)結(jié)果得到分析結(jié)果,可視化顯示所述分析結(jié)果。

其中,建立可視化分析模型具體包括:

根據(jù)用戶(hù)指示生成可視化的初步分析模型;

用戶(hù)將初步分析模型與預(yù)期分析模型進(jìn)行比對(duì),調(diào)整初步分析模型;

當(dāng)初步分析模型與預(yù)期分析模型一致時(shí),判定生成最終的可視化分析模型。

在可視化分析模型建立系統(tǒng)中,預(yù)先設(shè)置有可供用戶(hù)選擇的數(shù)據(jù)結(jié)果模型,并以可視化圖形的方式展示給用戶(hù);用戶(hù)根據(jù)展示的可視化數(shù)據(jù)種類(lèi)選擇需要參與模型計(jì)算的數(shù)據(jù),數(shù)據(jù)種類(lèi)的具體模型結(jié)構(gòu)可視化展示給用戶(hù);用戶(hù)選定數(shù)據(jù)種類(lèi)后,根據(jù)業(yè)務(wù)類(lèi)型,拖拽特定的模型并結(jié)合進(jìn)行模型計(jì)算的屬性建立模型計(jì)算關(guān)系;系統(tǒng)根據(jù)用戶(hù)的選擇返回模型的結(jié)果,并不斷的可視化調(diào)整得到最終的分析模型。此時(shí),可以將該分析模型大規(guī)模的在全量數(shù)據(jù)中使用,為業(yè)務(wù)決策提供數(shù)據(jù)支撐,挖掘各種業(yè)務(wù)數(shù)據(jù),提升公司歷史數(shù)據(jù)的價(jià)值。

可視化分析模型是建立可以幫助業(yè)務(wù)人員直接快速的操作數(shù)據(jù),進(jìn)行業(yè)務(wù)挖掘,模型建立,極大的簡(jiǎn)化了數(shù)據(jù)業(yè)務(wù)的處理,加快了數(shù)據(jù)處理速度。

在將基本的數(shù)據(jù)結(jié)果輸入到可視化分析模型中后會(huì)得到分析結(jié)果,具體地,可視化分析模型會(huì)還原客戶(hù)的計(jì)算模型,一步步按照客戶(hù)設(shè)定的模型進(jìn)行計(jì)算的還原,還原成一個(gè)個(gè)小的計(jì)算單元。

可選的,可視化分析模型配置有展示接口、查詢(xún)接口;

其中,展示接口用于實(shí)時(shí)展示分析結(jié)果;

其中,查詢(xún)接口用于將分析結(jié)果分享到其他系統(tǒng)建立分析模型云平臺(tái)。

本發(fā)明實(shí)施例提供的一種可視化大數(shù)據(jù)分析方法,提供大數(shù)據(jù)的可視化處理流程,能更好的為海量數(shù)據(jù)處理提供技術(shù)解決,可以更好的為業(yè)務(wù)處理人員提供幫助,更好的聚焦于數(shù)據(jù)實(shí)際業(yè)務(wù),快速得到模型結(jié)果,更好的為業(yè)務(wù)決策提供數(shù)據(jù)支撐。

參見(jiàn)圖2,在另一優(yōu)選的實(shí)施例中,提供了一種可視化大數(shù)據(jù)分析系統(tǒng),該系統(tǒng)包括:

數(shù)據(jù)采集模塊201,用于采集原始數(shù)據(jù)并對(duì)原始數(shù)據(jù)進(jìn)行ETL操作;其中,原始數(shù)據(jù)包括離線數(shù)據(jù)和/或?qū)崟r(shí)流式數(shù)據(jù);

數(shù)據(jù)清洗模塊202,用于對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗得到基礎(chǔ)數(shù)據(jù);

數(shù)據(jù)處理模塊203,用于對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)業(yè)務(wù)處理,生成基本的數(shù)據(jù)結(jié)果;

分析顯示模塊204,用于建立可視化分析模型并根據(jù)可視化分析模型和基本的數(shù)據(jù)結(jié)果得到分析結(jié)果,可視化顯示分析結(jié)果。

優(yōu)選地,數(shù)據(jù)清洗模塊202具體用于:

根據(jù)業(yè)務(wù)規(guī)則對(duì)原始數(shù)據(jù)過(guò)濾得到業(yè)務(wù)數(shù)據(jù),其中,業(yè)務(wù)規(guī)則為用戶(hù)自定義業(yè)務(wù)規(guī)則或者預(yù)設(shè)規(guī)則;

將業(yè)務(wù)數(shù)據(jù)進(jìn)行格式化得到基礎(chǔ)數(shù)據(jù)。

優(yōu)選地,數(shù)據(jù)處理模塊203具體用于:

對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)關(guān)聯(lián)處理、挖掘業(yè)務(wù)模型和迭代計(jì)算;

根據(jù)挖掘的業(yè)務(wù)模型對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行迭代計(jì)算,得到基本的數(shù)據(jù)結(jié)果;

其中,數(shù)據(jù)關(guān)聯(lián)處理包括對(duì)基礎(chǔ)數(shù)據(jù)IP定位、手機(jī)號(hào)定位或僵木蠕類(lèi)型定位。

優(yōu)選地,分析顯示模塊204具體用于:

根據(jù)用戶(hù)指示生成可視化的初步分析模型;

用戶(hù)將初步分析模型與預(yù)期分析模型進(jìn)行比對(duì),調(diào)整初步分析模型;

當(dāng)初步分析模型與預(yù)期分析模型一致時(shí),判定生成最終的可視化分析模型。

可選的,本實(shí)施例中的系統(tǒng)還包括接口模塊205,用于將分析結(jié)果提供給其他系統(tǒng)或者提供查詢(xún)服務(wù)。

具體地,在可視化分析模型配置有展示接口、查詢(xún)接口;

其中,展示接口用于實(shí)時(shí)展示分析結(jié)果;

其中,查詢(xún)接口用于將分析結(jié)果分享到其他系統(tǒng)建立分析模型云平臺(tái)。

本發(fā)明實(shí)施例提供的一種可視化大數(shù)據(jù)分析系統(tǒng),通過(guò)數(shù)據(jù)采模塊201,可以采集各種類(lèi)型的原始數(shù)據(jù),并且可以通過(guò)ETL操作對(duì)原始數(shù)據(jù)進(jìn)行匯總、提取等工作,最大化的利用網(wǎng)絡(luò)資源;通過(guò)數(shù)據(jù)清洗模塊202,可以對(duì)原始數(shù)據(jù)進(jìn)行初步的處理,濾除非業(yè)務(wù)數(shù)據(jù),使得原始數(shù)據(jù)具有一致性;通過(guò)數(shù)據(jù)處理模塊203,對(duì)得到的基礎(chǔ)數(shù)據(jù)進(jìn)行迭代計(jì)算,得到可用做可視化分析的結(jié)果;通過(guò)分析顯示模塊204,用戶(hù)可以可視化的選擇建立可視化分析模型,并將分析結(jié)果可視化顯示,使得數(shù)據(jù)的分析和處理更具有直觀性和可控性;通過(guò)接口模塊205,可以將分析結(jié)果與其他系統(tǒng)查詢(xún)和共享,可視化顯示的同時(shí)建立數(shù)據(jù)分析的云平臺(tái)。本實(shí)施例提供的大數(shù)據(jù)可視化處理系統(tǒng),能更好的為海量數(shù)據(jù)處理提供技術(shù)解決,可以更好的為業(yè)務(wù)處理人員提供幫助,更好的聚焦于數(shù)據(jù)實(shí)際業(yè)務(wù),快速得到模型結(jié)果,更好的為業(yè)務(wù)決策提供數(shù)據(jù)支撐。

參見(jiàn)圖3,在另一優(yōu)選的實(shí)施例中,提供了一種可視化大數(shù)據(jù)分析系統(tǒng),包括:FTP服務(wù)器、數(shù)據(jù)中心和網(wǎng)安平臺(tái),其中,F(xiàn)TP服務(wù)器用于采集原始數(shù)據(jù),此處的原始數(shù)據(jù)可以是各個(gè)管理局、運(yùn)營(yíng)商和其他第三方廠商提供的。網(wǎng)安平臺(tái)用于提供查詢(xún)分析結(jié)果的入口平臺(tái)和可視化展示查詢(xún)結(jié)果。數(shù)據(jù)中心存儲(chǔ)有數(shù)據(jù)分析程序,用于執(zhí)行以下操作:

對(duì)FTP服務(wù)器采集的原始數(shù)據(jù)進(jìn)行ETL操作;其中,原始數(shù)據(jù)包括離線數(shù)據(jù)和/或?qū)崟r(shí)流式數(shù)據(jù)。

ETL操作都是通過(guò)底層的SOCKET操作完成,最大化利用網(wǎng)絡(luò)資源,同時(shí)最大化提升了ETL性能。

對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗得到基礎(chǔ)數(shù)據(jù)。

具體地,對(duì)所述原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗得到基礎(chǔ)數(shù)據(jù)包括:

根據(jù)業(yè)務(wù)規(guī)則對(duì)原始數(shù)據(jù)過(guò)濾得到業(yè)務(wù)數(shù)據(jù),其中,業(yè)務(wù)規(guī)則為用戶(hù)自定義業(yè)務(wù)規(guī)則或者預(yù)設(shè)規(guī)則;

將業(yè)務(wù)數(shù)據(jù)進(jìn)行格式化得到基礎(chǔ)數(shù)據(jù)。

對(duì)原始數(shù)據(jù)過(guò)濾得到業(yè)務(wù)數(shù)據(jù)包括:原始文本數(shù)據(jù)分割標(biāo)示的明確、不符合要求數(shù)據(jù)的過(guò)濾和提示、原始數(shù)據(jù)基本的數(shù)據(jù)加標(biāo)記等。

由于原始數(shù)據(jù)的格式、規(guī)范可能不一樣,就需要系統(tǒng)對(duì)原始數(shù)據(jù)進(jìn)行統(tǒng)一個(gè)格式化,確保系統(tǒng)中數(shù)據(jù)的格式統(tǒng)一。具體的處理包含:對(duì)運(yùn)營(yíng)商提供的僵木蠕、惡意事件、惡意樣本等原始數(shù)據(jù)進(jìn)行加標(biāo)記操作,對(duì)所有數(shù)據(jù)日期進(jìn)行處理,添加年月日數(shù)據(jù)字段(ever data格式Y(jié)YYYMMDD),格式化后的基礎(chǔ)數(shù)據(jù)形成處理后數(shù)據(jù)目錄,然后根據(jù)輪詢(xún)的方式把數(shù)據(jù)發(fā)送到分布式文件系統(tǒng)(HDFS文件系統(tǒng))中數(shù)據(jù)節(jié)點(diǎn)的每個(gè)服務(wù)器上。

對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)業(yè)務(wù)處理,生成基本的數(shù)據(jù)結(jié)果。

具體地,對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)業(yè)務(wù)處理,生成基本的數(shù)據(jù)結(jié)果包括:

對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)關(guān)聯(lián)處理、挖掘業(yè)務(wù)模型和迭代計(jì)算;

根據(jù)挖掘的業(yè)務(wù)模型對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行迭代計(jì)算,得到基本的數(shù)據(jù)結(jié)果。

對(duì)存儲(chǔ)于上述Hadoop分布式文件系統(tǒng)中的基礎(chǔ)數(shù)據(jù)通過(guò)Spark數(shù)據(jù)關(guān)聯(lián)定位,該定位包括IP定位、手機(jī)號(hào)定位或僵木蠕類(lèi)型定位。

具體地,對(duì)原始數(shù)據(jù)進(jìn)行IP定位、手機(jī)號(hào)定位、僵木蠕類(lèi)型定位等操作。這部分需要數(shù)據(jù)的支持,包含IP類(lèi):IP全球資源庫(kù)、IP全國(guó)IDC機(jī)房資源庫(kù),手機(jī)號(hào)碼類(lèi):全國(guó)手機(jī)號(hào)碼段資源庫(kù),僵木蠕類(lèi):僵木蠕類(lèi)別庫(kù)。

其中,挖掘業(yè)務(wù)模型具體包括:用戶(hù)根據(jù)已知的業(yè)務(wù)邏輯形成數(shù)據(jù)基本的計(jì)算模型。

根據(jù)挖掘的業(yè)務(wù)模型對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行迭代計(jì)算,得到基本的數(shù)據(jù)結(jié)果可以作為可視化分析的基礎(chǔ)。

關(guān)聯(lián)定位后的基本的數(shù)據(jù)結(jié)果上傳至Hadoop分布式文件系統(tǒng)(HDFS文件系統(tǒng)中)中;然后建立可視化分析模型并根據(jù)可視化分析模型和基本的數(shù)據(jù)結(jié)果得到分析結(jié)果。具體地,建立可視化分析模型包括:

根據(jù)用戶(hù)指示生成可視化的初步分析模型;

用戶(hù)將所述初步分析模型與預(yù)期分析模型進(jìn)行比對(duì),調(diào)整所述初步分析模型;

當(dāng)所述初步分析模型與預(yù)期分析模型一致時(shí),判定生成最終的可視化分析模型。

在可視化分析模型建立系統(tǒng)中,預(yù)先設(shè)置有可供用戶(hù)選擇的數(shù)據(jù)結(jié)果模型,并以可視化圖形的方式展示給用戶(hù);用戶(hù)根據(jù)展示的可視化數(shù)據(jù)種類(lèi)選擇需要參與模型計(jì)算的數(shù)據(jù),數(shù)據(jù)種類(lèi)的具體模型結(jié)構(gòu)可視化展示給用戶(hù);用戶(hù)選定數(shù)據(jù)種類(lèi)后,根據(jù)業(yè)務(wù)類(lèi)型,拖拽特定的模型并結(jié)合進(jìn)行模型計(jì)算的屬性建立模型計(jì)算關(guān)系;系統(tǒng)根據(jù)用戶(hù)的選擇返回模型的結(jié)果,并不斷的可視化調(diào)整得到最終的分析模型。

數(shù)據(jù)中心的數(shù)據(jù)存儲(chǔ)和處理基于分布式文件系統(tǒng)Hadoop,便于系統(tǒng)中數(shù)據(jù)安全和擴(kuò)展。數(shù)據(jù)中心主要解決大量數(shù)據(jù)中數(shù)據(jù)查詢(xún)結(jié)果的返回,為了解決數(shù)據(jù)普通查詢(xún)和統(tǒng)計(jì)分析結(jié)果實(shí)時(shí)返回的問(wèn)題,架構(gòu)中重點(diǎn)使用了巨杉數(shù)據(jù)庫(kù)提供在大批量數(shù)據(jù)中普通查詢(xún)結(jié)果的即時(shí)搜索功能,Impala查詢(xún)架構(gòu)提供了統(tǒng)計(jì)分析結(jié)果的實(shí)時(shí)搜索功能。

Hadoop分布式文件系統(tǒng)(HDFS)與ES數(shù)據(jù)庫(kù)和Impala查詢(xún)服務(wù)連接,其中ES數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)用于提供關(guān)聯(lián)查詢(xún)結(jié)果和分頁(yè)查詢(xún)結(jié)果,Impala查詢(xún)服務(wù)用于提供統(tǒng)計(jì)分析查詢(xún)結(jié)果。

可選的,數(shù)據(jù)中心還配置有查詢(xún)接口,用于提供數(shù)據(jù)查詢(xún)服務(wù)。該查詢(xún)接口一端與Impala查詢(xún)服務(wù)和ES查詢(xún)服務(wù)連接,另一端與網(wǎng)安平臺(tái)連接。數(shù)據(jù)查詢(xún)接口服務(wù)具體包括:認(rèn)證訪問(wèn)接口、統(tǒng)計(jì)分析任務(wù)下發(fā)接口、關(guān)聯(lián)查詢(xún)?nèi)蝿?wù)下發(fā)接口、結(jié)果查詢(xún)接口、任務(wù)刪除接口、數(shù)據(jù)添加接口和數(shù)據(jù)文件批量導(dǎo)入接口等。

可選的,數(shù)據(jù)中心還配置有展示接口,用于實(shí)時(shí)展示分析結(jié)果。

本發(fā)明實(shí)施例提供的一種可視化大數(shù)據(jù)分析系統(tǒng),提供大數(shù)據(jù)的可視化處理和可視化展示,解決數(shù)據(jù)格式統(tǒng)一、完整、正確、及時(shí)性等的問(wèn)題,并且可以對(duì)數(shù)據(jù)進(jìn)行各種分析和關(guān)聯(lián),達(dá)到解決客戶(hù)現(xiàn)實(shí)問(wèn)題的能力。能更好的為海量數(shù)據(jù)處理提供技術(shù)解決,可以更好的為業(yè)務(wù)處理人員提供幫助,更好的聚焦于數(shù)據(jù)實(shí)際業(yè)務(wù),快速得到模型結(jié)果,更好的為業(yè)務(wù)決策提供數(shù)據(jù)支撐。

需要說(shuō)明的是:所述實(shí)施例提供的可視化大數(shù)據(jù)分析系統(tǒng)在執(zhí)行大數(shù)據(jù)分析方法時(shí),僅以所述各功能模塊的劃分進(jìn)行舉例說(shuō)明,實(shí)際應(yīng)用中,可以根據(jù)需要而將所述功能分配由不同的功能模塊完成,即將裝置的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,所述實(shí)施例提供的可視化大數(shù)據(jù)分析方法和系統(tǒng)屬于同一構(gòu)思,其具體實(shí)現(xiàn)過(guò)程詳見(jiàn)實(shí)施例,這里不再贅述。

本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)所述實(shí)施例的全部或部分步驟可以通過(guò)硬件來(lái)完成,也可以通過(guò)程序來(lái)指令相關(guān)的硬件完成,所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,所述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤(pán)或光盤(pán)等。

以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1