亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種流數據的實時分析處理方法及系統(tǒng)與流程

文檔序號:11230540閱讀:782來源:國知局
一種流數據的實時分析處理方法及系統(tǒng)與流程

本發(fā)明涉及數據分析領域,尤其涉及一種流數據的實時分析處理方法及系統(tǒng)。



背景技術:

隨著移動互聯(lián)網的迅猛發(fā)展,大數據時代的到來,需要實時分析處理的數據也越來越多,現有的處理數據的方法包括以下幾個步驟:數據接入、數據匯聚、數據沉淀和數據可視化展現,現有的數據處理平臺通常是根據業(yè)務需求將流數據處理方法結合實時分析腳本搭建的數據處理平臺,這種數據處理平臺需要大量的人力成本去解讀業(yè)務需求、開發(fā)分析腳本,具有開發(fā)成本高、開發(fā)難度大的缺點?,F有的數據處理平臺在面臨大規(guī)模的數據處理和復雜多樣的業(yè)務場景時,具有以下的問題:

1、流數據實時分析處理平臺開發(fā)難度大,需要熟悉各種技術組件的接口及編程規(guī)范,每個業(yè)務腳本都需要進行大量的編碼和測試。

2、通過提交業(yè)務規(guī)則文檔給技術人員進行業(yè)務配置的流程長,比較繁瑣,需要技術人員再進行業(yè)務規(guī)則的二次解讀,無法高效的進行業(yè)務的配置。

3、無法對數據進行及時地數據可視化展現。



技術實現要素:

本發(fā)明所要解決的技術問題是針對數據處理系統(tǒng)開發(fā)成本高、開發(fā)難度大、業(yè)務配置效率低且無法對數據進行及時地數據可視化展現的問題,提供一種流數據的實時分析處理方法及系統(tǒng)。

本發(fā)明解決上述技術問題的技術方案如下:

一種流數據的實時分析處理方法,包括以下步驟:

步驟1,獲取通過圖形化配置工具配置的圖形化處理規(guī)則,將所述處理規(guī)則轉換成sql語句;

步驟2,獲取需要進行實時分析處理的流數據;

步驟3,從所述流數據中提取關鍵字段;

步驟4,根據所述關鍵字段繪制寬表;

步驟5,根據所述sql語句和所述寬表對所述流數據進行實時分析處理。

本發(fā)明的有益效果是:本發(fā)明提供的一種流數據的實時分析處理方法,通過獲取通過圖形化配置工具配置的處理規(guī)則,將處理規(guī)則轉換為sql語言,再獲取流數據,根據流數據繪制寬表,結合sql化的規(guī)則和寬表對流數據進行處理,解決了當前數據實時分析處理系統(tǒng)腳本編程復雜、資源無法高效使用、業(yè)務配置繁瑣的問題,可以有效地提高開發(fā)效率,通過圖形化配置工具配置處理規(guī)則,無需通過技術人員確認口徑是否準確、如何轉化成專業(yè)的技術語言,提高了業(yè)務配置的效率,解決了業(yè)務人員一直存在的不能夠自主配置業(yè)務口徑的問題。

在上述技術方案的基礎上,本發(fā)明還可以做如下改進。

進一步地,所述處理規(guī)則由預先設置好的運算符號、邏輯符號和業(yè)務原子指標根據實際業(yè)務需求組合而成,其中,所述運算符號為用于進行數學運算的符號,所述邏輯符號為用于進行邏輯運算的符號,所述業(yè)務原子指標為通過對流數據中的與業(yè)務相關的業(yè)務指標進行分解得到的底層元數據。

進一步地,步驟2還包括:

步驟21,從所述流數據中提取多個業(yè)務指標的單表增量數據;

步驟22,將多個所述業(yè)務指標的單表增量數據與對應的存量數據存放在相同的位置中,得到多個所述業(yè)務指標的單表增存數據;

步驟23,將多個所述業(yè)務指標的單表增存數據進行整合,使整合后的所有業(yè)務指標的單表增存數據有共同的唯一主鍵。

采用上述進一步方案的有益效果是:通過對原始的流數據進行數據匯聚和數據整合,再對處理過的數據進行實時分析,能夠提高實時分析處理的效率,同時便于處理過程中數據的可視化顯示。

進一步地,步驟5中,通過hive平臺對所述流數據進行實時分析處理。

進一步地,步驟5具體包括:

步驟5.1,獲取hive源表;

步驟5.2,根據業(yè)務需求對所述hive源表進行整合;

步驟5.3,將所述寬表加載到所述hive源表中;

步驟5.4,通過python腳本加載所述sql語句;

步驟5.5,根據所述hive源表加載所述流數據;

步驟5.6,根據所述sql語句對所述流數據進行處理。

進一步地,還包括:

步驟6,對進行實時分析處理的所述流數據進行實時的可視化顯示。

本發(fā)明解決上述技術問題的另一種技術方案如下:

一種流數據的實時分析處理系統(tǒng),包括:

規(guī)則配置模塊,用于獲取通過圖形化配置工具配置的圖形化處理規(guī)則;

規(guī)則轉換模塊,用于將所述處理規(guī)則轉換成sql語句;

數據處理模塊,用于獲取需要進行實時分析處理的流數據;

寬表生成模塊,用于從所述流數據中提取關鍵字段,并根據所述關鍵字段繪制寬表;

實時分析處理模塊,用于根據所述sql語句和所述寬表對所述流數據進行實時分析處理。

進一步地,所述處理規(guī)則由預先設置好的運算符號、邏輯符號和業(yè)務原子指標根據實際業(yè)務需求組合而成,其中,所述運算符號為用于進行數學運算的符號,所述邏輯符號為用于進行邏輯運算的符號,所述業(yè)務原子指標為通過對流數據中的與業(yè)務相關的業(yè)務指標進行分解得到的底層元數據。

進一步地,所述數據處理模塊還用于從所述流數據中提取多個業(yè)務指標的單表增量數據,將多個所述業(yè)務指標的單表增量數據與對應的存量數據存放在相同的位置中,得到多個所述業(yè)務指標的單表增存數據,并將多個所述業(yè)務指標的單表增存數據進行整合,使整合后的所有業(yè)務指標的單表增存數據有共同的唯一主鍵。

進一步地,實時分析處理模塊具體用于通過hive平臺對所述流數據進行實時分析處理。

進一步地,實時分析處理模塊包括:

源表獲取單元,用于獲取hive源表;

源表整合單元,用于根據業(yè)務需求對所述hive源表進行整合;

源表加載單元,用于將所述寬表加載到所述hive源表中,并通過python腳本加載所述sql語句;

數據處理單元,用于根據所述sql語句對所述流數據進行處理。

進一步地,所述規(guī)則配置模塊還用于對進行實時分析處理的所述流數據進行實時的可視化顯示。

本發(fā)明附加的方面的優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明實踐了解到。

附圖說明

圖1為本發(fā)明實施例提供的一種流數據的實時分析處理方法的流程示意圖;

圖2為本發(fā)明另一實施例提供的一種流數據的實時分析處理系統(tǒng)的結構框架圖。

具體實施方式

以下結合附圖對本發(fā)明的原理和特征進行描述,所舉實例只用于解釋本發(fā)明,并非用于限定本發(fā)明的范圍。

如圖1所示,為本發(fā)明實施例提供的一種流數據的實時分析處理方法的流程示意圖,該方法包括:

s101,獲取通過圖形化配置工具配置的圖形化處理規(guī)則,將處理規(guī)則轉換成sql語句;

s102,獲取需要進行實時分析處理的流數據;

s103,從流數據中提取關鍵字段;

s104,根據關鍵字段繪制寬表;

s105,根據sql語句和寬表對流數據進行實時分析處理。

上述實施例中提供的一種流數據的實時分析處理方法,通過獲取通過圖形化配置工具配置的處理規(guī)則,將處理規(guī)則轉換為sql語言,再獲取流數據,根據流數據繪制寬表,結合sql化的規(guī)則和寬表對流數據進行處理,解決了當前數據實時分析處理系統(tǒng)腳本編程復雜、資源無法高效使用、業(yè)務配置繁瑣的問題,可以有效地提高開發(fā)效率,通過圖形化配置工具配置處理規(guī)則,無需通過技術人員確認口徑是否準確、如何轉化成專業(yè)的技術語言,提高了業(yè)務配置的效率,解決了業(yè)務人員一直存在的不能夠自主配置業(yè)務口徑的問題。

在另一實施例中,以移動業(yè)務為例,提供的一種流數據的實時分析處理方法的流程,該方法包括以下步驟:

獲取通過圖形化配置工具配置的圖形化處理規(guī)則,其中,圖形化處理規(guī)則指的是由圖形化配置工具配置的,進行圖形化、可視化、可解讀展示的業(yè)務規(guī)則,可以將業(yè)務規(guī)則中的各元素通過圖形的形式展示出來,由預先設置好的運算符號、邏輯符號和業(yè)務原子指標根據實際業(yè)務需求組合而成,運算符號為用于進行數學運算的符號,包含加、減、乘、除、括號等運算符號,邏輯符號為用于進行邏輯運算的符號,包含和、或等邏輯比較符號,業(yè)務原子指標為通過對流數據中的與業(yè)務相關的業(yè)務指標進行分解得到的底層元數據,包含銷售品原子指標、產品原子指標、訂單屬性原子指標等,例如,銷售品原子指標就是一個單獨的元素,使用者通過拖拽等操作,與運算符號、邏輯符號等進行排列和組合,形成一條完整的業(yè)務規(guī)則;

將處理規(guī)則轉換成sql語句,例如,通過圖形化配置工具配置了以下業(yè)務規(guī)則:“銷售品=飛young19套餐(集團網廳專用)(僅遷移)_zj和產品=移動電話和(訂單屬性=訂單狀態(tài)(新建)或訂單屬性=訂單子行為(新增))”,其中,“銷售品、產品、訂單屬性”都是業(yè)務原子指標,“括號”為運算符號,“等號、或、和”為邏輯符號,轉化為sql語句:“(prom_row_id='zl2012061980686'andprod_id='1-8gf4jtw'and(status_cd='新建'orx_action_type='新增'))andprod_name='產品新增'”;

獲取需要進行實時分析處理的流數據,由于流數據是不斷增加的,因此,以當前的存量數據為基礎,獲取需要處理的業(yè)務原子指標的單表增量數據,將多個業(yè)務指標的單表增量數據與對應的存量數據存放在相同的位置中,例如,以訂單子行為(新增)為例,對應的存量數據存放在a表中,在獲得新的訂單子行為(新增)數據后,存放在a表的相應位置中,得到多個業(yè)務指標的單表增存數據,將多個業(yè)務指標的單表增存數據進行整合,使整合后的所有業(yè)務指標的單表增存數據有共同的唯一主鍵,例如,a表和b表有唯一的主鍵,b表為銷售品的數據,則將a表與b表整合成為一張表;

從流數據中提取關鍵字段,例如,當處理產品新增訂單的數據時,關鍵字段可以為產品、訂單子行為(新增)等;

根據關鍵字段繪制寬表,寬表是流數據處理的基礎,數據源;

根據sql語句和寬表,通過hive平臺對流數據進行實時分析處理,具體包括:獲取hive源表,根據業(yè)務需求對hive源表進行整合,將寬表加載到hive源表中,通過python腳本加載sql語句,根據hive源表加載流數據,根據sql語句對流數據進行處理;

對進行實時分析處理的流數據進行實時的可視化顯示,獲取進行實時分析處理的流數據,實時地將分析結果和數據通過可視化配置工具進行顯示。

進一步,業(yè)務指標通過以下兩種方式分解為業(yè)務原子指標:

通過維表提取相同類的業(yè)務指標;

或,通過原子指標分析模塊對業(yè)務指標進行分析得到業(yè)務原子指標。

在另一實施例中,如圖2所示,為本發(fā)明另一實施例提供的一種流數據的實時分析處理系統(tǒng)的結構框架圖,該系統(tǒng)包括:

規(guī)則配置模塊210,用于獲取通過圖形化配置工具配置的圖形化處理規(guī)則;

規(guī)則轉換模塊220,用于將處理規(guī)則轉換成sql語句;

數據處理模塊230,用于獲取需要進行實時分析處理的流數據;

寬表生成模塊240,用于從流數據中提取關鍵字段,并根據關鍵字段繪制寬表;

實時分析處理模塊250,用于根據sql語句和寬表對流數據進行實時分析處理。

進一步,處理規(guī)則由預先設置好的運算符號、邏輯符號和業(yè)務原子指標根據實際業(yè)務需求組合而成,其中,運算符號為用于進行數學運算的符號,邏輯符號為用于進行邏輯運算的符號,業(yè)務原子指標為通過對流數據中的與業(yè)務相關的業(yè)務指標進行分解得到的底層元數據。

進一步,數據處理模塊230還用于從流數據中提取多個業(yè)務指標的單表增量數據,將多個業(yè)務指標的單表增量數據與對應的存量數據存放在相同的位置中,得到多個業(yè)務指標的單表增存數據,并將多個業(yè)務指標的單表增存數據進行整合,使整合后的所有業(yè)務指標的單表增存數據有共同的唯一主鍵。

進一步,實時分析處理模塊250具體用于通過hive平臺對流數據進行實時分析處理。

進一步,實時分析處理模塊250包括:

源表獲取單元251,用于獲取hive源表;

源表整合單元252,用于根據業(yè)務需求對hive源表進行整合;

源表加載單元253,用于將寬表加載到hive源表中,并通過python腳本加載sql語句;

數據處理單元254,用于根據sql語句對流數據進行處理。

進一步,規(guī)則配置模塊210還用于對進行實時分析處理的流數據進行實時的可視化顯示。

所屬領域的技術人員可以清楚地了解到,為了描述的方便和簡潔,上述描述的裝置和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。

在本申請所提供的幾個實施例中,應該理解到,所揭露的系統(tǒng)和方法,可以通過其它的方式實現。例如,以上所描述的系統(tǒng)實施例僅僅是示意性的,例如,模塊的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個模塊或單元可以結合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另外,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口、裝置或單元的間接耦合或通信連接,也可以是電的,機械的或其它的形式連接。

以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1