本發(fā)明實施例涉及互聯(lián)網(wǎng)大數(shù)據(jù)處理
技術領域:
,尤其涉及一種流式數(shù)據(jù)的檢測方法及裝置。
背景技術:
:在大數(shù)據(jù)時代,隨著數(shù)據(jù)量的爆炸式增長及對數(shù)據(jù)處理的環(huán)節(jié)的增加,在數(shù)據(jù)運營方面的精細化處理對各家互聯(lián)網(wǎng)企業(yè)提出了更高的要求。如何讓不斷增長的數(shù)據(jù)完整無缺的展現(xiàn)在用戶面前、如何檢測各個節(jié)點是否正常工作成為很多大數(shù)據(jù)系統(tǒng)的關鍵性問題。目前絕大多數(shù)的大數(shù)據(jù)處理采用流式數(shù)據(jù)處理方式,即數(shù)據(jù)處理采用流水線作業(yè),各個數(shù)據(jù)處理環(huán)節(jié)依賴上一處理環(huán)節(jié)的輸出?,F(xiàn)有技術中,在采用流式數(shù)據(jù)處理方式處理大數(shù)據(jù)時,當某一環(huán)節(jié)出現(xiàn)問題時,檢測結果很難準確定位到具體環(huán)節(jié),使得故障點耦合度高,數(shù)據(jù)檢測的精確度及效率較低。技術實現(xiàn)要素:本發(fā)明提供一種流式數(shù)據(jù)的檢測方法及裝置,以提高數(shù)據(jù)檢測的準確度及效率。第一方面,本發(fā)明實施例提供了一種流式數(shù)據(jù)的檢測方法,所述流式數(shù)據(jù)的檢測方法包括:數(shù)據(jù)源節(jié)點為目標數(shù)據(jù)流中每組數(shù)據(jù)配置基于時間的時隙標記,所述每組數(shù)據(jù)經(jīng)所述數(shù)據(jù)源節(jié)點依次發(fā)送至多個數(shù)據(jù)處理節(jié)點;所述數(shù)據(jù)處理節(jié)點根據(jù)所述時隙標記生成時隙記錄,所述時隙記錄包括具有相同時隙標記的多組數(shù)據(jù)對應的初始接收時間、更新時間以及所述多組數(shù)據(jù)對應的數(shù)據(jù)量;所述數(shù)據(jù)處理節(jié)點根據(jù)所述時隙記錄生成第一時隙清單,所述第一時隙清單包括至少一條所述時隙記錄;數(shù)據(jù)中心根據(jù)預設時間間隔分別獲取每個數(shù)據(jù)節(jié)點生成的所述第一時隙清單,并將每個數(shù)據(jù)處理節(jié)點對應的多個所述第一時隙清單進行合并,得到第二時隙清單,所述第二時隙清單與所述數(shù)據(jù)處理節(jié)點一一對應;根據(jù)所述多個數(shù)據(jù)處理節(jié)點對應的多個第二時隙清單中記錄的數(shù)據(jù)量,確定所述多個處理節(jié)點中的故障節(jié)點。進一步地,所述數(shù)據(jù)源節(jié)點為目標數(shù)據(jù)流中每組數(shù)據(jù)配置基于時間的時隙標記,包括:若所述目標數(shù)據(jù)流中斷,則生成測試空數(shù)據(jù)包;為所述測試空數(shù)據(jù)包配置基于時間的時隙標記。進一步地,所述數(shù)據(jù)處理節(jié)點根據(jù)所述時隙記錄生成第一時隙清單,包括:當所述數(shù)據(jù)處理節(jié)點將待添加時隙記錄添加到時隙清單時,判斷所述第一時隙清單中的時隙記錄數(shù)量是否到達記錄數(shù)量閾值;如果所述第一時隙清單中的時隙記錄數(shù)量到達所述記錄數(shù)量閾值,則采用回滾的方式將所述待添加時隙記錄更新至所述第一時隙清單。進一步地,所述將每個數(shù)據(jù)處理節(jié)點對應的多個所述第一時隙清單進行合并,包括:獲取待合并的第一時隙清單中的第一時隙記錄;從已存儲的第一時隙清單中,查找具有相同時隙標識的第二時隙記錄;根據(jù)所述第一時隙記錄和所述第二時隙記錄分別對應的初始接收時間和更新時間確定合并操作類型,所述合并操作類型包括:累加操作、忽略操作和覆蓋操作;根據(jù)確定的合并操作類型將所述第一時隙記錄與所述第二時隙記錄進行合并。進一步地,所述根據(jù)所述多個數(shù)據(jù)處理節(jié)點對應的多個第二時隙清單中記錄的數(shù)據(jù)量,確定所述多個處理節(jié)點中的故障節(jié)點,包括:獲取預設參考時間段內,時隙單位對應的平均數(shù)據(jù)處理量,所述時隙單位為所述時隙標識對應的時長;根據(jù)所述平均數(shù)據(jù)處理量和預設波動比例,確定波動區(qū)間,所述預設波動比例大于1;如果目標第二時隙清單中目標時隙記錄中的數(shù)據(jù)量超出所述波動區(qū)間,則確定所述目標第二時隙清單對應的數(shù)據(jù)處理節(jié)點為故障節(jié)點。第二方面,本發(fā)明實施例還提供了一種流式數(shù)據(jù)的檢測裝置,該流式數(shù)據(jù)的檢測裝置包括:時隙標記配置模塊,用于數(shù)據(jù)源節(jié)點為目標數(shù)據(jù)流中每組數(shù)據(jù)配置基于時間的時隙標記,所述每組數(shù)據(jù)經(jīng)所述數(shù)據(jù)源節(jié)點依次發(fā)送至多個數(shù)據(jù)處理節(jié)點;時隙記錄生成模塊,用于所述數(shù)據(jù)處理節(jié)點根據(jù)所述時隙標記生成時隙記錄,所述時隙記錄包括具有相同時隙標記的多組數(shù)據(jù)對應的初始接收時間、更新時間以及所述多組數(shù)據(jù)對應的數(shù)據(jù)量;第一時隙清單生成模塊,用于所述數(shù)據(jù)處理節(jié)點根據(jù)所述時隙記錄生成第一時隙清單,所述第一時隙清單包括至少一條所述時隙記錄;第二時隙清單生成模塊,用于數(shù)據(jù)中心根據(jù)預設時間間隔分別獲取每個數(shù)據(jù)節(jié)點生成的所述第一時隙清單,并將每個數(shù)據(jù)處理節(jié)點對應的多個所述第一時隙清單進行合并,得到第二時隙清單,所述第二時隙清單與所述數(shù)據(jù)處理節(jié)點一一對應;故障節(jié)點確定模塊,用于根據(jù)所述多個數(shù)據(jù)處理節(jié)點對應的多個第二時隙清單中記錄的數(shù)據(jù)量,確定所述多個處理節(jié)點中的故障節(jié)點。進一步地,所述時隙標記配置模塊,用于:若所述目標數(shù)據(jù)流中斷,則生成測試空數(shù)據(jù)包;為所述測試空數(shù)據(jù)包配置基于時間的時隙標記。進一步地,所述第一時隙清單生成模塊,用于:當所述數(shù)據(jù)處理節(jié)點將待添加時隙記錄添加到時隙清單時,判斷所述第一時隙清單中的時隙記錄數(shù)量是否到達記錄數(shù)量閾值;如果所述第一時隙清單中的時隙記錄數(shù)量到達所述記錄數(shù)量閾值,則采用回滾的方式將所述待添加時隙記錄更新至所述第一時隙清單。進一步地,所述第二時隙清單生成模塊,用于:獲取待合并的第一時隙清單中的第一時隙記錄;從已存儲的第一時隙清單中,查找具有相同時隙標識的第二時隙記錄;根據(jù)所述第一時隙記錄和所述第二時隙記錄分別對應的初始接收時間和更新時間確定合并操作類型,所述合并操作類型包括:累加操作、忽略操作和覆蓋操作;根據(jù)確定的合并操作類型將所述第一時隙記錄與所述第二時隙記錄進行合并。進一步地,所述故障節(jié)點確定模塊,用于:獲取預設參考時間段內,時隙單位對應的平均數(shù)據(jù)處理量,所述時隙單位為所述時隙標識對應的時長;根據(jù)所述平均數(shù)據(jù)處理量和預設波動比例,確定波動區(qū)間,所述預設波動比例大于1;如果目標第二時隙清單中目標時隙記錄中的數(shù)據(jù)量超出所述波動區(qū)間,則確定所述目標第二時隙清單對應的數(shù)據(jù)處理節(jié)點為故障節(jié)點。本發(fā)明實施例,數(shù)據(jù)源節(jié)點為目標數(shù)據(jù)流中每組數(shù)據(jù)配置基于時間的時隙標記,并根據(jù)時隙標記生成時隙記錄,然后根據(jù)時隙記錄生成第一時隙清單;數(shù)據(jù)中心根據(jù)預設時間間隔分別獲取每個數(shù)據(jù)節(jié)點生成的第一時隙清單,并將每個數(shù)據(jù)處理節(jié)點對應的多個所述第一時隙清單進行合并,得到第二時隙清單,最后根據(jù)多個數(shù)據(jù)處理節(jié)點對應的多個第二時隙清單中記錄的數(shù)據(jù)量,確定多個處理節(jié)點中的故障節(jié)點。處理流式數(shù)據(jù)的環(huán)節(jié)較多,現(xiàn)有技術中,當某一環(huán)節(jié)出現(xiàn)問題時,檢測結果很難準確定位到具體環(huán)節(jié),使得故障點耦合度高,數(shù)據(jù)檢測的精確度及效率較低。本申請中,給流式數(shù)據(jù)配置基于時間的時隙標記,使得流式數(shù)據(jù)在每個環(huán)節(jié)中檢測時可通過時隙標記確定數(shù)據(jù)被檢測的情況,可將檢測結果準確定位到具體處理環(huán)節(jié),提高流式數(shù)據(jù)檢測的準確度及效率。附圖說明圖1是本發(fā)明實施例一中的一種流式數(shù)據(jù)的檢測方法的流程圖;圖2是本發(fā)明實施例一中的一種流式數(shù)據(jù)的檢測方法實際場景的流程圖;圖3是本發(fā)明實施例一中的一種流式數(shù)據(jù)的檢測方法的流程圖;圖4是本發(fā)明實施例一中的一種流式數(shù)據(jù)的檢測方法的流程圖;圖5是本發(fā)明實施例一中的一種流式數(shù)據(jù)的檢測方法的流程圖;圖6是本發(fā)明實施例一中的一種流式數(shù)據(jù)的檢測方法的流程圖;圖7是本發(fā)明實施例二中的一種流式數(shù)據(jù)的檢測裝置的結構示意圖。具體實施方式下面結合附圖和實施例對本發(fā)明作進一步的詳細說明??梢岳斫獾氖?,此處所描述的具體實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關的部分而非全部結構。實施例一圖1為本發(fā)明實施例一提供的一種流式數(shù)據(jù)的檢測方法的流程圖,本實施例可適用于流式數(shù)據(jù)完整性檢測的場景,該方法可以由服務器來執(zhí)行,如圖1所示,該流式數(shù)據(jù)的檢測方法具體包括如下步驟:步驟110,數(shù)據(jù)源節(jié)點為目標數(shù)據(jù)流中每組數(shù)據(jù)配置基于時間的時隙標記,所述每組數(shù)據(jù)經(jīng)所述數(shù)據(jù)源節(jié)點依次發(fā)送至多個數(shù)據(jù)處理節(jié)點。其中,數(shù)據(jù)源節(jié)點可以是數(shù)據(jù)入口環(huán)節(jié),數(shù)據(jù)的來源可以有兩種途徑,一種是主動式的(數(shù)據(jù)采集設備主動采集的),一種是被動式的(數(shù)據(jù)由其他設備輸送過來的)?;跁r間的時隙標記可以是按照固定的時隙間隔將數(shù)據(jù)進行打標,時隙間隔可以根據(jù)數(shù)據(jù)流量進行設定,例如可以是5秒、1分鐘、1小時等等。數(shù)據(jù)處理節(jié)點可以包括數(shù)據(jù)采集節(jié)點、數(shù)據(jù)預處理節(jié)點、數(shù)據(jù)清洗節(jié)點、數(shù)據(jù)分析節(jié)點和數(shù)據(jù)入庫節(jié)點等,圖2為本發(fā)明實施例一提供的一種流式數(shù)據(jù)的檢測方法的實際場景的流程圖。在本應用場景下,數(shù)據(jù)源節(jié)點為目標數(shù)據(jù)流中每組數(shù)據(jù)配置基于時間的時隙標記的過程可以是,首先將流式數(shù)據(jù)按照記錄集的形式拆分,記錄集的形式可以是文件存儲或者目錄結構存儲,當流式數(shù)據(jù)進入數(shù)據(jù)源節(jié)點時,數(shù)據(jù)源節(jié)點按照預設的時隙間隔將數(shù)據(jù)記錄集進行打標,同一時隙間隔內的記錄集打相同的時隙標記,其中,時隙標記的主要索引字段可以是時隙值,時隙值可以根據(jù)數(shù)據(jù)的采集時間進行取模計算獲得,每一次時隙間隔可定義為一時隙心跳。示例性的,時隙間隔設置為1小時,表1列出了在相應的時間間隔內對應的時隙值。表1時隙值采集時間區(qū)間160901002016-9-100:00:00~2016-9-100:59:59160901012016-9-101:00:00~2016-9-101:59:59…………160901232016-9-123:00:00~2016-9-123:59:59表1列出了2016年9月1日這一天內每個數(shù)據(jù)采集區(qū)間對應的時隙標記的時隙值,從表1可以看出,時隙值按照時間的時間順序遞增。配置了時隙標記的數(shù)據(jù)經(jīng)數(shù)據(jù)源節(jié)點將依次發(fā)送至后續(xù)多個數(shù)據(jù)處理節(jié)點,后續(xù)數(shù)據(jù)處理環(huán)節(jié)在檢測時都按照該時隙標記。圖3為本發(fā)明實施例一提供的一種流式數(shù)據(jù)的檢測方法的流程圖,如圖3所示,優(yōu)選的,步驟110包括:步驟111,若目標數(shù)據(jù)流中斷,則生成測試空數(shù)據(jù)包。在本應用場景中,當某一時隙區(qū)間沒有數(shù)據(jù)流入即目標數(shù)據(jù)流中斷時,數(shù)據(jù)源節(jié)點會生成測試空數(shù)據(jù)包。空數(shù)據(jù)包的形式可以是空文件或空目錄,并給該空文件或空目錄添加特殊的字符串以表示其中沒有數(shù)據(jù)。步驟112,為測試空數(shù)據(jù)包配置基于時間的時隙標記。在本應用場景下,測試空數(shù)據(jù)包出現(xiàn)在哪個采集時間區(qū)間,給為該測試空數(shù)據(jù)包配置基于該采集時間區(qū)間的時隙標記。示例性的,若測試空數(shù)據(jù)包出現(xiàn)在采集時間區(qū)間為表1中的“2016-9-101:00:00~2016-9-101:59:59”,那么該測試空數(shù)據(jù)包的時隙標記的時隙值為“16090101”。本實施例提供的技術方案,若目標數(shù)據(jù)流中斷,則生成測試空數(shù)據(jù)包,并為測試空數(shù)據(jù)包配置基于時間的時隙標記,使得測試空數(shù)據(jù)包在后續(xù)處理節(jié)點被測試時顯示數(shù)據(jù)為零而不是沒有時隙心跳,可有效的防止處理節(jié)點被誤判為出故障,進一步提高測試的準確性。步驟120,數(shù)據(jù)處理節(jié)點根據(jù)時隙標記生成時隙記錄,時隙記錄包括具有相同時隙標記的多組數(shù)據(jù)對應的初始接收時間、更新時間以及多組數(shù)據(jù)對應的數(shù)據(jù)量。其中,時隙記錄可以包括時隙值、初次記錄時間、更新時間、記錄數(shù)、輸入量、拆分增量、合并減量、輸出量和備份數(shù)據(jù)等。時隙值可以根據(jù)數(shù)據(jù)的采集時間進行取模計算獲得,標記在每條數(shù)據(jù)記錄集上,是時隙標記的主要索引字段,每條數(shù)據(jù)的統(tǒng)計結果均按照時隙值進行匯總;初次記錄時間可以是本時隙心跳在某一處理節(jié)點第一次產(chǎn)生數(shù)據(jù)的記錄時間;更新時間可以是本時隙心跳在該處理節(jié)點最近一次產(chǎn)生數(shù)據(jù)的記錄時間;記錄數(shù)可以是本時隙心跳內的所有記錄集總數(shù);輸入量可以是本時隙心跳內所有記錄集中的原始輸入數(shù)據(jù)總量;拆分增量可以是本時隙心跳內因業(yè)務需要進行拆分導致的數(shù)據(jù)條數(shù)增量;合并減量可以是本時隙心跳內因業(yè)務需要進行數(shù)據(jù)去重導致的數(shù)據(jù)條數(shù)減量;輸出量可以是本時隙心跳內所有記錄集中的輸出數(shù)據(jù)量總量;數(shù)據(jù)備份可以是本時隙心跳內的輸入記錄集的所有原始數(shù)據(jù)備份路徑。步驟130,數(shù)據(jù)處理節(jié)點根據(jù)時隙記錄生成第一時隙清單,第一時隙清單包括至少一條時隙記錄。其中,第一時隙清單可以包括多條時隙記錄,分別記錄每條時隙記錄對應的時隙值、初次記錄時間、更新時間、記錄數(shù)、輸入量、拆分增量、合并減量、輸出量和備份數(shù)據(jù)。示例性的,表2為本發(fā)明實施例一中的某一處理節(jié)點的時隙清單的部分時隙記錄。表2本應用場景下,數(shù)據(jù)處理節(jié)點根據(jù)時隙記錄生成第一時隙清單的方法可以是當數(shù)據(jù)處理節(jié)點將待添加時隙記錄添加到時隙清單時,判斷第一時隙清單中的時隙記錄數(shù)量是否到達記錄數(shù)量閾值,如果第一時隙清單中的時隙記錄數(shù)量到達記錄數(shù)量閾值,則采用回滾的方式將待添加時隙記錄更新至第一時隙清單??蛇x的,當數(shù)據(jù)處理節(jié)點將待添加時隙記錄添加到時隙清單時,判斷第一時隙清單中是否已經(jīng)有和待添加時隙記錄相同時隙值的時隙記錄,如果有,則將待添加時隙記錄替換掉原有的時隙記錄,示例性的,在某一處理節(jié)點中,如果隙清單里已經(jīng)有一條16090100的記錄,當該處理節(jié)點又產(chǎn)生一條16090100記錄時則直接進行數(shù)據(jù)的更新操作,即將新產(chǎn)生的16090100記錄替換原來的16090100記錄。圖4為本發(fā)明實施例一提供的一種流式數(shù)據(jù)的檢測方法的流程圖,如圖4所示,優(yōu)選的,步驟130包括:步驟131,當數(shù)據(jù)處理節(jié)點將待添加時隙記錄添加到時隙清單時,判斷第一時隙清單中的時隙記錄數(shù)量是否到達記錄數(shù)量閾值。記錄數(shù)量閾值可以是第一時隙清單中可存儲時隙記錄數(shù)量的最大值,該閾值可以根據(jù)處理節(jié)點的實際資源占用情況來確定,在實際應用場景中,該閾值可設置為任意正整數(shù),如100、200或500等。步驟132,如果第一時隙清單中的時隙記錄數(shù)量到達記錄數(shù)量閾值,則采用回滾的方式將待添加時隙記錄更新至第一時隙清單。其中,回滾的方式可以是將新產(chǎn)生的時隙記錄替換最早產(chǎn)生的時隙記錄。在本應用場景下,處理節(jié)點產(chǎn)生新的時隙記錄后,首先查找第一時隙清單中是否與新時隙記錄相同時隙值得時隙記錄,若沒有,則繼續(xù)判斷第一時隙清單的時隙記錄數(shù)量是否到達閾值,若沒有達到,則將新時隙記錄添加至第一時隙清單中,若已經(jīng)達到記錄數(shù)量閾值,則將新時隙記錄替換第一清單中最早產(chǎn)生的時隙記錄。本實施例提供的技術方案,當數(shù)據(jù)處理節(jié)點將待添加時隙記錄添加到時隙清單時,判斷第一時隙清單中的時隙記錄數(shù)量是否到達記錄數(shù)量閾值,如果第一時隙清單中的時隙記錄數(shù)量到達記錄數(shù)量閾值,則采用回滾的方式將待添加時隙記錄更新至第一時隙清單。第一清單設置記錄數(shù)量閾值,使得處理節(jié)點的時隙清單簡潔清晰,在提高數(shù)據(jù)檢測效率同時,有效節(jié)省處理節(jié)點的資源空間。步驟140,數(shù)據(jù)中心根據(jù)預設時間間隔分別獲取每個數(shù)據(jù)節(jié)點生成的第一時隙清單,并將每個數(shù)據(jù)處理節(jié)點對應的多個第一時隙清單進行合并,得到第二時隙清單,第二時隙清單與數(shù)據(jù)處理節(jié)點一一對應。其中,預設時間間隔可以是控制中心設置的時間周期,可以是任意的時間間隔正整數(shù),例如1小時、2小時或24小時等。在本應用場景下,將每個數(shù)據(jù)處理節(jié)點對應的多個第一時隙清單進行合并的方法可以是,首先獲取待合并的第一時隙清單中的第一時隙記錄,然后從已存儲的第一時隙清單中查找具有相同時隙標識的第二時隙記錄,再次根據(jù)第一時隙記錄和第二時隙記錄分別對應的初始接收時間和更新時間確定合并操作類型,最后根據(jù)確定的合并操作類型將第一時隙記錄與第二時隙記錄進行合并。圖5為本發(fā)明實施例一提供的一種流式數(shù)據(jù)的檢測方法的流程圖,如圖5所示,優(yōu)選的,步驟140包括:步驟141,獲取待合并的第一時隙清單中的第一時隙記錄。其中,第一時隙記錄可以是記錄在第一時隙清單中的任意一個時隙記錄。步驟142,從已存儲的第一時隙清單中,查找具有相同時隙標識的第二時隙記錄。其中,時隙標識可以是時隙值。步驟143,根據(jù)第一時隙記錄和第二時隙記錄分別對應的初始接收時間和更新時間確定合并操作類型,合并操作類型包括:累加操作、忽略操作和覆蓋操作。在本應場景下,根據(jù)第一時隙記錄和第二時隙記錄分別對應的初始接收時間和更新時間確定合并操作類型的方法可以是:若第一時隙記錄(更新時間)<第二時隙記錄(初次記錄時間),表示第一時隙記錄為新的時隙記錄,將第一時隙記錄中的信息累加進第二時隙記錄中得到新的第二時隙記錄;若第一時隙記錄(初次記錄時間)=第二時隙記錄(初次記錄時間)且第一時隙記錄(更新時間)=第二時隙記錄(更新時間),則表示第二時隙記錄與第一時隙記錄是相同的時隙記錄,忽略,不進行合并操作;若第一時隙記錄(初次記錄時間)=第二時隙記錄(初次記錄時間)且如若第一時隙記錄(更新時間)<第二時隙記錄(更新時間),則表示第二時隙記錄包含第一時隙記錄,將第二時隙記錄覆蓋第一時隙記錄。步驟144,根據(jù)確定的合并操作類型將第一時隙記錄與第二時隙記錄進行合并。在本應用場景下,將第一時隙記錄與第二時隙記錄按照確定的累加操作、忽略操作或覆蓋操作進行合并??蛇x的,如果第一時隙記錄與第二時隙記錄的時隙值不同,則將第一時隙記錄添加至已經(jīng)存儲的第一時隙清單形成第二時隙清單即可。本實施例的技術方案,將具有相同時隙標識的第一時隙記錄和第二時隙記錄按照確定的合并規(guī)則進行合并,可有效的避免數(shù)據(jù)沖突。步驟150,根據(jù)多個數(shù)據(jù)處理節(jié)點對應的多個第二時隙清單中記錄的數(shù)據(jù)量,確定多個處理節(jié)點中的故障節(jié)點。其中,數(shù)據(jù)量可以是數(shù)據(jù)輸入量或數(shù)據(jù)輸出量。確定多個處理節(jié)點中的故障節(jié)點的方法可以采用波動算法對各個處理節(jié)點的數(shù)據(jù)進行嚴格比對,處理節(jié)點之間互相校驗來確定哪個節(jié)點出現(xiàn)瓶頸或異常。圖6為本發(fā)明實施例一提供的一種流式數(shù)據(jù)的檢測方法的流程圖,如圖6所示,優(yōu)選的,步驟150包括:步驟151,獲取預設參考時間段內,時隙單位對應的平均數(shù)據(jù)處理量,時隙單位為時隙標識對應的時長。其中,預設參考時間段可以是任意的時間段,例如:1天、1周或1個月。示例性的,預設參考時間段為1天,時隙單位為1小時,假設在一天中某個處理節(jié)點總的數(shù)據(jù)輸入量為30萬,一天有24小時,那么平均數(shù)據(jù)處理量即為30萬除以24得到1.25萬。步驟152,根據(jù)平均數(shù)據(jù)處理量和預設波動比例,確定波動區(qū)間,預設波動比例大于1。在本應用場景下,根據(jù)平均數(shù)據(jù)處理量和預設波動比例確定波動區(qū)間的方法可以是,假設定義的波動比例為P(P>1),預設參考時間段內,時隙單位對應的平均數(shù)據(jù)處理量為N,那么波動區(qū)間為N/P-N*P。示例性的,利用上述求出的平均數(shù)據(jù)處理量1.24萬,假設波動比例取1.2,則波動區(qū)間為1.03萬-1.488萬。步驟153,如果目標第二時隙清單中目標時隙記錄中的數(shù)據(jù)量超出波動區(qū)間,則確定目標第二時隙清單對應的數(shù)據(jù)處理節(jié)點為故障節(jié)點。在本應用場景下,假設目標第二時隙清單對應的處理節(jié)點為數(shù)據(jù)清洗節(jié)點,若數(shù)據(jù)清洗節(jié)點在控制中心的第二時隙清單中某一條時隙記錄的數(shù)據(jù)量超出波動區(qū)間,則表示數(shù)據(jù)清洗節(jié)點出現(xiàn)故障。本實施例的技術方案,數(shù)據(jù)源節(jié)點為目標數(shù)據(jù)流中每組數(shù)據(jù)配置基于時間的時隙標記,并根據(jù)時隙標記生成時隙記錄,然后根據(jù)時隙記錄生成第一時隙清單;數(shù)據(jù)中心根據(jù)預設時間間隔分別獲取每個數(shù)據(jù)節(jié)點生成的第一時隙清單,并將每個數(shù)據(jù)處理節(jié)點對應的多個所述第一時隙清單進行合并,得到第二時隙清單,最后根據(jù)多個數(shù)據(jù)處理節(jié)點對應的多個第二時隙清單中記錄的數(shù)據(jù)量,確定多個處理節(jié)點中的故障節(jié)點。處理流式數(shù)據(jù)的環(huán)節(jié)較多,現(xiàn)有技術中,當某一環(huán)節(jié)出現(xiàn)問題時,檢測結果很難準確定位到具體環(huán)節(jié),使得故障點耦合度高,數(shù)據(jù)檢測的精確度及效率較低。本申請中,給流式數(shù)據(jù)配置基于時間的時隙標記,使得流式數(shù)據(jù)在每個環(huán)節(jié)中檢測時可通過時隙標記確定數(shù)據(jù)被檢測的情況,可將檢測結果準確定位到具體處理環(huán)節(jié),提高流式數(shù)據(jù)檢測的準確度及效率。實施例二圖7為本發(fā)明實施例二提供的一種流式數(shù)據(jù)的檢測裝置的結構示意圖,如圖7所示,該流式數(shù)據(jù)的檢測裝置包括:時隙標記配置模塊210,時隙記錄生成模塊220,第一時隙清單生成模塊230,第二時隙清單生成模塊240和故障節(jié)點確定模塊250。時隙標記配置模塊210,用于數(shù)據(jù)源節(jié)點為目標數(shù)據(jù)流中每組數(shù)據(jù)配置基于時間的時隙標記,每組數(shù)據(jù)經(jīng)數(shù)據(jù)源節(jié)點依次發(fā)送至多個數(shù)據(jù)處理節(jié)點;時隙記錄生成模塊220,用于數(shù)據(jù)處理節(jié)點根據(jù)時隙標記生成時隙記錄,時隙記錄包括具有相同時隙標記的多組數(shù)據(jù)對應的初始接收時間、更新時間以及多組數(shù)據(jù)對應的數(shù)據(jù)量;第一時隙清單生成模塊230,用于數(shù)據(jù)處理節(jié)點根據(jù)時隙記錄生成第一時隙清單,第一時隙清單包括至少一條時隙記錄;第二時隙清單生成模塊240,用于數(shù)據(jù)中心根據(jù)預設時間間隔分別獲取每個數(shù)據(jù)節(jié)點生成的第一時隙清單,并將每個數(shù)據(jù)處理節(jié)點對應的多個第一時隙清單進行合并,得到第二時隙清單,第二時隙清單與數(shù)據(jù)處理節(jié)點一一對應;故障節(jié)點確定模塊250,用于根據(jù)多個數(shù)據(jù)處理節(jié)點對應的多個第二時隙清單中記錄的數(shù)據(jù)量,確定多個處理節(jié)點中的故障節(jié)點。優(yōu)選的,時隙標記配置模塊210,用于:若目標數(shù)據(jù)流中斷,則生成測試空數(shù)據(jù)包;為測試空數(shù)據(jù)包配置基于時間的時隙標記。優(yōu)選的,第一時隙清單生成模塊230,用于:當數(shù)據(jù)處理節(jié)點將待添加時隙記錄添加到時隙清單時,判斷第一時隙清單中的時隙記錄數(shù)量是否到達記錄數(shù)量閾值;如果第一時隙清單中的時隙記錄數(shù)量到達記錄數(shù)量閾值,則采用回滾的方式將待添加時隙記錄更新至第一時隙清單。優(yōu)選的,第二時隙清單生成模塊240,用于:獲取待合并的第一時隙清單中的第一時隙記錄;從已存儲的第一時隙清單中,查找具有相同時隙標識的第二時隙記錄;根據(jù)第一時隙記錄和第二時隙記錄分別對應的初始接收時間和更新時間確定合并操作類型,合并操作類型包括:累加操作、忽略操作和覆蓋操作;根據(jù)確定的合并操作類型將第一時隙記錄與第二時隙記錄進行合并。優(yōu)選的,故障節(jié)點確定模塊250,用于:獲取預設參考時間段內,時隙單位對應的平均數(shù)據(jù)處理量,時隙單位為時隙標識對應的時長;根據(jù)平均數(shù)據(jù)處理量和預設波動比例,確定波動區(qū)間,預設波動比例大于1;如果目標第二時隙清單中目標時隙記錄中的數(shù)據(jù)量超出波動區(qū)間,則確定目標第二時隙清單對應的數(shù)據(jù)處理節(jié)點為故障節(jié)點。上述裝置可執(zhí)行本發(fā)明前述所有實施例所提供的方法,具備執(zhí)行上述方法相應的功能模塊和有益效果。未在本實施例中詳盡描述的技術細節(jié),可參見本發(fā)明前述所有實施例所提供的方法。注意,上述僅為本發(fā)明的較佳實施例及所運用技術原理。本領域技術人員會理解,本發(fā)明不限于這里的特定實施例,對本領域技術人員來說能夠進行各種明顯的變化、重新調整和替代而不會脫離本發(fā)明的保護范圍。因此,雖然通過以上實施例對本發(fā)明進行了較為詳細的說明,但是本發(fā)明不僅僅限于以上實施例,在不脫離本發(fā)明構思的情況下,還可以包括更多其他等效實施例,而本發(fā)明的范圍由所附的權利要求范圍決定。當前第1頁1 2 3