一種社保大數(shù)據(jù)分布式預處理方法及系統(tǒng)與流程

文檔序號：11864757閱讀：569來源：國知局

本發(fā)明涉及大數(shù)據(jù)處理技術領域，尤其是指一種社保大數(shù)據(jù)分布式預處理方法及系統(tǒng)。

背景技術：

國家級的信息化規(guī)劃方案“金保工程”提出全面推進電子政務工程建設，以“政府先行”的方式帶動國民經(jīng)濟和社會發(fā)展信息化。如今社保已覆蓋十幾億人口，政府因此擁有了海量的社保大數(shù)據(jù)。如果能利用飛速發(fā)展的大數(shù)據(jù)技術，對各個社保業(yè)務領域數(shù)據(jù)進行挖掘和統(tǒng)計分析，可為政府政策方針的制定提供參考依據(jù)，實現(xiàn)創(chuàng)新性政府服務，從而進一步推進電子政務工程建設。

社保大數(shù)據(jù)的挖掘與分析從采集源數(shù)據(jù)到最終獲得分析結果一般要經(jīng)過幾個主要步驟，包括數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)存儲與管理、聯(lián)機分析處理(OLAP)、數(shù)據(jù)挖掘、數(shù)據(jù)可視化等。其中，數(shù)據(jù)預處理負責將分布的、異構數(shù)據(jù)源中的數(shù)據(jù)如關系數(shù)據(jù)、文本數(shù)據(jù)文件等抽取到臨時中間層后進行清洗、集成、轉換和規(guī)約，最后加載到數(shù)據(jù)倉庫中，成為聯(lián)機分析處理的基礎。數(shù)據(jù)預處理占據(jù)了數(shù)據(jù)分析流程中的大部分工作量，同時也是數(shù)據(jù)倉庫中非常重要的一環(huán)，該部分的工作直接關系到數(shù)據(jù)倉庫中數(shù)據(jù)的質(zhì)量，從而影響到聯(lián)機分析處理結果的質(zhì)量。尤其在面對海量數(shù)據(jù)的處理需求時，數(shù)據(jù)預處理系統(tǒng)的設計則顯得尤為重要，系統(tǒng)的結構主要包括數(shù)據(jù)抽取模塊、數(shù)據(jù)的清洗與轉換模塊以及數(shù)據(jù)的裝載模塊。

現(xiàn)有社保業(yè)務系統(tǒng)的設計實施是基于各部門具體需求完成的，而社保包括工傷、生育、醫(yī)療、失業(yè)、養(yǎng)老五大險種，社保五險業(yè)務數(shù)據(jù)因此分散在各個業(yè)務系統(tǒng)中。要對社保大數(shù)據(jù)進行深入的挖掘和統(tǒng)計分析，首先要數(shù)據(jù)從不同的數(shù)據(jù)源中抽取出來，導入到一個大型的分布式數(shù)據(jù)倉庫中。由于數(shù)據(jù)一般存儲于多種不同的關系型數(shù)據(jù)庫中，或以文本的形式存在，不能直接使用，需要先進行數(shù)據(jù)類型轉換、格式轉換、清除重復、糾正異常等預處理操作。數(shù)據(jù)導入和預處理的最大挑戰(zhàn)在于數(shù)據(jù)吞吐量異常巨大，數(shù)據(jù)量級以TB計算，因此需要設計一種能夠穩(wěn)定、高效完成各個數(shù)據(jù)預處理環(huán)節(jié)的大數(shù)據(jù)預處理系統(tǒng)。

現(xiàn)有預處理系統(tǒng)提供了多線程并行執(zhí)行的功能，但一般僅支持在單臺預處理服務器上運行。由于傳統(tǒng)的數(shù)據(jù)預處理的處理量級尚小，單臺服務器的性能很容易滿足需求。但在大數(shù)據(jù)時代，面對海量的社保業(yè)務數(shù)據(jù)，單臺服務器的性能存在瓶頸，難以支撐大數(shù)據(jù)的高效預處理工作。如何有效擴展預處理服務器的性能，是實現(xiàn)大數(shù)據(jù)預處理系統(tǒng)的一大問題。

傳統(tǒng)關系型數(shù)據(jù)庫按行數(shù)據(jù)進行存儲，而數(shù)據(jù)的行式存儲會帶來弊端是在查詢數(shù)據(jù)時，即使只涉及其中的幾列，所有無關的數(shù)據(jù)列都會被一并讀取。在聯(lián)機分析處理中，一般只需要對少數(shù)列頻繁進行查詢訪問，但卻不得不讀取其余大量的無關數(shù)據(jù)列，這勢必會對分析性能的造成無謂的損耗。特別是在TB級海量數(shù)據(jù)的條件下，耗費在讀取無關數(shù)據(jù)上的時間將會成為系統(tǒng)性能的一個瓶頸。

預處理系統(tǒng)在完成數(shù)據(jù)預處理操作后，需要把符合格式要求的數(shù)據(jù)記錄裝載到分布式數(shù)據(jù)倉庫中。數(shù)據(jù)記錄完成預處理操作節(jié)點后到達數(shù)據(jù)裝載操作節(jié)點，但由于數(shù)據(jù)預處理操作和數(shù)據(jù)裝載操作分別在兩個線程中同時進行，數(shù)據(jù)記錄到達數(shù)據(jù)裝載節(jié)點的時間不一致，將會導致頻繁的分布式集群文件系統(tǒng)(HDFS)讀寫操作，從而成為影響數(shù)據(jù)預處理效率的又一個因素。

技術實現(xiàn)要素：

本發(fā)明的目的在于克服現(xiàn)有技術的不足，提供一種社保大數(shù)據(jù)分布式預處理方法及系統(tǒng)，可充分利用預處理云服務器的處理性能，提供一定的可擴展性，避免了服務器與分布式文件系統(tǒng)數(shù)據(jù)節(jié)點之間多余的數(shù)據(jù)傳輸，同時提高數(shù)據(jù)裝載到分布式文件系統(tǒng)的效率，從而提高數(shù)據(jù)預處理的效率。

為實現(xiàn)上述目的，本發(fā)明所提供的技術方案，如下：

一種社保大數(shù)據(jù)分布式預處理方法，首先，將數(shù)據(jù)預處理的各種操作定義為數(shù)據(jù)操作節(jié)點，將一套數(shù)據(jù)預處理流程定義為數(shù)據(jù)預處理作業(yè)，數(shù)據(jù)預處理作業(yè)由數(shù)據(jù)操作節(jié)點構成；然后對給定的數(shù)據(jù)預處理作業(yè)，為其中的每個數(shù)據(jù)操作節(jié)點分配一個或多個線程，分配多個線程的數(shù)據(jù)操作節(jié)點稱為并行數(shù)據(jù)操作節(jié)點，啟動預處理作業(yè)即啟動多個線程同時工作，而僅包含單線程數(shù)據(jù)操作節(jié)點的預處理流程中，數(shù)據(jù)流按單泳道傳遞；對復雜度高的數(shù)據(jù)操作節(jié)點分配多個執(zhí)行線程，并以分布式云服務器集群的方式并行執(zhí)行數(shù)據(jù)預處理作業(yè)，集群由云平臺上搭建的預處理服務器組成，包括一臺主服務器和多臺子服務器，系統(tǒng)將預處理作業(yè)中分配多線程的數(shù)據(jù)操作節(jié)點抽取出來，構成子預處理作業(yè)，分配給子服務器，剩余部分則交由主服務器處理，集群任務調(diào)度器采用MapReduce并行模式，按照設定的分區(qū)規(guī)則對主服務器上操作節(jié)點的數(shù)據(jù)集進行均勻劃分，傳輸給子服務器進行處理，子服務器完成數(shù)據(jù)處理操作后發(fā)送給主服務器進行合并，最終保持數(shù)據(jù)的一致性；

所述數(shù)據(jù)處理流程按如下具體步驟執(zhí)行：

1)云平臺為云服務器分配所需資源，并初始化預處理云服務器集群；

2)云平臺初始化預處理集群任務調(diào)度器，調(diào)度器負責管理數(shù)據(jù)操作節(jié)點活動、監(jiān)聽操作節(jié)點的執(zhí)行，以及指導數(shù)據(jù)集的劃分和分發(fā)任務；

3)云服務器加載數(shù)據(jù)操作節(jié)點的元數(shù)據(jù)，元數(shù)據(jù)定義了數(shù)據(jù)操作節(jié)點的名稱和操作數(shù)據(jù)集的字段信息，包括字段名稱、數(shù)據(jù)類型、數(shù)據(jù)精度，云服務器對加載的數(shù)據(jù)操作節(jié)點按先后順序排列；

4)云服務器對各數(shù)據(jù)操作節(jié)點按以下步驟執(zhí)行：

4.1)云服務器獲取當前數(shù)據(jù)操作節(jié)點，根據(jù)元數(shù)據(jù)獲取操作節(jié)點名稱以及操作的數(shù)據(jù)集信息；判斷數(shù)據(jù)操作節(jié)點是否為并行數(shù)據(jù)操作節(jié)點，若不是，執(zhí)行步驟4.2)，若是，執(zhí)行步驟4.3)；

4.2)主服務器從上一操作節(jié)點獲取數(shù)據(jù)集，并負責執(zhí)行當前節(jié)點定義的數(shù)據(jù)操作任務；數(shù)據(jù)操作任務完成后，執(zhí)行步驟4.4)；

4.3)主服務器從上一操作節(jié)點獲取數(shù)據(jù)集，由集群任務調(diào)度器按照設定的分區(qū)規(guī)則對數(shù)據(jù)集進行均勻劃分，傳輸給子服務器并行執(zhí)行數(shù)據(jù)操作任務；子服務器完成數(shù)據(jù)處理操作后發(fā)送給主服務器進行合并，數(shù)據(jù)操作任務完成后，執(zhí)行步驟4.4)；

4.4)判斷有無后續(xù)數(shù)據(jù)操作節(jié)點，若有，則執(zhí)行步驟4.1)。

一種社保大數(shù)據(jù)分布式預處理系統(tǒng)，包括：

數(shù)據(jù)抽取模塊，該數(shù)據(jù)抽取模塊包括結構化數(shù)據(jù)抽取單元和文本數(shù)據(jù)抽取單元；所述結構化數(shù)據(jù)抽取單元用于抽取關系型數(shù)據(jù)庫中的數(shù)據(jù)記錄；所述文本數(shù)據(jù)抽取單元用于抽取非結構化的系統(tǒng)數(shù)據(jù)，包括系統(tǒng)運行過程中產(chǎn)生的用戶行為數(shù)據(jù)和日志數(shù)據(jù)；

數(shù)據(jù)轉換模塊，該數(shù)據(jù)轉換模塊包括數(shù)據(jù)字段轉換單元、數(shù)據(jù)連接單元、數(shù)據(jù)分發(fā)單元、數(shù)據(jù)合并單元和數(shù)據(jù)去重單元；所述數(shù)據(jù)字段轉換單元提供對數(shù)據(jù)類型、格式、精度的轉換；所述數(shù)據(jù)連接單元提供數(shù)據(jù)記錄行的連接；所述數(shù)據(jù)分發(fā)單元用于對數(shù)據(jù)進行劃分和轉發(fā)；所述數(shù)據(jù)合并單元實現(xiàn)對子服務器上傳數(shù)據(jù)的合并；所述數(shù)據(jù)去重單元用于去除數(shù)據(jù)記錄中的重復行；

數(shù)據(jù)裝載模塊，該數(shù)據(jù)裝載模塊包括NoSQL緩存單元、集群文件系統(tǒng)寫入單元和任務調(diào)度單元；所述NoSQL緩存單元負責將需要裝載的數(shù)據(jù)行寫入NoSQL緩存數(shù)據(jù)庫中，待達到設定量時觸發(fā)集群文件系統(tǒng)寫入任務；所述集群文件系統(tǒng)寫入單元負責將緩存的數(shù)據(jù)行寫入分布式集群的文件系統(tǒng)HDFS；所述任務調(diào)度單元負責監(jiān)視NoSQL中的緩存情況，適時調(diào)度集群文件系統(tǒng)寫入任務。

本發(fā)明與現(xiàn)有技術相比，具有如下優(yōu)點與有益效果：

1、采用多線程的方式執(zhí)行預處理作業(yè)，并為預處理作業(yè)配置集群執(zhí)行方式，可充分發(fā)揮預處理云服務器的處理性能，并提供一定的可擴展性；同時數(shù)據(jù)按列存儲并采用NoSQL數(shù)據(jù)庫進行緩存優(yōu)化，避免了服務器與HDFS數(shù)據(jù)節(jié)點之間多余的數(shù)據(jù)傳輸，同時提高數(shù)據(jù)裝載到HDFS的效率，從而提高數(shù)據(jù)預處理的效率。

2、在數(shù)據(jù)倉庫中按列對數(shù)據(jù)進行存儲。針對大數(shù)據(jù)的聯(lián)機分析處理，列式存儲更適合在數(shù)據(jù)倉庫領域發(fā)揮作用，比如數(shù)據(jù)分析、海量存儲和商業(yè)智能，涉及不經(jīng)常更新的數(shù)據(jù)。預處理系統(tǒng)的數(shù)據(jù)裝載模塊采用列式數(shù)據(jù)存儲方式，有效節(jié)省海量數(shù)據(jù)的存儲空間，同時提高后續(xù)的聯(lián)機分析處理性能。

3、系統(tǒng)借助NoSQL數(shù)據(jù)庫高性能、易擴展的特點，采用基于純內(nèi)存的NoSQL數(shù)據(jù)庫進行緩存優(yōu)化，緩存需要裝載的數(shù)據(jù)記錄，有效降低集群文件系統(tǒng)讀寫操作的頻率，從而降低集群文件系統(tǒng)讀寫操作的耗時，保證海量社保數(shù)據(jù)的高效預處理和裝載。

附圖說明

圖1為分布式預處理系統(tǒng)僅包含單線程數(shù)據(jù)操作節(jié)點的預處理流程圖。

圖2為采用預處理云服務器集群執(zhí)行的預處理流程圖。

圖3為社保大數(shù)據(jù)分布式預處理方法的流程圖。

圖4為數(shù)據(jù)行式存儲和列式存儲原理圖。

圖5為社保大數(shù)據(jù)業(yè)務公共服務平臺總體方案示意圖。

圖6為社保大數(shù)據(jù)分布式預處理系統(tǒng)網(wǎng)絡圖。

具體實施方式

下面結合具體實施例對本發(fā)明作進一步說明。

本實施例所述的社保大數(shù)據(jù)分布式預處理方法，具體是：首先，將數(shù)據(jù)預處理的各種操作如數(shù)據(jù)抽取、字段類型轉換、數(shù)據(jù)格式轉換、數(shù)據(jù)連接、去除重復、數(shù)據(jù)裝載等定義為數(shù)據(jù)操作節(jié)點，將一套數(shù)據(jù)預處理流程定義為數(shù)據(jù)預處理作業(yè)，數(shù)據(jù)預處理作業(yè)由數(shù)據(jù)操作節(jié)點構成。對給定的數(shù)據(jù)預處理作業(yè)，為其中的每個數(shù)據(jù)操作節(jié)點分配一個或多個線程，分配了多個線程的數(shù)據(jù)操作節(jié)點稱為并行數(shù)據(jù)操作節(jié)點，啟動預處理作業(yè)即啟動多個線程同時工作。如圖1所示，僅包含單線程數(shù)據(jù)操作節(jié)點的預處理流程圖中，數(shù)據(jù)流按單泳道傳遞；考慮其中數(shù)據(jù)記錄排序的操作節(jié)點計算復雜度較高，為其配置3個執(zhí)行線程，則預處理流程中的數(shù)據(jù)流在數(shù)據(jù)排序操作節(jié)點處拆分為三個泳道傳遞。通過為計算復雜度較高的操作節(jié)點分配更多數(shù)量的線程，能夠為數(shù)據(jù)操作節(jié)點合理分配處理器資源，從而充分發(fā)揮預處理服務器的處理性能。

數(shù)據(jù)預處理作業(yè)可選擇以分布式集群的方式執(zhí)行。集群由云平臺上搭建的預處理服務器組成，包括一臺主服務器(master)和多臺子服務器(slave)。系統(tǒng)將預處理作業(yè)中分配了多線程的數(shù)據(jù)操作節(jié)點抽取出來，構成子預處理作業(yè)，分配給子服務器，剩余部分則交由主服務器處理。集群任務調(diào)度器采用MapReduce并行模式，按照一定的分區(qū)規(guī)則對主服務器上操作節(jié)點的數(shù)據(jù)集進行均勻劃分(Map)，傳輸給子服務器進行處理；子服務器完成數(shù)據(jù)處理操作后發(fā)送給主服務器進行合并(Reduce)，最終保持數(shù)據(jù)的一致性。圖1描述的預處理流程采用分布式集群的方式執(zhí)行，記錄排序操作節(jié)點交由子服務器執(zhí)行，其余節(jié)點由主服務器執(zhí)行，分配情況如圖2所示。

社保大數(shù)據(jù)分布式預處理方法的處理流程如圖3所示，具體步驟如下：

步驟1，云平臺為云服務器分配所需資源，并初始化預處理云服務器集群。

步驟2，云平臺初始化預處理集群任務調(diào)度器，調(diào)度器負責管理數(shù)據(jù)操作節(jié)點活動、監(jiān)聽操作節(jié)點的執(zhí)行，以及指導數(shù)據(jù)集的劃分和分發(fā)等任務。

步驟3，云服務器加載數(shù)據(jù)操作節(jié)點的元數(shù)據(jù)，元數(shù)據(jù)定義了數(shù)據(jù)操作節(jié)點的名稱和操作數(shù)據(jù)集的字段信息，包括字段名稱、數(shù)據(jù)類型、數(shù)據(jù)精度等，云服務器對加載的數(shù)據(jù)操作節(jié)點按先后順序排列。

步驟4，云服務器對各數(shù)據(jù)操作節(jié)點按以下步驟執(zhí)行：

步驟4.1，云服務器獲取當前數(shù)據(jù)操作節(jié)點，根據(jù)元數(shù)據(jù)獲取操作節(jié)點名稱以及操作的數(shù)據(jù)集信息等；判斷數(shù)據(jù)操作節(jié)點是否為并行數(shù)據(jù)操作節(jié)點，若不是，執(zhí)行步驟4.2，若是，執(zhí)行步驟4.3。

步驟4.2，主服務器從上一操作節(jié)點獲取數(shù)據(jù)集，并負責執(zhí)行當前節(jié)點定義的數(shù)據(jù)操作任務；數(shù)據(jù)操作任務完成后，執(zhí)行步驟4.4。

步驟4.3，主服務器從上一操作節(jié)點獲取數(shù)據(jù)集，集群任務調(diào)度器采用MapReduce并行模式，按照一定的分區(qū)規(guī)則對數(shù)據(jù)集進行均勻劃分(Map)，傳輸給子服務器并行執(zhí)行數(shù)據(jù)操作任務；子服務器完成數(shù)據(jù)處理操作后發(fā)送給主服務器進行合并(Reduce)。數(shù)據(jù)操作任務完成后，執(zhí)行步驟4.4。

步驟4.4，判斷有無后續(xù)數(shù)據(jù)操作節(jié)點，若有，則再次執(zhí)行步驟4.1。

云服務器集群執(zhí)行數(shù)據(jù)預處理作業(yè)的方式，有效整合了云平臺上多個預處理服務器的處理資源，進一步提高數(shù)據(jù)預處理效率；同時由于云平臺規(guī)模具有強大的可伸縮性，這為分布式預處理系統(tǒng)的性能提供了可擴展性。

基于上述的社保大數(shù)據(jù)分布式預處理方法進行結構設計，本實施例提供的社保大數(shù)據(jù)分布式預處理系統(tǒng)，主要包括數(shù)據(jù)抽取模塊、數(shù)據(jù)轉換模塊以及數(shù)據(jù)裝載模塊。

數(shù)據(jù)抽取模塊包括結構化數(shù)據(jù)抽取單元和文本數(shù)據(jù)抽取單元。結構化數(shù)據(jù)抽取單元用于抽取關系型數(shù)據(jù)庫中的數(shù)據(jù)記錄；文本數(shù)據(jù)抽取單元用于抽取非結構化的系統(tǒng)數(shù)據(jù)，如系統(tǒng)運行過程中產(chǎn)生的用戶行為數(shù)據(jù)和日志數(shù)據(jù)。

數(shù)據(jù)轉換模塊包括數(shù)據(jù)字段轉換單元、數(shù)據(jù)連接單元、數(shù)據(jù)分發(fā)單元、數(shù)據(jù)合并單元和數(shù)據(jù)去重單元。數(shù)據(jù)字段轉換單元提供對數(shù)據(jù)類型、格式、精度等的轉換；數(shù)據(jù)連接單元提供數(shù)據(jù)記錄行的連接；數(shù)據(jù)分發(fā)單元對數(shù)據(jù)進行劃分和轉發(fā)；數(shù)據(jù)合并單元實現(xiàn)對子服務器上傳數(shù)據(jù)的合并；數(shù)據(jù)去重單元去除數(shù)據(jù)記錄中的重復行。數(shù)據(jù)轉換模塊在數(shù)據(jù)抽取到數(shù)據(jù)準備區(qū)后執(zhí)行預處理作業(yè)。

數(shù)據(jù)裝載模塊包括NoSQL緩存單元、集群文件系統(tǒng)寫入單元和任務調(diào)度單元。NoSQL緩存單元負責將需要裝載的數(shù)據(jù)行寫入NoSQL緩存數(shù)據(jù)庫中，待達到一定量時觸發(fā)集群文件系統(tǒng)寫入任務；集群文件系統(tǒng)寫入單元負責將緩存的數(shù)據(jù)行寫入分布式集群的文件系統(tǒng)HDFS；任務調(diào)度單元負責監(jiān)視NoSQL中的緩存情況，適時調(diào)度集群文件系統(tǒng)寫入任務。

本系統(tǒng)的特點在于在數(shù)據(jù)倉庫中按列對數(shù)據(jù)進行存儲。如圖4所示，描述了數(shù)據(jù)行式存儲和列式存儲原理，相對于行式存儲，列式存儲具備以下優(yōu)點：(1)在查詢時只有涉及到的列會被讀??；(2)投影操作非常高效；(3)任何列都能作為索引；(4)能有效提高數(shù)據(jù)壓縮比，節(jié)省存儲空間。因此針對大數(shù)據(jù)的聯(lián)機分析處理，列式存儲方式更適合在數(shù)據(jù)倉庫領域發(fā)揮作用，比如數(shù)據(jù)分析、海量存儲和商業(yè)智能，也更適合用于存儲不經(jīng)常更新的數(shù)據(jù)。預處理系統(tǒng)的數(shù)據(jù)裝載模塊采用列式數(shù)據(jù)存儲方式，能夠有效節(jié)省海量數(shù)據(jù)的存儲空間，同時提高后續(xù)的聯(lián)機分析處理性能。

本系統(tǒng)的特點還在于借助NoSQL數(shù)據(jù)庫高性能、易擴展的特點，采用基于純內(nèi)存的NoSQL數(shù)據(jù)庫進行緩存優(yōu)化，緩存需要裝載的數(shù)據(jù)記錄，有效降低集群文件系統(tǒng)讀寫操作的頻率，從而降低集群文件系統(tǒng)讀寫操作的耗時，保證海量社保數(shù)據(jù)的高效預處理和裝載。

為了測試本發(fā)明的分布式預處理方法和系統(tǒng)的應用效果，我們將這一技術應用到社保綜合業(yè)務公共服務平臺當中。社保大數(shù)據(jù)綜合業(yè)務公共服務平臺依據(jù)國家級的信息化規(guī)劃方案“金保工程”進行規(guī)劃建設?，F(xiàn)有社保業(yè)務系統(tǒng)的設計實施，基于各部門具體需求形成，業(yè)務數(shù)據(jù)因分散在各個業(yè)務系統(tǒng)中，提供的服務未能整合成一個整體數(shù)據(jù)服務?；诂F(xiàn)有背景，該項目對各個孤立的社保業(yè)務服務資源進行整合，構建一個社保綜合業(yè)務公共服務平臺，在原本相互隔離的“數(shù)據(jù)孤島”間架起溝通的橋梁，組成面向全局的統(tǒng)一數(shù)據(jù)視圖及數(shù)據(jù)共享。在服務平臺之上，可對各個社保業(yè)務領域數(shù)據(jù)進行挖掘和統(tǒng)計分析，并以報表、圖形圖像等可視化手段展現(xiàn)，為政府政策方針的制定提供參考依據(jù)，實現(xiàn)創(chuàng)新性政府服務應用示范。社保綜合業(yè)務公共服務平臺的總體方案如圖5所示，該平臺主要包括四個子系統(tǒng)：分布式預處理系統(tǒng)、聯(lián)機分析處理系統(tǒng)、數(shù)據(jù)挖掘系統(tǒng)、數(shù)據(jù)可視化系統(tǒng)。其中，分布式預處理系統(tǒng)如圖5中A區(qū)域所示。分布式預處理系統(tǒng)的網(wǎng)絡圖如圖6所示，系統(tǒng)從原社保業(yè)務系統(tǒng)中抽取海量的結構化和非結構化數(shù)據(jù)，在數(shù)據(jù)準備區(qū)中執(zhí)行高效的預處理作業(yè)，之后利用NoSQL高速緩存批量的寫入分布式集群文件系統(tǒng)中，NoSQL緩沖區(qū)還能為公共服務平臺的聯(lián)機分析處理系統(tǒng)提供數(shù)據(jù)讀緩存，進一步提升平臺分析處理性能。

以上所述實施例只為本發(fā)明之較佳實施例，并非以此限制本發(fā)明的實施范圍，故凡依本發(fā)明之形狀、原理所作的變化，均應涵蓋在本發(fā)明的保護范圍內(nèi)。

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：張星明;陳偉健;林育蓓;吳世豪;
技術所有人：華南理工大學;
我是此專利的發(fā)明人

上一篇：一種基于XML實現(xiàn)價格策略字典的方法與流程
上一篇：一種執(zhí)行讀寫分離的方法、裝置及系統(tǒng)與流程

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

分布式數(shù)據(jù)庫系統(tǒng)相關技術

分布式系統(tǒng)數(shù)據(jù)一致性相關技術

分布式數(shù)據(jù)采集系統(tǒng)相關技術

分布式系統(tǒng)數(shù)據(jù)同步相關技術

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種社保大數(shù)據(jù)分布式預處理方法及系統(tǒng)與流程