本發(fā)明涉及大數(shù)據(jù)處理技術領域,尤其是指一種社保大數(shù)據(jù)分布式預處理方法及系統(tǒng)。
背景技術:
國家級的信息化規(guī)劃方案“金保工程”提出全面推進電子政務工程建設,以“政府先行”的方式帶動國民經(jīng)濟和社會發(fā)展信息化。如今社保已覆蓋十幾億人口,政府因此擁有了海量的社保大數(shù)據(jù)。如果能利用飛速發(fā)展的大數(shù)據(jù)技術,對各個社保業(yè)務領域數(shù)據(jù)進行挖掘和統(tǒng)計分析,可為政府政策方針的制定提供參考依據(jù),實現(xiàn)創(chuàng)新性政府服務,從而進一步推進電子政務工程建設。
社保大數(shù)據(jù)的挖掘與分析從采集源數(shù)據(jù)到最終獲得分析結果一般要經(jīng)過幾個主要步驟,包括數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)存儲與管理、聯(lián)機分析處理(OLAP)、數(shù)據(jù)挖掘、數(shù)據(jù)可視化等。其中,數(shù)據(jù)預處理負責將分布的、異構數(shù)據(jù)源中的數(shù)據(jù)如關系數(shù)據(jù)、文本數(shù)據(jù)文件等抽取到臨時中間層后進行清洗、集成、轉換和規(guī)約,最后加載到數(shù)據(jù)倉庫中,成為聯(lián)機分析處理的基礎。數(shù)據(jù)預處理占據(jù)了數(shù)據(jù)分析流程中的大部分工作量,同時也是數(shù)據(jù)倉庫中非常重要的一環(huán),該部分的工作直接關系到數(shù)據(jù)倉庫中數(shù)據(jù)的質(zhì)量,從而影響到聯(lián)機分析處理結果的質(zhì)量。尤其在面對海量數(shù)據(jù)的處理需求時,數(shù)據(jù)預處理系統(tǒng)的設計則顯得尤為重要,系統(tǒng)的結構主要包括數(shù)據(jù)抽取模塊、數(shù)據(jù)的清洗與轉換模塊以及數(shù)據(jù)的裝載模塊。
現(xiàn)有社保業(yè)務系統(tǒng)的設計實施是基于各部門具體需求完成的,而社保包括工傷、生育、醫(yī)療、失業(yè)、養(yǎng)老五大險種,社保五險業(yè)務數(shù)據(jù)因此分散在各個業(yè)務系統(tǒng)中。要對社保大數(shù)據(jù)進行深入的挖掘和統(tǒng)計分析,首先要數(shù)據(jù)從不同的數(shù)據(jù)源中抽取出來,導入到一個大型的分布式數(shù)據(jù)倉庫中。由于數(shù)據(jù)一般存儲于多種不同的關系型數(shù)據(jù)庫中,或以文本的形式存在,不能直接使用,需要先進行數(shù)據(jù)類型轉換、格式轉換、清除重復、糾正異常等預處理操作。數(shù)據(jù)導入和預處理的最大挑戰(zhàn)在于數(shù)據(jù)吞吐量異常巨大,數(shù)據(jù)量級以TB計算,因此需要設計一種能夠穩(wěn)定、高效完成各個數(shù)據(jù)預處理環(huán)節(jié)的大數(shù)據(jù)預處理系統(tǒng)。
現(xiàn)有預處理系統(tǒng)提供了多線程并行執(zhí)行的功能,但一般僅支持在單臺預處理服務器上運行。由于傳統(tǒng)的數(shù)據(jù)預處理的處理量級尚小,單臺服務器的性能很容易滿足需求。但在大數(shù)據(jù)時代,面對海量的社保業(yè)務數(shù)據(jù),單臺服務器的性能存在瓶頸,難以支撐大數(shù)據(jù)的高效預處理工作。如何有效擴展預處理服務器的性能,是實現(xiàn)大數(shù)據(jù)預處理系統(tǒng)的一大問題。
傳統(tǒng)關系型數(shù)據(jù)庫按行數(shù)據(jù)進行存儲,而數(shù)據(jù)的行式存儲會帶來弊端是在查詢數(shù)據(jù)時,即使只涉及其中的幾列,所有無關的數(shù)據(jù)列都會被一并讀取。在聯(lián)機分析處理中,一般只需要對少數(shù)列頻繁進行查詢訪問,但卻不得不讀取其余大量的無關數(shù)據(jù)列,這勢必會對分析性能的造成無謂的損耗。特別是在TB級海量數(shù)據(jù)的條件下,耗費在讀取無關數(shù)據(jù)上的時間將會成為系統(tǒng)性能的一個瓶頸。
預處理系統(tǒng)在完成數(shù)據(jù)預處理操作后,需要把符合格式要求的數(shù)據(jù)記錄裝載到分布式數(shù)據(jù)倉庫中。數(shù)據(jù)記錄完成預處理操作節(jié)點后到達數(shù)據(jù)裝載操作節(jié)點,但由于數(shù)據(jù)預處理操作和數(shù)據(jù)裝載操作分別在兩個線程中同時進行,數(shù)據(jù)記錄到達數(shù)據(jù)裝載節(jié)點的時間不一致,將會導致頻繁的分布式集群文件系統(tǒng)(HDFS)讀寫操作,從而成為影響數(shù)據(jù)預處理效率的又一個因素。
技術實現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術的不足,提供一種社保大數(shù)據(jù)分布式預處理方法及系統(tǒng),可充分利用預處理云服務器的處理性能,提供一定的可擴展性,避免了服務器與分布式文件系統(tǒng)數(shù)據(jù)節(jié)點之間多余的數(shù)據(jù)傳輸,同時提高數(shù)據(jù)裝載到分布式文件系統(tǒng)的效率,從而提高數(shù)據(jù)預處理的效率。
為實現(xiàn)上述目的,本發(fā)明所提供的技術方案,如下:
一種社保大數(shù)據(jù)分布式預處理方法,首先,將數(shù)據(jù)預處理的各種操作定義為數(shù)據(jù)操作節(jié)點,將一套數(shù)據(jù)預處理流程定義為數(shù)據(jù)預處理作業(yè),數(shù)據(jù)預處理作業(yè)由數(shù)據(jù)操作節(jié)點構成;然后對給定的數(shù)據(jù)預處理作業(yè),為其中的每個數(shù)據(jù)操作節(jié)點分配一個或多個線程,分配多個線程的數(shù)據(jù)操作節(jié)點稱為并行數(shù)據(jù)操作節(jié)點,啟動預處理作業(yè)即啟動多個線程同時工作,而僅包含單線程數(shù)據(jù)操作節(jié)點的預處理流程中,數(shù)據(jù)流按單泳道傳遞;對復雜度高的數(shù)據(jù)操作節(jié)點分配多個執(zhí)行線程,并以分布式云服務器集群的方式并行執(zhí)行數(shù)據(jù)預處理作業(yè),集群由云平臺上搭建的預處理服務器組成,包括一臺主服務器和多臺子服務器,系統(tǒng)將預處理作業(yè)中分配多線程的數(shù)據(jù)操作節(jié)點抽取出來,構成子預處理作業(yè),分配給子服務器,剩余部分則交由主服務器處理,集群任務調(diào)度器采用MapReduce并行模式,按照設定的分區(qū)規(guī)則對主服務器上操作節(jié)點的數(shù)據(jù)集進行均勻劃分,傳輸給子服務器進行處理,子服務器完成數(shù)據(jù)處理操作后發(fā)送給主服務器進行合并,最終保持數(shù)據(jù)的一致性;
所述數(shù)據(jù)處理流程按如下具體步驟執(zhí)行:
1)云平臺為云服務器分配所需資源,并初始化預處理云服務器集群;
2)云平臺初始化預處理集群任務調(diào)度器,調(diào)度器負責管理數(shù)據(jù)操作節(jié)點活動、監(jiān)聽操作節(jié)點的執(zhí)行,以及指導數(shù)據(jù)集的劃分和分發(fā)任務;
3)云服務器加載數(shù)據(jù)操作節(jié)點的元數(shù)據(jù),元數(shù)據(jù)定義了數(shù)據(jù)操作節(jié)點的名稱和操作數(shù)據(jù)集的字段信息,包括字段名稱、數(shù)據(jù)類型、數(shù)據(jù)精度,云服務器對加載的數(shù)據(jù)操作節(jié)點按先后順序排列;
4)云服務器對各數(shù)據(jù)操作節(jié)點按以下步驟執(zhí)行:
4.1)云服務器獲取當前數(shù)據(jù)操作節(jié)點,根據(jù)元數(shù)據(jù)獲取操作節(jié)點名稱以及操作的數(shù)據(jù)集信息;判斷數(shù)據(jù)操作節(jié)點是否為并行數(shù)據(jù)操作節(jié)點,若不是,執(zhí)行步驟4.2),若是,執(zhí)行步驟4.3);
4.2)主服務器從上一操作節(jié)點獲取數(shù)據(jù)集,并負責執(zhí)行當前節(jié)點定義的數(shù)據(jù)操作任務;數(shù)據(jù)操作任務完成后,執(zhí)行步驟4.4);
4.3)主服務器從上一操作節(jié)點獲取數(shù)據(jù)集,由集群任務調(diào)度器按照設定的分區(qū)規(guī)則對數(shù)據(jù)集進行均勻劃分,傳輸給子服務器并行執(zhí)行數(shù)據(jù)操作任務;子服務器完成數(shù)據(jù)處理操作后發(fā)送給主服務器進行合并,數(shù)據(jù)操作任務完成后,執(zhí)行步驟4.4);
4.4)判斷有無后續(xù)數(shù)據(jù)操作節(jié)點,若有,則執(zhí)行步驟4.1)。
一種社保大數(shù)據(jù)分布式預處理系統(tǒng),包括:
數(shù)據(jù)抽取模塊,該數(shù)據(jù)抽取模塊包括結構化數(shù)據(jù)抽取單元和文本數(shù)據(jù)抽取單元;所述結構化數(shù)據(jù)抽取單元用于抽取關系型數(shù)據(jù)庫中的數(shù)據(jù)記錄;所述文本數(shù)據(jù)抽取單元用于抽取非結構化的系統(tǒng)數(shù)據(jù),包括系統(tǒng)運行過程中產(chǎn)生的用戶行為數(shù)據(jù)和日志數(shù)據(jù);
數(shù)據(jù)轉換模塊,該數(shù)據(jù)轉換模塊包括數(shù)據(jù)字段轉換單元、數(shù)據(jù)連接單元、數(shù)據(jù)分發(fā)單元、數(shù)據(jù)合并單元和數(shù)據(jù)去重單元;所述數(shù)據(jù)字段轉換單元提供對數(shù)據(jù)類型、格式、精度的轉換;所述數(shù)據(jù)連接單元提供數(shù)據(jù)記錄行的連接;所述數(shù)據(jù)分發(fā)單元用于對數(shù)據(jù)進行劃分和轉發(fā);所述數(shù)據(jù)合并單元實現(xiàn)對子服務器上傳數(shù)據(jù)的合并;所述數(shù)據(jù)去重單元用于去除數(shù)據(jù)記錄中的重復行;
數(shù)據(jù)裝載模塊,該數(shù)據(jù)裝載模塊包括NoSQL緩存單元、集群文件系統(tǒng)寫入單元和任務調(diào)度單元;所述NoSQL緩存單元負責將需要裝載的數(shù)據(jù)行寫入NoSQL緩存數(shù)據(jù)庫中,待達到設定量時觸發(fā)集群文件系統(tǒng)寫入任務;所述集群文件系統(tǒng)寫入單元負責將緩存的數(shù)據(jù)行寫入分布式集群的文件系統(tǒng)HDFS;所述任務調(diào)度單元負責監(jiān)視NoSQL中的緩存情況,適時調(diào)度集群文件系統(tǒng)寫入任務。
本發(fā)明與現(xiàn)有技術相比,具有如下優(yōu)點與有益效果:
1、采用多線程的方式執(zhí)行預處理作業(yè),并為預處理作業(yè)配置集群執(zhí)行方式,可充分發(fā)揮預處理云服務器的處理性能,并提供一定的可擴展性;同時數(shù)據(jù)按列存儲并采用NoSQL數(shù)據(jù)庫進行緩存優(yōu)化,避免了服務器與HDFS數(shù)據(jù)節(jié)點之間多余的數(shù)據(jù)傳輸,同時提高數(shù)據(jù)裝載到HDFS的效率,從而提高數(shù)據(jù)預處理的效率。
2、在數(shù)據(jù)倉庫中按列對數(shù)據(jù)進行存儲。針對大數(shù)據(jù)的聯(lián)機分析處理,列式存儲更適合在數(shù)據(jù)倉庫領域發(fā)揮作用,比如數(shù)據(jù)分析、海量存儲和商業(yè)智能,涉及不經(jīng)常更新的數(shù)據(jù)。預處理系統(tǒng)的數(shù)據(jù)裝載模塊采用列式數(shù)據(jù)存儲方式,有效節(jié)省海量數(shù)據(jù)的存儲空間,同時提高后續(xù)的聯(lián)機分析處理性能。
3、系統(tǒng)借助NoSQL數(shù)據(jù)庫高性能、易擴展的特點,采用基于純內(nèi)存的NoSQL數(shù)據(jù)庫進行緩存優(yōu)化,緩存需要裝載的數(shù)據(jù)記錄,有效降低集群文件系統(tǒng)讀寫操作的頻率,從而降低集群文件系統(tǒng)讀寫操作的耗時,保證海量社保數(shù)據(jù)的高效預處理和裝載。
附圖說明
圖1為分布式預處理系統(tǒng)僅包含單線程數(shù)據(jù)操作節(jié)點的預處理流程圖。
圖2為采用預處理云服務器集群執(zhí)行的預處理流程圖。
圖3為社保大數(shù)據(jù)分布式預處理方法的流程圖。
圖4為數(shù)據(jù)行式存儲和列式存儲原理圖。
圖5為社保大數(shù)據(jù)業(yè)務公共服務平臺總體方案示意圖。
圖6為社保大數(shù)據(jù)分布式預處理系統(tǒng)網(wǎng)絡圖。
具體實施方式
下面結合具體實施例對本發(fā)明作進一步說明。
本實施例所述的社保大數(shù)據(jù)分布式預處理方法,具體是:首先,將數(shù)據(jù)預處理的各種操作如數(shù)據(jù)抽取、字段類型轉換、數(shù)據(jù)格式轉換、數(shù)據(jù)連接、去除重復、數(shù)據(jù)裝載等定義為數(shù)據(jù)操作節(jié)點,將一套數(shù)據(jù)預處理流程定義為數(shù)據(jù)預處理作業(yè),數(shù)據(jù)預處理作業(yè)由數(shù)據(jù)操作節(jié)點構成。對給定的數(shù)據(jù)預處理作業(yè),為其中的每個數(shù)據(jù)操作節(jié)點分配一個或多個線程,分配了多個線程的數(shù)據(jù)操作節(jié)點稱為并行數(shù)據(jù)操作節(jié)點,啟動預處理作業(yè)即啟動多個線程同時工作。如圖1所示,僅包含單線程數(shù)據(jù)操作節(jié)點的預處理流程圖中,數(shù)據(jù)流按單泳道傳遞;考慮其中數(shù)據(jù)記錄排序的操作節(jié)點計算復雜度較高,為其配置3個執(zhí)行線程,則預處理流程中的數(shù)據(jù)流在數(shù)據(jù)排序操作節(jié)點處拆分為三個泳道傳遞。通過為計算復雜度較高的操作節(jié)點分配更多數(shù)量的線程,能夠為數(shù)據(jù)操作節(jié)點合理分配處理器資源,從而充分發(fā)揮預處理服務器的處理性能。
數(shù)據(jù)預處理作業(yè)可選擇以分布式集群的方式執(zhí)行。集群由云平臺上搭建的預處理服務器組成,包括一臺主服務器(master)和多臺子服務器(slave)。系統(tǒng)將預處理作業(yè)中分配了多線程的數(shù)據(jù)操作節(jié)點抽取出來,構成子預處理作業(yè),分配給子服務器,剩余部分則交由主服務器處理。集群任務調(diào)度器采用MapReduce并行模式,按照一定的分區(qū)規(guī)則對主服務器上操作節(jié)點的數(shù)據(jù)集進行均勻劃分(Map),傳輸給子服務器進行處理;子服務器完成數(shù)據(jù)處理操作后發(fā)送給主服務器進行合并(Reduce),最終保持數(shù)據(jù)的一致性。圖1描述的預處理流程采用分布式集群的方式執(zhí)行,記錄排序操作節(jié)點交由子服務器執(zhí)行,其余節(jié)點由主服務器執(zhí)行,分配情況如圖2所示。
社保大數(shù)據(jù)分布式預處理方法的處理流程如圖3所示,具體步驟如下:
步驟1,云平臺為云服務器分配所需資源,并初始化預處理云服務器集群。
步驟2,云平臺初始化預處理集群任務調(diào)度器,調(diào)度器負責管理數(shù)據(jù)操作節(jié)點活動、監(jiān)聽操作節(jié)點的執(zhí)行,以及指導數(shù)據(jù)集的劃分和分發(fā)等任務。
步驟3,云服務器加載數(shù)據(jù)操作節(jié)點的元數(shù)據(jù),元數(shù)據(jù)定義了數(shù)據(jù)操作節(jié)點的名稱和操作數(shù)據(jù)集的字段信息,包括字段名稱、數(shù)據(jù)類型、數(shù)據(jù)精度等,云服務器對加載的數(shù)據(jù)操作節(jié)點按先后順序排列。
步驟4,云服務器對各數(shù)據(jù)操作節(jié)點按以下步驟執(zhí)行:
步驟4.1,云服務器獲取當前數(shù)據(jù)操作節(jié)點,根據(jù)元數(shù)據(jù)獲取操作節(jié)點名稱以及操作的數(shù)據(jù)集信息等;判斷數(shù)據(jù)操作節(jié)點是否為并行數(shù)據(jù)操作節(jié)點,若不是,執(zhí)行步驟4.2,若是,執(zhí)行步驟4.3。
步驟4.2,主服務器從上一操作節(jié)點獲取數(shù)據(jù)集,并負責執(zhí)行當前節(jié)點定義的數(shù)據(jù)操作任務;數(shù)據(jù)操作任務完成后,執(zhí)行步驟4.4。
步驟4.3,主服務器從上一操作節(jié)點獲取數(shù)據(jù)集,集群任務調(diào)度器采用MapReduce并行模式,按照一定的分區(qū)規(guī)則對數(shù)據(jù)集進行均勻劃分(Map),傳輸給子服務器并行執(zhí)行數(shù)據(jù)操作任務;子服務器完成數(shù)據(jù)處理操作后發(fā)送給主服務器進行合并(Reduce)。數(shù)據(jù)操作任務完成后,執(zhí)行步驟4.4。
步驟4.4,判斷有無后續(xù)數(shù)據(jù)操作節(jié)點,若有,則再次執(zhí)行步驟4.1。
云服務器集群執(zhí)行數(shù)據(jù)預處理作業(yè)的方式,有效整合了云平臺上多個預處理服務器的處理資源,進一步提高數(shù)據(jù)預處理效率;同時由于云平臺規(guī)模具有強大的可伸縮性,這為分布式預處理系統(tǒng)的性能提供了可擴展性。
基于上述的社保大數(shù)據(jù)分布式預處理方法進行結構設計,本實施例提供的社保大數(shù)據(jù)分布式預處理系統(tǒng),主要包括數(shù)據(jù)抽取模塊、數(shù)據(jù)轉換模塊以及數(shù)據(jù)裝載模塊。
數(shù)據(jù)抽取模塊包括結構化數(shù)據(jù)抽取單元和文本數(shù)據(jù)抽取單元。結構化數(shù)據(jù)抽取單元用于抽取關系型數(shù)據(jù)庫中的數(shù)據(jù)記錄;文本數(shù)據(jù)抽取單元用于抽取非結構化的系統(tǒng)數(shù)據(jù),如系統(tǒng)運行過程中產(chǎn)生的用戶行為數(shù)據(jù)和日志數(shù)據(jù)。
數(shù)據(jù)轉換模塊包括數(shù)據(jù)字段轉換單元、數(shù)據(jù)連接單元、數(shù)據(jù)分發(fā)單元、數(shù)據(jù)合并單元和數(shù)據(jù)去重單元。數(shù)據(jù)字段轉換單元提供對數(shù)據(jù)類型、格式、精度等的轉換;數(shù)據(jù)連接單元提供數(shù)據(jù)記錄行的連接;數(shù)據(jù)分發(fā)單元對數(shù)據(jù)進行劃分和轉發(fā);數(shù)據(jù)合并單元實現(xiàn)對子服務器上傳數(shù)據(jù)的合并;數(shù)據(jù)去重單元去除數(shù)據(jù)記錄中的重復行。數(shù)據(jù)轉換模塊在數(shù)據(jù)抽取到數(shù)據(jù)準備區(qū)后執(zhí)行預處理作業(yè)。
數(shù)據(jù)裝載模塊包括NoSQL緩存單元、集群文件系統(tǒng)寫入單元和任務調(diào)度單元。NoSQL緩存單元負責將需要裝載的數(shù)據(jù)行寫入NoSQL緩存數(shù)據(jù)庫中,待達到一定量時觸發(fā)集群文件系統(tǒng)寫入任務;集群文件系統(tǒng)寫入單元負責將緩存的數(shù)據(jù)行寫入分布式集群的文件系統(tǒng)HDFS;任務調(diào)度單元負責監(jiān)視NoSQL中的緩存情況,適時調(diào)度集群文件系統(tǒng)寫入任務。
本系統(tǒng)的特點在于在數(shù)據(jù)倉庫中按列對數(shù)據(jù)進行存儲。如圖4所示,描述了數(shù)據(jù)行式存儲和列式存儲原理,相對于行式存儲,列式存儲具備以下優(yōu)點:(1)在查詢時只有涉及到的列會被讀??;(2)投影操作非常高效;(3)任何列都能作為索引;(4)能有效提高數(shù)據(jù)壓縮比,節(jié)省存儲空間。因此針對大數(shù)據(jù)的聯(lián)機分析處理,列式存儲方式更適合在數(shù)據(jù)倉庫領域發(fā)揮作用,比如數(shù)據(jù)分析、海量存儲和商業(yè)智能,也更適合用于存儲不經(jīng)常更新的數(shù)據(jù)。預處理系統(tǒng)的數(shù)據(jù)裝載模塊采用列式數(shù)據(jù)存儲方式,能夠有效節(jié)省海量數(shù)據(jù)的存儲空間,同時提高后續(xù)的聯(lián)機分析處理性能。
本系統(tǒng)的特點還在于借助NoSQL數(shù)據(jù)庫高性能、易擴展的特點,采用基于純內(nèi)存的NoSQL數(shù)據(jù)庫進行緩存優(yōu)化,緩存需要裝載的數(shù)據(jù)記錄,有效降低集群文件系統(tǒng)讀寫操作的頻率,從而降低集群文件系統(tǒng)讀寫操作的耗時,保證海量社保數(shù)據(jù)的高效預處理和裝載。
為了測試本發(fā)明的分布式預處理方法和系統(tǒng)的應用效果,我們將這一技術應用到社保綜合業(yè)務公共服務平臺當中。社保大數(shù)據(jù)綜合業(yè)務公共服務平臺依據(jù)國家級的信息化規(guī)劃方案“金保工程”進行規(guī)劃建設?,F(xiàn)有社保業(yè)務系統(tǒng)的設計實施,基于各部門具體需求形成,業(yè)務數(shù)據(jù)因分散在各個業(yè)務系統(tǒng)中,提供的服務未能整合成一個整體數(shù)據(jù)服務?;诂F(xiàn)有背景,該項目對各個孤立的社保業(yè)務服務資源進行整合,構建一個社保綜合業(yè)務公共服務平臺,在原本相互隔離的“數(shù)據(jù)孤島”間架起溝通的橋梁,組成面向全局的統(tǒng)一數(shù)據(jù)視圖及數(shù)據(jù)共享。在服務平臺之上,可對各個社保業(yè)務領域數(shù)據(jù)進行挖掘和統(tǒng)計分析,并以報表、圖形圖像等可視化手段展現(xiàn),為政府政策方針的制定提供參考依據(jù),實現(xiàn)創(chuàng)新性政府服務應用示范。社保綜合業(yè)務公共服務平臺的總體方案如圖5所示,該平臺主要包括四個子系統(tǒng):分布式預處理系統(tǒng)、聯(lián)機分析處理系統(tǒng)、數(shù)據(jù)挖掘系統(tǒng)、數(shù)據(jù)可視化系統(tǒng)。其中,分布式預處理系統(tǒng)如圖5中A區(qū)域所示。分布式預處理系統(tǒng)的網(wǎng)絡圖如圖6所示,系統(tǒng)從原社保業(yè)務系統(tǒng)中抽取海量的結構化和非結構化數(shù)據(jù),在數(shù)據(jù)準備區(qū)中執(zhí)行高效的預處理作業(yè),之后利用NoSQL高速緩存批量的寫入分布式集群文件系統(tǒng)中,NoSQL緩沖區(qū)還能為公共服務平臺的聯(lián)機分析處理系統(tǒng)提供數(shù)據(jù)讀緩存,進一步提升平臺分析處理性能。
以上所述實施例只為本發(fā)明之較佳實施例,并非以此限制本發(fā)明的實施范圍,故凡依本發(fā)明之形狀、原理所作的變化,均應涵蓋在本發(fā)明的保護范圍內(nèi)。