一種數(shù)據(jù)池對數(shù)據(jù)同步和處理的方法【專利摘要】本發(fā)明的目的在于提供一種數(shù)據(jù)池對數(shù)據(jù)同步和處理技術(shù),包括數(shù)據(jù)抽取、數(shù)據(jù)處理、數(shù)據(jù)存儲、數(shù)據(jù)集市四個步驟,本方法改變了傳統(tǒng)的計量數(shù)據(jù)存蓄、處理、查詢和應(yīng)用方式,實(shí)現(xiàn)了海量計量數(shù)據(jù)的靈活存儲與實(shí)時處理,便于其他業(yè)務(wù)系統(tǒng)的數(shù)據(jù)實(shí)時需求,同時也實(shí)現(xiàn)了高效數(shù)據(jù)查詢功能,提供了更加靈活的數(shù)據(jù)發(fā)布方式?!緦@f明】-種數(shù)據(jù)池對數(shù)據(jù)同步和處理的方法
技術(shù)領(lǐng)域:
[0001]本發(fā)明設(shè)及數(shù)據(jù)同步和處理技術(shù),具體設(shè)及一種對海量數(shù)據(jù)的同步和處理的方法。【
背景技術(shù):
】[0002]隨著技術(shù)的進(jìn)步迎來了大數(shù)據(jù)時代。所謂大數(shù)據(jù),便是一個體量特別大,數(shù)據(jù)類別特別大的數(shù)據(jù)集,并且運(yùn)樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對其內(nèi)容進(jìn)行抓取、管理和處理的。[0003]如今時間已經(jīng)走進(jìn)了21世紀(jì),各行各業(yè)已經(jīng)受到科技的影響非常深。各行各業(yè)累計的數(shù)據(jù)也相當(dāng)龐大,數(shù)據(jù)的價值可越來越值得研究。[0004]目前,某電科院的省級集中計量自動化系統(tǒng)實(shí)現(xiàn)計量裝置在線監(jiān)測和用戶負(fù)荷、電量、電壓等重要信息的實(shí)時采集,并且積累了海量的數(shù)據(jù)。該系統(tǒng)每日大概需要處理100萬數(shù)據(jù)文件,對其他系統(tǒng)的發(fā)布數(shù)據(jù)量超過千萬或近億記錄。系統(tǒng)目前處理數(shù)據(jù)文件的方式是通過將文件存儲到關(guān)系型數(shù)據(jù)庫后,再通過程序進(jìn)行調(diào)度輸出,在運(yùn)一過程中就會存在調(diào)度延時的問題。且系統(tǒng)目前是采用關(guān)系型數(shù)據(jù)庫處理日常的數(shù)據(jù),當(dāng)日常處理數(shù)據(jù)記錄數(shù)過大時,通過數(shù)據(jù)庫進(jìn)行數(shù)據(jù)對象關(guān)聯(lián)的過程中造成了資源的嚴(yán)重消耗。【
發(fā)明內(nèi)容】[0005]本發(fā)明的目的在于提供一種數(shù)據(jù)池對數(shù)據(jù)同步和處理的方法,本方法通過對計量自動化主站系統(tǒng)各類型數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取,并對數(shù)據(jù)進(jìn)行數(shù)據(jù)傳輸與數(shù)據(jù)解析處理,并通過統(tǒng)一的數(shù)據(jù)裝載模塊實(shí)現(xiàn)數(shù)據(jù)的裝載,能夠?qū)崿F(xiàn)對海量的計量自動化主站系統(tǒng)各類數(shù)據(jù)的同步和處理。[0006]本發(fā)明的目的可通過W下的技術(shù)措施來實(shí)現(xiàn):[0007]-種數(shù)據(jù)池對數(shù)據(jù)同步和處理的方法,包含W下步驟:[000引步驟1:數(shù)據(jù)抽取,從計量自動化主站系統(tǒng)中抽取各類型數(shù)據(jù),包括計算的流式數(shù)據(jù)與數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù);[0009]步驟2:數(shù)據(jù)處理,對抽取的各類型數(shù)據(jù)進(jìn)行數(shù)據(jù)傳輸與數(shù)據(jù)解析處理;[0010]步驟3:數(shù)據(jù)存儲,通過數(shù)據(jù)裝載模塊將抽取得到的兩種不同種類的數(shù)據(jù)存儲在數(shù)據(jù)池的DW(DataWarehouse指數(shù)據(jù)倉庫)中;[0011]步驟4:數(shù)據(jù)集市,根據(jù)業(yè)務(wù)分析需求和業(yè)務(wù)主體分類形成不同的數(shù)據(jù)集集合。[0012]所述的步驟1中的數(shù)據(jù)抽取是從計量自動化主站系統(tǒng)中抽取各類數(shù)據(jù)到數(shù)據(jù)池。其中數(shù)據(jù)來源主要分為兩類:計算的流式數(shù)據(jù)和數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)。計算的流式數(shù)據(jù)包括:采集原始表碼、負(fù)荷類、告警數(shù)據(jù);結(jié)構(gòu)化數(shù)據(jù)包括系統(tǒng)檔案拓?fù)淠P汀⒎治鰧ο竽P秃徒y(tǒng)計匯總數(shù)據(jù)。[0013]所述計算的流式數(shù)據(jù)的抽取過程為:通過文件發(fā)布代理的方式抽取計量自動化主站系統(tǒng)的計算數(shù)據(jù),該計算數(shù)據(jù)是W具有一定命名規(guī)則的文本文件的形式保存。[0014]所述數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)的抽取過程為:通過調(diào)度服務(wù)模塊配置抽取策略,W增量或全量的方式W-定的周期抽取關(guān)系數(shù)據(jù)庫中的表數(shù)據(jù)。[0015]所述的步驟2中的數(shù)據(jù)傳輸與數(shù)據(jù)解析處理的具體過程為:[0016]所述數(shù)據(jù)傳輸?shù)木唧w過程為:其中結(jié)構(gòu)化數(shù)據(jù)是通過配置Sqoop工具實(shí)現(xiàn)數(shù)據(jù)的傳輸;流式數(shù)據(jù)是通過文件傳輸模塊實(shí)現(xiàn)數(shù)據(jù)的傳輸;[0017]所述數(shù)據(jù)解析處理的具體過程為:所述結(jié)構(gòu)化數(shù)據(jù)是關(guān)系數(shù)據(jù)庫轉(zhuǎn)移到關(guān)系數(shù)據(jù)庫,不需要解析直接存入;所述流式數(shù)據(jù)通過化zie(管理化doop的任務(wù)的工作流調(diào)度系統(tǒng))白勺'流矛呈啟動Hive(Hi邑hly-parallelIntegratedVirtualEnvironment,基于Hadoop白勺一個數(shù)據(jù)倉庫工具),Hive過程中開發(fā)UDF(UserDefineFunction)模塊對計算流式數(shù)據(jù)格式進(jìn)行解析。[0018]所述的步驟3中的數(shù)據(jù)存儲為通過數(shù)據(jù)裝載操作將兩種不同種類的數(shù)據(jù)存儲在數(shù)據(jù)池的DW中,包括如下內(nèi)容:[0019]結(jié)構(gòu)化數(shù)據(jù)直接存入數(shù)據(jù)池中,計算的流式數(shù)據(jù)采用通用的MapReduce實(shí)現(xiàn)數(shù)據(jù)裝載。[0020]其中所述的DW為:數(shù)據(jù)池的存儲模塊,該模塊分為兩類存儲,一類是基于皿FS(化doopDistributedFileSystem,是化doop的分布式文件系統(tǒng)。)的非結(jié)構(gòu)化存儲,一類是基于MySQL(關(guān)系型數(shù)據(jù)庫管理系統(tǒng))的結(jié)構(gòu)化數(shù)據(jù)存儲。[0021]所述的步驟4中的數(shù)據(jù)集市是通過在化;rn(YetAnotherResourceNegotiator,另一種資源協(xié)調(diào)者)中部署MapReduce作業(yè)將存儲在數(shù)據(jù)池中的數(shù)據(jù)通過分類統(tǒng)計匯總運(yùn)算生成。并且數(shù)據(jù)集市中的數(shù)據(jù)支持頻繁的數(shù)據(jù)更新。[0022]本發(fā)明對比現(xiàn)有技術(shù),有如下優(yōu)點(diǎn):[0023]本發(fā)明通過數(shù)據(jù)池的數(shù)據(jù)同步與處理技術(shù)改變了傳統(tǒng)計量數(shù)據(jù)的存儲、處理、查詢和應(yīng)用方式,實(shí)現(xiàn)了對海量計量數(shù)據(jù)的靈活、高效查詢W及實(shí)時處理。為后續(xù)的數(shù)據(jù)靈活發(fā)布功能提供基礎(chǔ),實(shí)現(xiàn)了實(shí)時響應(yīng)其他業(yè)務(wù)系統(tǒng)的數(shù)據(jù)需求。【附圖說明】[0024]圖1為本發(fā)明的數(shù)據(jù)同步和處理技術(shù)流程圖;[0025]圖2為本發(fā)明的調(diào)度服務(wù)模塊圖;[0026]圖3為本發(fā)明的數(shù)據(jù)處理流程圖;[0027]圖4為本發(fā)明的文件傳輸模塊圖;[0028]圖5為本發(fā)明的數(shù)據(jù)裝載圖?!揪唧w實(shí)施方式】[0029]下面結(jié)合附圖對本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)的說明。[0030]如圖1所示,本發(fā)明所述的一種數(shù)據(jù)池對數(shù)據(jù)同步和處理技術(shù),首先通過對計量自動化主站系統(tǒng)各類型數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取,然后對抽取的數(shù)據(jù)進(jìn)行數(shù)據(jù)傳輸與數(shù)據(jù)解析處理,并通過統(tǒng)一的數(shù)據(jù)裝載模塊實(shí)現(xiàn)數(shù)據(jù)的裝載,最后根據(jù)業(yè)務(wù)分析需求和業(yè)務(wù)主體分類形成不同的數(shù)據(jù)集集合。[0031]本發(fā)明所述的一種數(shù)據(jù)池對數(shù)據(jù)同步和處理技術(shù)包括如下步驟:[0032]步驟1:數(shù)據(jù)抽取,從計量自動化主站系統(tǒng)中抽取各類型數(shù)據(jù),包括計算的流式數(shù)據(jù)與數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)。[0033]步驟2:數(shù)據(jù)處理,對抽取的各類型數(shù)據(jù)進(jìn)行數(shù)據(jù)傳輸與數(shù)據(jù)解析處理。[0034]步驟3:數(shù)據(jù)存儲,通過數(shù)據(jù)裝載模塊將抽取得到的兩種不同種類的數(shù)據(jù)存儲在數(shù)據(jù)池的DW中。[0035]步驟4:數(shù)據(jù)集市,根據(jù)業(yè)務(wù)分析需求和業(yè)務(wù)主體分類形成不同的數(shù)據(jù)集集合。[0036]所述的步驟1具體說明如下:[0037]計量自動化主站系統(tǒng)中計算的流式數(shù)據(jù)主要包括:采集原始表碼、負(fù)荷類、告警等數(shù)據(jù);結(jié)構(gòu)化數(shù)據(jù)主要包括系統(tǒng)檔案拓?fù)淠P汀⒎治鰧ο竽P秃徒y(tǒng)計匯總數(shù)據(jù)等。[0038]計算的流式數(shù)據(jù)的抽取方法為:通過文件發(fā)布代理的方式抽取計量自動化主站系統(tǒng)的計算數(shù)據(jù),其數(shù)據(jù)是W具有一定命名規(guī)則的文本文件的形式保存。[0039]數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)的抽取方法為:通過調(diào)度服務(wù)模塊配置抽取策略,W增量或全量的方式W-定的周期抽取關(guān)系數(shù)據(jù)庫中的表數(shù)據(jù)。[0040]其中計算的流式數(shù)據(jù)的內(nèi)容W及文件名,都必須遵循一定規(guī)則與格式,其詳細(xì)說明如下:[0041]文件名命名格式:$(表名).化.ok.$(時間).$(序號)[.$(同時間升序號)].${文件發(fā)布代理}[0042]其中;[0043]$(表名):配置文件中配置的輸出表名稱,真實(shí)表名稱在數(shù)據(jù)文件中;[0044]$(時間):使用格式,表示從1970年開始的秒數(shù);[0045]$(序號):循環(huán)順序號,從0~255,同模塊輸出的所有類型文件編號,并不針對同表名文件編號;[0046][.$(同時間升序號)]:該字段可選,當(dāng)同一張表在1(時間r相同的條件下生成了多個文件,則該字段進(jìn)行順序編號,從0開始往后編號。[0047]${文件發(fā)布代理}:數(shù)據(jù)分發(fā)代理讀取數(shù)據(jù)時將按照${時間}字段規(guī)則按照時間先后順序?qū)⑽募涗泝?nèi)容順序輸出,同一秒的文件可不考慮順序。[0048]樣例文件名如下所示:[0049][0050]數(shù)據(jù)內(nèi)容格式如下:[0051]$(table_name),$(field_num)[0052]$(field_name)[:$(field_si即)],$(data_type)[:$(constraint)],$(length),$(precision)[0化3]……[0054]$(field)$(1:ab)$(field)$(1:ab)......[0055]其中字段含義說明如下:[0056]$(table_name):具體入庫的數(shù)據(jù)庫表名稱;[0057]$(fielcLmim):字段個數(shù),后續(xù)是字段列表,一行描述一個字段;[0058]$(field_name):字段名稱,對應(yīng)數(shù)據(jù)庫表中的字段名稱;[0059]$(fie1d_sign):可選字段標(biāo)識屬性,如DATA_TIME、DATA_ITEM等,后臺程序解析用途,DATA_TIME表示輸出YYYY-MM-DD皿24:MI:SS格式,其他屬性表示不同類型的時間域或字符串表示法,目前系統(tǒng)中的數(shù)據(jù)時間均為W上格式,因此暫時不需要支持該字段的屬性解析;[0060]$(data_type):數(shù)據(jù)類型,取值有CHAR、DATE,數(shù)值類型作為字符串形式輸出;[0061]$(cons化aint):字段約束,取值有K、V、N,其中K表示為主鍵字段,V表示不允許為空,N不需要輸出到數(shù)據(jù)庫;[0062]$(length):字段最大數(shù)據(jù)長度[0063]$(precision):字段數(shù)據(jù)精度,數(shù)值型數(shù)據(jù)時表示數(shù)據(jù)的精度,字符串必須為0;[0064]$(field):字段的具體數(shù)據(jù)內(nèi)容;[0065]$(tab):每個字段最后WTAB鍵分隔,最后一個字段也有一個TAB鍵。[0066]樣例內(nèi)容如下;[0067][0068]其中關(guān)于結(jié)構(gòu)化數(shù)據(jù)抽取中調(diào)度服務(wù)模塊說明如下,如圖2所示。[0069]數(shù)據(jù)調(diào)度服務(wù)主要由任務(wù)生成模塊(時間觸發(fā)任務(wù)模塊和文件觸發(fā)任務(wù)模塊)、依賴處理模塊、作業(yè)調(diào)度模塊、作業(yè)工作模塊和數(shù)據(jù)庫存儲接口五個部分組成。由于數(shù)據(jù)是從關(guān)系數(shù)據(jù)庫轉(zhuǎn)移到關(guān)系數(shù)據(jù)庫,因此可通過配置依賴處理模塊和作業(yè)調(diào)度模塊即可實(shí)現(xiàn)。[0070]所述的步驟2具體說明如下:[0071]抽取的各類型數(shù)據(jù)進(jìn)行數(shù)據(jù)傳輸與數(shù)據(jù)解析處理,如圖3所示,關(guān)于數(shù)據(jù)傳輸與數(shù)據(jù)解析的具體說明如下:[0072]數(shù)據(jù)傳輸:結(jié)構(gòu)化數(shù)據(jù)是通過配置Sqoop工具實(shí)現(xiàn)數(shù)據(jù)的傳輸。流式數(shù)據(jù)是通過文件傳輸模塊實(shí)現(xiàn)數(shù)據(jù)的傳輸。[0073]數(shù)據(jù)解析:結(jié)構(gòu)化數(shù)據(jù)是關(guān)系數(shù)據(jù)庫轉(zhuǎn)移到關(guān)系數(shù)據(jù)庫,不需要解析直接存入即好。流式數(shù)據(jù)通過Oozie配置的流程啟動化ve過程處理,Hive過程中開發(fā)UDF模塊對計算流式數(shù)據(jù)格式進(jìn)行解析。[0074]其中文件傳輸模塊如圖4所示,具體說明如下:[0075]文件傳輸代理主要分為Ξ個模塊,即配置中屯、、文件發(fā)布代理和文件接收客戶端。其中配置中屯、實(shí)現(xiàn)文件發(fā)布代理的數(shù)據(jù)訂閱關(guān)系配置,當(dāng)文件發(fā)布代理啟動后,通過向配置中屯、登陸獲取該模塊的配置信息,當(dāng)配置中屯、的配置變更后,在下一次文件發(fā)布代理登陸后,將配置信息提供給文件發(fā)布代理。[0076]文件發(fā)布代理:部署在每個需要進(jìn)行文件傳輸?shù)姆?wù)器上,一個代理只能實(shí)現(xiàn)一個目錄下的文件傳輸,傳輸文件時,根據(jù)文件訂購需求,按照文件的生成時間順序發(fā)送給文件接收客戶端。對沒有訂購關(guān)系的文件進(jìn)行清除操作。[0077]文件接收客戶端:在配置中屯、中需要注冊文文件接收客戶端地址信息,文件發(fā)布代理將文件按照規(guī)則按照順序傳遞給文件接收客戶端。[0078]所述的步驟3具體說明如下:[0079]通過數(shù)據(jù)裝載操作將兩種不同種類的數(shù)據(jù)存儲在數(shù)據(jù)池的DW中。[0080]其中所述的數(shù)據(jù)裝載操作為:結(jié)構(gòu)化數(shù)據(jù)直接可存入數(shù)據(jù)池中,計算的流式數(shù)據(jù)采用通用的MapReduce作業(yè)實(shí)現(xiàn)數(shù)據(jù)裝載。[0081]其通用的MapReduce作業(yè)流程如圖5所示,數(shù)據(jù)裝載模塊主要分成:MapReduce數(shù)據(jù)裝載任務(wù)管理器和MapReduce任務(wù)。MapReduce數(shù)據(jù)裝載任務(wù)管理器主要實(shí)現(xiàn)掃描文件,分配任務(wù)W及管理任務(wù)的功能。[0082]MapReduce任務(wù)實(shí)現(xiàn)過程如下:[0083]1、獲取到數(shù)據(jù)文件任務(wù)后,讀取數(shù)據(jù)對象標(biāo)識(在文件中的第一行);[0084]2、從"數(shù)據(jù)文件配置"表中按照"名稱規(guī)則排序號'順序匹配"對象名稱規(guī)則",找到第一配置成功的配置記錄;[0085]3、使用該記錄中的"KEY規(guī)則"為數(shù)據(jù)文件中的每一行記錄生成"KEY"值,如果該文件不是裝載到皿ase數(shù)據(jù)庫(否則是裝載到關(guān)系數(shù)據(jù)庫,關(guān)系庫無KEY值),則無需理會該字段;[0086]4、根據(jù)裝載模型對象記錄KEY狀態(tài),利用"更新規(guī)則",執(zhí)行更新或插入操作。[0087]其中"數(shù)據(jù)文件配置"表的屬性,如下的數(shù)據(jù)文件配置表1所示。[008引[0090]表1[0091]在使用皿ase數(shù)據(jù)庫,KEY值需要遵循W下原則:[0092]1、長度原則:長度建議設(shè)計在10~100個字節(jié),越短越好;[0093]2、散列原則:高位作為散列字段,低位放時間字段,運(yùn)樣將提高數(shù)據(jù)均衡分布在每個Regionserver實(shí)現(xiàn)負(fù)載均衡的幾率。[0094]3、唯一性原則:必須在設(shè)計上保證其唯一性。[0095]所述的KEY值標(biāo)識符表達(dá)式形式如下:[0096]${identifier}${name/sequence}${len}_${identifier}${name/sequence}${len}_${identifier}${name/sequence}${len}[0097]KEY值的含義如下表2所示:[009引[0099]表2[0100]所述的更新規(guī)則如下:[0101]1、查找到相同的KEY記錄時,執(zhí)行更新操作,否則執(zhí)行插入操作;[010^2、更新按照屬性進(jìn)行更新,新記錄中的屬性值為NU化時,則該屬性不更新,當(dāng)新記錄的屬性不為空時,更新對應(yīng)屬性值,不存在的屬性進(jìn)行新增。[0103]其中所述的DW為:數(shù)據(jù)池的存儲。該部分分為兩類存儲,一類是基于皿FS的非結(jié)構(gòu)化存儲,一類是基于MySQL的結(jié)構(gòu)化數(shù)據(jù)存儲。非結(jié)構(gòu)化數(shù)據(jù)保存在基于HAD00P的云平臺中,它可分為兩種,一種是基于非結(jié)構(gòu)化的采集計算業(yè)務(wù)數(shù)據(jù),該部分?jǐn)?shù)據(jù)存儲在化ase中,一種是用于接口交互的文件數(shù)據(jù),該種數(shù)據(jù)W文件形式存放在HDFS中。結(jié)構(gòu)化數(shù)據(jù)存儲保存在高可用的MySQkCluster中。[0104]所述的步驟4具體說明如下:[0105]數(shù)據(jù)集市是通過在化rn中部署MapReduce作業(yè)將存儲在數(shù)據(jù)池中的數(shù)據(jù),通過分類統(tǒng)計匯總運(yùn)算生成。并且數(shù)據(jù)集市中的數(shù)據(jù)支持頻繁的數(shù)據(jù)更新。[0106]綜上所述步驟,本發(fā)明通過數(shù)據(jù)池的數(shù)據(jù)同步與處理技術(shù)改變了傳統(tǒng)計量數(shù)據(jù)的存儲、處理、查詢和應(yīng)用方式,實(shí)現(xiàn)了對海量計量數(shù)據(jù)的靈活、高效查詢W及實(shí)時處理。為后續(xù)的數(shù)據(jù)靈活發(fā)布功能提供基礎(chǔ),實(shí)現(xiàn)了實(shí)時響應(yīng)其他業(yè)務(wù)系統(tǒng)的數(shù)據(jù)需求。[0107]本發(fā)明的方法不同于傳統(tǒng)方法,做出了別樣創(chuàng)新。該方法是基于省級集中計量自動化系統(tǒng)中實(shí)現(xiàn)計量裝置在線監(jiān)測和用戶負(fù)荷、電量、電壓等重要信息的實(shí)時采集,為了最大化發(fā)揮運(yùn)些采集的數(shù)據(jù)用途,開展數(shù)據(jù)發(fā)布數(shù)據(jù)池研究工作,是為了研究對計量自動化系統(tǒng)最低影響條件下開展計量數(shù)據(jù)發(fā)布功能。[0108]該方法將從研究計量自動化系統(tǒng)數(shù)據(jù)特征和形成過程出發(fā),通過數(shù)據(jù)處理過程分析、數(shù)據(jù)發(fā)布架構(gòu)設(shè)計等方式,最高限度降低對計量自動化系統(tǒng)生產(chǎn)環(huán)境的影響,同時最大限度提供數(shù)據(jù)發(fā)布密度、準(zhǔn)實(shí)時性。[0109]本發(fā)明的實(shí)施方式不限于此,在本發(fā)明上述基本技術(shù)思想前提下,按照本領(lǐng)域的普通技術(shù)知識和慣用手段對本【
發(fā)明內(nèi)容】所做出其它多種形式的修改、替換或變更,均落在本發(fā)明權(quán)利保護(hù)范圍之內(nèi)?!局鳈?quán)項】1.一種數(shù)據(jù)池對數(shù)據(jù)同步和處理的方法,其特征在于包括以下步驟:步驟1:數(shù)據(jù)抽取,用于從計量自動化主站系統(tǒng)中抽取各類型數(shù)據(jù),包括計算的流式數(shù)據(jù)與數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù);步驟2:數(shù)據(jù)處理,用于對抽取的各類型數(shù)據(jù)進(jìn)行數(shù)據(jù)傳輸與數(shù)據(jù)解析處理;步驟3:數(shù)據(jù)存儲,通過數(shù)據(jù)裝載模塊將抽取得到的兩種不同種類的數(shù)據(jù)存儲在數(shù)據(jù)池的數(shù)據(jù)倉庫DW中;步驟4:數(shù)據(jù)集市,用于根據(jù)業(yè)務(wù)分析需求和業(yè)務(wù)主體分類形成不同的數(shù)據(jù)集集合。2.根據(jù)權(quán)利要求1所述的方法,其特征在于:所述的步驟1中的數(shù)據(jù)抽取是從計量自動化主站系統(tǒng)中抽取各類數(shù)據(jù)到數(shù)據(jù)池;其中的數(shù)據(jù)來源主要分為兩類:計算的流式數(shù)據(jù)和數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)。3.根據(jù)權(quán)利要求2所述的方法,其特征在于:所述計算的流式數(shù)據(jù)包括:采集原始表碼、負(fù)荷類、告警數(shù)據(jù);所述結(jié)構(gòu)化數(shù)據(jù)包括系統(tǒng)檔案拓?fù)淠P?、分析對象模型和統(tǒng)計匯總數(shù)據(jù)。4.根據(jù)權(quán)利要求3所述的方法,其特征在于:所述計算的流式數(shù)據(jù)的抽取過程為:通過文件發(fā)布代理的方式抽取計量自動化主站系統(tǒng)的計算數(shù)據(jù),該計算數(shù)據(jù)是以具有一定命名規(guī)則的文本文件的形式保存。5.根據(jù)權(quán)利要求3所述的方法,其特征在于:所述數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)的抽取過程為:通過調(diào)度服務(wù)模塊配置抽取策略,以增量或全量的方式以一定的周期抽取關(guān)系數(shù)據(jù)庫中的表數(shù)據(jù)。6.根據(jù)權(quán)利要求1所述的方法,其特征在于:所述的步驟2中的所述數(shù)據(jù)傳輸?shù)木唧w過程為:其中結(jié)構(gòu)化數(shù)據(jù)是通過配置Sqoop工具實(shí)現(xiàn)數(shù)據(jù)的傳輸;流式數(shù)據(jù)是通過文件傳輸模塊實(shí)現(xiàn)數(shù)據(jù)的傳輸。7.根據(jù)權(quán)利要求1所述的方法,其特征在于:所述數(shù)據(jù)解析處理的具體過程為:所述結(jié)構(gòu)化數(shù)據(jù)是關(guān)系數(shù)據(jù)庫轉(zhuǎn)移到關(guān)系數(shù)據(jù)庫,直接存入;所述流式數(shù)據(jù)通過管理Hadoop的任務(wù)的工作流調(diào)度系統(tǒng)Oozie的流程啟動倉庫工具Hive,Hive過程中開發(fā)UserDefineFunction模塊對計算流式數(shù)據(jù)格式進(jìn)行解析。8.根據(jù)權(quán)利要求1所述的方法,其特征在于:所述的步驟3中的數(shù)據(jù)存儲為通過數(shù)據(jù)裝載操作將兩種不同種類的數(shù)據(jù)存儲在數(shù)據(jù)池的數(shù)據(jù)倉庫DW中,包括如下內(nèi)容:結(jié)構(gòu)化數(shù)據(jù)直接存入數(shù)據(jù)池中,計算的流式數(shù)據(jù)采用通用的MapReduce實(shí)現(xiàn)數(shù)據(jù)裝載。9.根據(jù)權(quán)利要求1-8中任意一項所述的方法,其特征在于:其中所述的數(shù)據(jù)倉庫DW為:數(shù)據(jù)池的存儲模塊,該模塊分為兩類存儲,一類是基于HDFS的非結(jié)構(gòu)化存儲,該HDFS是Hadoop的分布式文件系統(tǒng),一類是基于關(guān)系型數(shù)據(jù)庫管理系統(tǒng)MySQL的結(jié)構(gòu)化數(shù)據(jù)存儲。10.根據(jù)權(quán)利要求1所述的方法,其特征在于:所述的步驟4中的數(shù)據(jù)集市是通過在資源協(xié)調(diào)者Yarn中部署MapReduce作業(yè)將存儲在數(shù)據(jù)池中的數(shù)據(jù)通過分類統(tǒng)計匯總運(yùn)算生成?!疚臋n編號】G06F17/30GK105824892SQ201610139934【公開日】2016年8月3日【申請日】2016年3月11日【發(fā)明人】盧世祥,闕華坤,林國營,雷曉江,柳志明【申請人】廣東電網(wǎng)有限責(zé)任公司電力科學(xué)研究院