一種數(shù)據(jù)池對數(shù)據(jù)同步和處理的方法

文檔序號：10471185閱讀：1063來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種數(shù)據(jù)池對數(shù)據(jù)同步和處理的方法【專利摘要】本發(fā)明的目的在于提供一種數(shù)據(jù)池對數(shù)據(jù)同步和處理技術(shù)，包括數(shù)據(jù)抽取、數(shù)據(jù)處理、數(shù)據(jù)存儲、數(shù)據(jù)集市四個步驟，本方法改變了傳統(tǒng)的計量數(shù)據(jù)存蓄、處理、查詢和應(yīng)用方式，實(shí)現(xiàn)了海量計量數(shù)據(jù)的靈活存儲與實(shí)時處理，便于其他業(yè)務(wù)系統(tǒng)的數(shù)據(jù)實(shí)時需求，同時也實(shí)現(xiàn)了高效數(shù)據(jù)查詢功能，提供了更加靈活的數(shù)據(jù)發(fā)布方式?！緦＠f明】-種數(shù)據(jù)池對數(shù)據(jù)同步和處理的方法
技術(shù)領(lǐng)域：
[0001]本發(fā)明設(shè)及數(shù)據(jù)同步和處理技術(shù)，具體設(shè)及一種對海量數(shù)據(jù)的同步和處理的方法。【
背景技術(shù)：
】[0002]隨著技術(shù)的進(jìn)步迎來了大數(shù)據(jù)時代。所謂大數(shù)據(jù)，便是一個體量特別大，數(shù)據(jù)類別特別大的數(shù)據(jù)集，并且運(yùn)樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對其內(nèi)容進(jìn)行抓取、管理和處理的。[0003]如今時間已經(jīng)走進(jìn)了21世紀(jì)，各行各業(yè)已經(jīng)受到科技的影響非常深。各行各業(yè)累計的數(shù)據(jù)也相當(dāng)龐大，數(shù)據(jù)的價值可越來越值得研究。[0004]目前，某電科院的省級集中計量自動化系統(tǒng)實(shí)現(xiàn)計量裝置在線監(jiān)測和用戶負(fù)荷、電量、電壓等重要信息的實(shí)時采集，并且積累了海量的數(shù)據(jù)。該系統(tǒng)每日大概需要處理100萬數(shù)據(jù)文件，對其他系統(tǒng)的發(fā)布數(shù)據(jù)量超過千萬或近億記錄。系統(tǒng)目前處理數(shù)據(jù)文件的方式是通過將文件存儲到關(guān)系型數(shù)據(jù)庫后，再通過程序進(jìn)行調(diào)度輸出，在運(yùn)一過程中就會存在調(diào)度延時的問題。且系統(tǒng)目前是采用關(guān)系型數(shù)據(jù)庫處理日常的數(shù)據(jù)，當(dāng)日常處理數(shù)據(jù)記錄數(shù)過大時，通過數(shù)據(jù)庫進(jìn)行數(shù)據(jù)對象關(guān)聯(lián)的過程中造成了資源的嚴(yán)重消耗。【
發(fā)明內(nèi)容】[0005]本發(fā)明的目的在于提供一種數(shù)據(jù)池對數(shù)據(jù)同步和處理的方法，本方法通過對計量自動化主站系統(tǒng)各類型數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取，并對數(shù)據(jù)進(jìn)行數(shù)據(jù)傳輸與數(shù)據(jù)解析處理，并通過統(tǒng)一的數(shù)據(jù)裝載模塊實(shí)現(xiàn)數(shù)據(jù)的裝載，能夠?qū)崿F(xiàn)對海量的計量自動化主站系統(tǒng)各類數(shù)據(jù)的同步和處理。[0006]本發(fā)明的目的可通過W下的技術(shù)措施來實(shí)現(xiàn)：[0007]-種數(shù)據(jù)池對數(shù)據(jù)同步和處理的方法，包含W下步驟：[000引步驟1:數(shù)據(jù)抽取，從計量自動化主站系統(tǒng)中抽取各類型數(shù)據(jù)，包括計算的流式數(shù)據(jù)與數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)；[0009]步驟2:數(shù)據(jù)處理，對抽取的各類型數(shù)據(jù)進(jìn)行數(shù)據(jù)傳輸與數(shù)據(jù)解析處理；[0010]步驟3:數(shù)據(jù)存儲，通過數(shù)據(jù)裝載模塊將抽取得到的兩種不同種類的數(shù)據(jù)存儲在數(shù)據(jù)池的DW(DataWarehouse指數(shù)據(jù)倉庫）中；[0011]步驟4:數(shù)據(jù)集市，根據(jù)業(yè)務(wù)分析需求和業(yè)務(wù)主體分類形成不同的數(shù)據(jù)集集合。[0012]所述的步驟1中的數(shù)據(jù)抽取是從計量自動化主站系統(tǒng)中抽取各類數(shù)據(jù)到數(shù)據(jù)池。其中數(shù)據(jù)來源主要分為兩類:計算的流式數(shù)據(jù)和數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)。計算的流式數(shù)據(jù)包括：采集原始表碼、負(fù)荷類、告警數(shù)據(jù);結(jié)構(gòu)化數(shù)據(jù)包括系統(tǒng)檔案拓?fù)淠Ｐ汀⒎治鰧ο竽Ｐ秃徒y(tǒng)計匯總數(shù)據(jù)。[0013]所述計算的流式數(shù)據(jù)的抽取過程為:通過文件發(fā)布代理的方式抽取計量自動化主站系統(tǒng)的計算數(shù)據(jù)，該計算數(shù)據(jù)是W具有一定命名規(guī)則的文本文件的形式保存。[0014]所述數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)的抽取過程為:通過調(diào)度服務(wù)模塊配置抽取策略，W增量或全量的方式W-定的周期抽取關(guān)系數(shù)據(jù)庫中的表數(shù)據(jù)。[0015]所述的步驟2中的數(shù)據(jù)傳輸與數(shù)據(jù)解析處理的具體過程為：[0016]所述數(shù)據(jù)傳輸?shù)木唧w過程為:其中結(jié)構(gòu)化數(shù)據(jù)是通過配置Sqoop工具實(shí)現(xiàn)數(shù)據(jù)的傳輸;流式數(shù)據(jù)是通過文件傳輸模塊實(shí)現(xiàn)數(shù)據(jù)的傳輸；[0017]所述數(shù)據(jù)解析處理的具體過程為:所述結(jié)構(gòu)化數(shù)據(jù)是關(guān)系數(shù)據(jù)庫轉(zhuǎn)移到關(guān)系數(shù)據(jù)庫，不需要解析直接存入;所述流式數(shù)據(jù)通過化zie(管理化doop的任務(wù)的工作流調(diào)度系統(tǒng)）白勺'流矛呈啟動Hive(Hi邑hly-parallelIntegratedVirtualEnvironment，基于Hadoop白勺一個數(shù)據(jù)倉庫工具），Hive過程中開發(fā)UDF(UserDefineFunction)模塊對計算流式數(shù)據(jù)格式進(jìn)行解析。[0018]所述的步驟3中的數(shù)據(jù)存儲為通過數(shù)據(jù)裝載操作將兩種不同種類的數(shù)據(jù)存儲在數(shù)據(jù)池的DW中，包括如下內(nèi)容：[0019]結(jié)構(gòu)化數(shù)據(jù)直接存入數(shù)據(jù)池中，計算的流式數(shù)據(jù)采用通用的MapReduce實(shí)現(xiàn)數(shù)據(jù)裝載。[0020]其中所述的DW為：數(shù)據(jù)池的存儲模塊，該模塊分為兩類存儲，一類是基于皿FS(化doopDistributedFileSystem,是化doop的分布式文件系統(tǒng)。）的非結(jié)構(gòu)化存儲，一類是基于MySQL(關(guān)系型數(shù)據(jù)庫管理系統(tǒng)）的結(jié)構(gòu)化數(shù)據(jù)存儲。[0021]所述的步驟4中的數(shù)據(jù)集市是通過在化;rn(YetAnotherResourceNegotiator,另一種資源協(xié)調(diào)者）中部署MapReduce作業(yè)將存儲在數(shù)據(jù)池中的數(shù)據(jù)通過分類統(tǒng)計匯總運(yùn)算生成。并且數(shù)據(jù)集市中的數(shù)據(jù)支持頻繁的數(shù)據(jù)更新。[0022]本發(fā)明對比現(xiàn)有技術(shù)，有如下優(yōu)點(diǎn)：[0023]本發(fā)明通過數(shù)據(jù)池的數(shù)據(jù)同步與處理技術(shù)改變了傳統(tǒng)計量數(shù)據(jù)的存儲、處理、查詢和應(yīng)用方式，實(shí)現(xiàn)了對海量計量數(shù)據(jù)的靈活、高效查詢W及實(shí)時處理。為后續(xù)的數(shù)據(jù)靈活發(fā)布功能提供基礎(chǔ)，實(shí)現(xiàn)了實(shí)時響應(yīng)其他業(yè)務(wù)系統(tǒng)的數(shù)據(jù)需求。【附圖說明】[0024]圖1為本發(fā)明的數(shù)據(jù)同步和處理技術(shù)流程圖；[0025]圖2為本發(fā)明的調(diào)度服務(wù)模塊圖；[0026]圖3為本發(fā)明的數(shù)據(jù)處理流程圖；[0027]圖4為本發(fā)明的文件傳輸模塊圖；[0028]圖5為本發(fā)明的數(shù)據(jù)裝載圖?！揪唧w實(shí)施方式】[0029]下面結(jié)合附圖對本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)的說明。[0030]如圖1所示，本發(fā)明所述的一種數(shù)據(jù)池對數(shù)據(jù)同步和處理技術(shù)，首先通過對計量自動化主站系統(tǒng)各類型數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取，然后對抽取的數(shù)據(jù)進(jìn)行數(shù)據(jù)傳輸與數(shù)據(jù)解析處理，并通過統(tǒng)一的數(shù)據(jù)裝載模塊實(shí)現(xiàn)數(shù)據(jù)的裝載，最后根據(jù)業(yè)務(wù)分析需求和業(yè)務(wù)主體分類形成不同的數(shù)據(jù)集集合。[0031]本發(fā)明所述的一種數(shù)據(jù)池對數(shù)據(jù)同步和處理技術(shù)包括如下步驟：[0032]步驟1:數(shù)據(jù)抽取，從計量自動化主站系統(tǒng)中抽取各類型數(shù)據(jù)，包括計算的流式數(shù)據(jù)與數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)。[0033]步驟2:數(shù)據(jù)處理，對抽取的各類型數(shù)據(jù)進(jìn)行數(shù)據(jù)傳輸與數(shù)據(jù)解析處理。[0034]步驟3:數(shù)據(jù)存儲，通過數(shù)據(jù)裝載模塊將抽取得到的兩種不同種類的數(shù)據(jù)存儲在數(shù)據(jù)池的DW中。[0035]步驟4:數(shù)據(jù)集市，根據(jù)業(yè)務(wù)分析需求和業(yè)務(wù)主體分類形成不同的數(shù)據(jù)集集合。[0036]所述的步驟1具體說明如下：[0037]計量自動化主站系統(tǒng)中計算的流式數(shù)據(jù)主要包括:采集原始表碼、負(fù)荷類、告警等數(shù)據(jù);結(jié)構(gòu)化數(shù)據(jù)主要包括系統(tǒng)檔案拓?fù)淠Ｐ汀⒎治鰧ο竽Ｐ秃徒y(tǒng)計匯總數(shù)據(jù)等。[0038]計算的流式數(shù)據(jù)的抽取方法為:通過文件發(fā)布代理的方式抽取計量自動化主站系統(tǒng)的計算數(shù)據(jù)，其數(shù)據(jù)是W具有一定命名規(guī)則的文本文件的形式保存。[0039]數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)的抽取方法為:通過調(diào)度服務(wù)模塊配置抽取策略，W增量或全量的方式W-定的周期抽取關(guān)系數(shù)據(jù)庫中的表數(shù)據(jù)。[0040]其中計算的流式數(shù)據(jù)的內(nèi)容W及文件名，都必須遵循一定規(guī)則與格式，其詳細(xì)說明如下：[0041]文件名命名格式:$(表名）.化.ok.$(時間）.$(序號）[.$(同時間升序號）].${文件發(fā)布代理}[0042]其中；[0043]$(表名）：配置文件中配置的輸出表名稱，真實(shí)表名稱在數(shù)據(jù)文件中；[0044]$(時間）：使用格式，表示從1970年開始的秒數(shù)；[0045]$(序號）：循環(huán)順序號，從0~255,同模塊輸出的所有類型文件編號，并不針對同表名文件編號；[0046][.$(同時間升序號）]:該字段可選，當(dāng)同一張表在1(時間r相同的條件下生成了多個文件，則該字段進(jìn)行順序編號，從0開始往后編號。[0047]${文件發(fā)布代理}:數(shù)據(jù)分發(fā)代理讀取數(shù)據(jù)時將按照${時間}字段規(guī)則按照時間先后順序?qū)⑽募涗泝?nèi)容順序輸出，同一秒的文件可不考慮順序。[0048]樣例文件名如下所示：[0049][0050]數(shù)據(jù)內(nèi)容格式如下：[0051]$(table_name),$(field_num)[0052]$(field_name)[:$(field_si即）],$(data_type)[:$(constraint)],$(length),$(precision)[0化3]……[0054]$(field)$(1:ab)$(field)$(1:ab)......[0055]其中字段含義說明如下：[0056]$(table_name):具體入庫的數(shù)據(jù)庫表名稱；[0057]$(fielcLmim):字段個數(shù)，后續(xù)是字段列表，一行描述一個字段；[0058]$(field_name):字段名稱，對應(yīng)數(shù)據(jù)庫表中的字段名稱；[0059]$(fie1d_sign):可選字段標(biāo)識屬性，如DATA_TIME、DATA_ITEM等，后臺程序解析用途，DATA_TIME表示輸出YYYY-MM-DD皿24:MI:SS格式，其他屬性表示不同類型的時間域或字符串表示法，目前系統(tǒng)中的數(shù)據(jù)時間均為W上格式，因此暫時不需要支持該字段的屬性解析；[0060]$(data_type):數(shù)據(jù)類型，取值有CHAR、DATE，數(shù)值類型作為字符串形式輸出；[0061]$(cons化aint):字段約束，取值有K、V、N，其中K表示為主鍵字段，V表示不允許為空，N不需要輸出到數(shù)據(jù)庫；[0062]$(length):字段最大數(shù)據(jù)長度[0063]$(precision):字段數(shù)據(jù)精度，數(shù)值型數(shù)據(jù)時表示數(shù)據(jù)的精度，字符串必須為0;[0064]$(field):字段的具體數(shù)據(jù)內(nèi)容；[0065]$(tab):每個字段最后WTAB鍵分隔，最后一個字段也有一個TAB鍵。[0066]樣例內(nèi)容如下；[0067][0068]其中關(guān)于結(jié)構(gòu)化數(shù)據(jù)抽取中調(diào)度服務(wù)模塊說明如下，如圖2所示。[0069]數(shù)據(jù)調(diào)度服務(wù)主要由任務(wù)生成模塊(時間觸發(fā)任務(wù)模塊和文件觸發(fā)任務(wù)模塊）、依賴處理模塊、作業(yè)調(diào)度模塊、作業(yè)工作模塊和數(shù)據(jù)庫存儲接口五個部分組成。由于數(shù)據(jù)是從關(guān)系數(shù)據(jù)庫轉(zhuǎn)移到關(guān)系數(shù)據(jù)庫，因此可通過配置依賴處理模塊和作業(yè)調(diào)度模塊即可實(shí)現(xiàn)。[0070]所述的步驟2具體說明如下：[0071]抽取的各類型數(shù)據(jù)進(jìn)行數(shù)據(jù)傳輸與數(shù)據(jù)解析處理，如圖3所示，關(guān)于數(shù)據(jù)傳輸與數(shù)據(jù)解析的具體說明如下：[0072]數(shù)據(jù)傳輸:結(jié)構(gòu)化數(shù)據(jù)是通過配置Sqoop工具實(shí)現(xiàn)數(shù)據(jù)的傳輸。流式數(shù)據(jù)是通過文件傳輸模塊實(shí)現(xiàn)數(shù)據(jù)的傳輸。[0073]數(shù)據(jù)解析:結(jié)構(gòu)化數(shù)據(jù)是關(guān)系數(shù)據(jù)庫轉(zhuǎn)移到關(guān)系數(shù)據(jù)庫，不需要解析直接存入即好。流式數(shù)據(jù)通過Oozie配置的流程啟動化ve過程處理，Hive過程中開發(fā)UDF模塊對計算流式數(shù)據(jù)格式進(jìn)行解析。[0074]其中文件傳輸模塊如圖4所示，具體說明如下：[0075]文件傳輸代理主要分為Ξ個模塊，即配置中屯、、文件發(fā)布代理和文件接收客戶端。其中配置中屯、實(shí)現(xiàn)文件發(fā)布代理的數(shù)據(jù)訂閱關(guān)系配置，當(dāng)文件發(fā)布代理啟動后，通過向配置中屯、登陸獲取該模塊的配置信息，當(dāng)配置中屯、的配置變更后，在下一次文件發(fā)布代理登陸后，將配置信息提供給文件發(fā)布代理。[0076]文件發(fā)布代理:部署在每個需要進(jìn)行文件傳輸?shù)姆?wù)器上，一個代理只能實(shí)現(xiàn)一個目錄下的文件傳輸，傳輸文件時，根據(jù)文件訂購需求，按照文件的生成時間順序發(fā)送給文件接收客戶端。對沒有訂購關(guān)系的文件進(jìn)行清除操作。[0077]文件接收客戶端:在配置中屯、中需要注冊文文件接收客戶端地址信息，文件發(fā)布代理將文件按照規(guī)則按照順序傳遞給文件接收客戶端。[0078]所述的步驟3具體說明如下：[0079]通過數(shù)據(jù)裝載操作將兩種不同種類的數(shù)據(jù)存儲在數(shù)據(jù)池的DW中。[0080]其中所述的數(shù)據(jù)裝載操作為:結(jié)構(gòu)化數(shù)據(jù)直接可存入數(shù)據(jù)池中，計算的流式數(shù)據(jù)采用通用的MapReduce作業(yè)實(shí)現(xiàn)數(shù)據(jù)裝載。[0081]其通用的MapReduce作業(yè)流程如圖5所示，數(shù)據(jù)裝載模塊主要分成:MapReduce數(shù)據(jù)裝載任務(wù)管理器和MapReduce任務(wù)。MapReduce數(shù)據(jù)裝載任務(wù)管理器主要實(shí)現(xiàn)掃描文件，分配任務(wù)W及管理任務(wù)的功能。[0082]MapReduce任務(wù)實(shí)現(xiàn)過程如下：[0083]1、獲取到數(shù)據(jù)文件任務(wù)后，讀取數(shù)據(jù)對象標(biāo)識(在文件中的第一行）；[0084]2、從"數(shù)據(jù)文件配置"表中按照"名稱規(guī)則排序號'順序匹配"對象名稱規(guī)則"，找到第一配置成功的配置記錄；[0085]3、使用該記錄中的"KEY規(guī)則"為數(shù)據(jù)文件中的每一行記錄生成"KEY"值，如果該文件不是裝載到皿ase數(shù)據(jù)庫（否則是裝載到關(guān)系數(shù)據(jù)庫，關(guān)系庫無KEY值），則無需理會該字段；[0086]4、根據(jù)裝載模型對象記錄KEY狀態(tài)，利用"更新規(guī)則"，執(zhí)行更新或插入操作。[0087]其中"數(shù)據(jù)文件配置"表的屬性，如下的數(shù)據(jù)文件配置表1所示。[008引[0090]表1[0091]在使用皿ase數(shù)據(jù)庫，KEY值需要遵循W下原則：[0092]1、長度原則:長度建議設(shè)計在10~100個字節(jié)，越短越好；[0093]2、散列原則:高位作為散列字段，低位放時間字段，運(yùn)樣將提高數(shù)據(jù)均衡分布在每個Regionserver實(shí)現(xiàn)負(fù)載均衡的幾率。[0094]3、唯一性原則:必須在設(shè)計上保證其唯一性。[0095]所述的KEY值標(biāo)識符表達(dá)式形式如下：[0096]${identifier}${name/sequence}${len}_${identifier}${name/sequence}${len}_${identifier}${name/sequence}${len}[0097]KEY值的含義如下表2所示：[009引[0099]表2[0100]所述的更新規(guī)則如下：[0101]1、查找到相同的KEY記錄時，執(zhí)行更新操作，否則執(zhí)行插入操作；[010^2、更新按照屬性進(jìn)行更新，新記錄中的屬性值為NU化時，則該屬性不更新，當(dāng)新記錄的屬性不為空時，更新對應(yīng)屬性值，不存在的屬性進(jìn)行新增。[0103]其中所述的DW為:數(shù)據(jù)池的存儲。該部分分為兩類存儲，一類是基于皿FS的非結(jié)構(gòu)化存儲，一類是基于MySQL的結(jié)構(gòu)化數(shù)據(jù)存儲。非結(jié)構(gòu)化數(shù)據(jù)保存在基于HAD00P的云平臺中，它可分為兩種，一種是基于非結(jié)構(gòu)化的采集計算業(yè)務(wù)數(shù)據(jù)，該部分?jǐn)?shù)據(jù)存儲在化ase中，一種是用于接口交互的文件數(shù)據(jù)，該種數(shù)據(jù)W文件形式存放在HDFS中。結(jié)構(gòu)化數(shù)據(jù)存儲保存在高可用的MySQkCluster中。[0104]所述的步驟4具體說明如下：[0105]數(shù)據(jù)集市是通過在化rn中部署MapReduce作業(yè)將存儲在數(shù)據(jù)池中的數(shù)據(jù)，通過分類統(tǒng)計匯總運(yùn)算生成。并且數(shù)據(jù)集市中的數(shù)據(jù)支持頻繁的數(shù)據(jù)更新。[0106]綜上所述步驟，本發(fā)明通過數(shù)據(jù)池的數(shù)據(jù)同步與處理技術(shù)改變了傳統(tǒng)計量數(shù)據(jù)的存儲、處理、查詢和應(yīng)用方式，實(shí)現(xiàn)了對海量計量數(shù)據(jù)的靈活、高效查詢W及實(shí)時處理。為后續(xù)的數(shù)據(jù)靈活發(fā)布功能提供基礎(chǔ)，實(shí)現(xiàn)了實(shí)時響應(yīng)其他業(yè)務(wù)系統(tǒng)的數(shù)據(jù)需求。[0107]本發(fā)明的方法不同于傳統(tǒng)方法，做出了別樣創(chuàng)新。該方法是基于省級集中計量自動化系統(tǒng)中實(shí)現(xiàn)計量裝置在線監(jiān)測和用戶負(fù)荷、電量、電壓等重要信息的實(shí)時采集，為了最大化發(fā)揮運(yùn)些采集的數(shù)據(jù)用途，開展數(shù)據(jù)發(fā)布數(shù)據(jù)池研究工作，是為了研究對計量自動化系統(tǒng)最低影響條件下開展計量數(shù)據(jù)發(fā)布功能。[0108]該方法將從研究計量自動化系統(tǒng)數(shù)據(jù)特征和形成過程出發(fā)，通過數(shù)據(jù)處理過程分析、數(shù)據(jù)發(fā)布架構(gòu)設(shè)計等方式，最高限度降低對計量自動化系統(tǒng)生產(chǎn)環(huán)境的影響，同時最大限度提供數(shù)據(jù)發(fā)布密度、準(zhǔn)實(shí)時性。[0109]本發(fā)明的實(shí)施方式不限于此，在本發(fā)明上述基本技術(shù)思想前提下，按照本領(lǐng)域的普通技術(shù)知識和慣用手段對本【
發(fā)明內(nèi)容】所做出其它多種形式的修改、替換或變更，均落在本發(fā)明權(quán)利保護(hù)范圍之內(nèi)?！局鳈?quán)項】1.一種數(shù)據(jù)池對數(shù)據(jù)同步和處理的方法，其特征在于包括以下步驟：步驟1:數(shù)據(jù)抽取，用于從計量自動化主站系統(tǒng)中抽取各類型數(shù)據(jù)，包括計算的流式數(shù)據(jù)與數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)；步驟2:數(shù)據(jù)處理，用于對抽取的各類型數(shù)據(jù)進(jìn)行數(shù)據(jù)傳輸與數(shù)據(jù)解析處理；步驟3:數(shù)據(jù)存儲，通過數(shù)據(jù)裝載模塊將抽取得到的兩種不同種類的數(shù)據(jù)存儲在數(shù)據(jù)池的數(shù)據(jù)倉庫DW中；步驟4:數(shù)據(jù)集市，用于根據(jù)業(yè)務(wù)分析需求和業(yè)務(wù)主體分類形成不同的數(shù)據(jù)集集合。2.根據(jù)權(quán)利要求1所述的方法，其特征在于:所述的步驟1中的數(shù)據(jù)抽取是從計量自動化主站系統(tǒng)中抽取各類數(shù)據(jù)到數(shù)據(jù)池;其中的數(shù)據(jù)來源主要分為兩類:計算的流式數(shù)據(jù)和數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)。3.根據(jù)權(quán)利要求2所述的方法，其特征在于:所述計算的流式數(shù)據(jù)包括:采集原始表碼、負(fù)荷類、告警數(shù)據(jù);所述結(jié)構(gòu)化數(shù)據(jù)包括系統(tǒng)檔案拓?fù)淠Ｐ?、分析對象模型和統(tǒng)計匯總數(shù)據(jù)。4.根據(jù)權(quán)利要求3所述的方法，其特征在于:所述計算的流式數(shù)據(jù)的抽取過程為:通過文件發(fā)布代理的方式抽取計量自動化主站系統(tǒng)的計算數(shù)據(jù)，該計算數(shù)據(jù)是以具有一定命名規(guī)則的文本文件的形式保存。5.根據(jù)權(quán)利要求3所述的方法，其特征在于:所述數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)的抽取過程為:通過調(diào)度服務(wù)模塊配置抽取策略，以增量或全量的方式以一定的周期抽取關(guān)系數(shù)據(jù)庫中的表數(shù)據(jù)。6.根據(jù)權(quán)利要求1所述的方法，其特征在于:所述的步驟2中的所述數(shù)據(jù)傳輸?shù)木唧w過程為:其中結(jié)構(gòu)化數(shù)據(jù)是通過配置Sqoop工具實(shí)現(xiàn)數(shù)據(jù)的傳輸;流式數(shù)據(jù)是通過文件傳輸模塊實(shí)現(xiàn)數(shù)據(jù)的傳輸。7.根據(jù)權(quán)利要求1所述的方法，其特征在于:所述數(shù)據(jù)解析處理的具體過程為:所述結(jié)構(gòu)化數(shù)據(jù)是關(guān)系數(shù)據(jù)庫轉(zhuǎn)移到關(guān)系數(shù)據(jù)庫，直接存入;所述流式數(shù)據(jù)通過管理Hadoop的任務(wù)的工作流調(diào)度系統(tǒng)Oozie的流程啟動倉庫工具Hive，Hive過程中開發(fā)UserDefineFunction模塊對計算流式數(shù)據(jù)格式進(jìn)行解析。8.根據(jù)權(quán)利要求1所述的方法，其特征在于:所述的步驟3中的數(shù)據(jù)存儲為通過數(shù)據(jù)裝載操作將兩種不同種類的數(shù)據(jù)存儲在數(shù)據(jù)池的數(shù)據(jù)倉庫DW中，包括如下內(nèi)容：結(jié)構(gòu)化數(shù)據(jù)直接存入數(shù)據(jù)池中，計算的流式數(shù)據(jù)采用通用的MapReduce實(shí)現(xiàn)數(shù)據(jù)裝載。9.根據(jù)權(quán)利要求1-8中任意一項所述的方法，其特征在于:其中所述的數(shù)據(jù)倉庫DW為：數(shù)據(jù)池的存儲模塊，該模塊分為兩類存儲，一類是基于HDFS的非結(jié)構(gòu)化存儲，該HDFS是Hadoop的分布式文件系統(tǒng)，一類是基于關(guān)系型數(shù)據(jù)庫管理系統(tǒng)MySQL的結(jié)構(gòu)化數(shù)據(jù)存儲。10.根據(jù)權(quán)利要求1所述的方法，其特征在于:所述的步驟4中的數(shù)據(jù)集市是通過在資源協(xié)調(diào)者Yarn中部署MapReduce作業(yè)將存儲在數(shù)據(jù)池中的數(shù)據(jù)通過分類統(tǒng)計匯總運(yùn)算生成?！疚臋n編號】G06F17/30GK105824892SQ201610139934【公開日】2016年8月3日【申請日】2016年3月11日【發(fā)明人】盧世祥,闕華坤,林國營,雷曉江,柳志明【申請人】廣東電網(wǎng)有限責(zé)任公司電力科學(xué)研究院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：盧世祥;闕華坤;林國營;雷曉江;柳志明;
技術(shù)所有人：廣東電網(wǎng)有限責(zé)任公司電力科學(xué)研究院;
我是此專利的發(fā)明人

上一篇：一種訪問和加載二維碼鏈接的方法和裝置的制造方法
上一篇：測風(fēng)塔數(shù)據(jù)自動上傳的方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

同步輻射數(shù)據(jù)處理相關(guān)技術(shù)

數(shù)據(jù)庫同步方法相關(guān)技術(shù)

數(shù)據(jù)同步方法相關(guān)技術(shù)

游泳池水處理方法相關(guān)技術(shù)

游泳池水質(zhì)處理方法相關(guān)技術(shù)

泳池水質(zhì)處理方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種數(shù)據(jù)池對數(shù)據(jù)同步和處理的方法