一種面向電網(wǎng)運行的全息時標(biāo)量測數(shù)據(jù)萃取轉(zhuǎn)換方法
【專利摘要】本發(fā)明公開了一種面向電網(wǎng)運行的全息時標(biāo)量測數(shù)據(jù)萃取轉(zhuǎn)換方法,屬于數(shù)據(jù)庫【技術(shù)領(lǐng)域】。本發(fā)明先進行全息時標(biāo)量測數(shù)據(jù)的抽取,再進行全息時標(biāo)量測數(shù)據(jù)的轉(zhuǎn)換,最后進行全息時標(biāo)量測數(shù)據(jù)的加載,將全息時標(biāo)量測數(shù)據(jù)和存儲于關(guān)系型數(shù)據(jù)庫中的電網(wǎng)模型以及其他各類業(yè)務(wù)數(shù)據(jù)的集成。本發(fā)明能夠在全息時標(biāo)量測數(shù)據(jù)處理領(lǐng)域進行數(shù)據(jù)萃取轉(zhuǎn)換,實現(xiàn)有效抽取、清洗和轉(zhuǎn)化,大大降低后續(xù)應(yīng)用開展的成本和復(fù)雜度,還能夠降低數(shù)據(jù)總體規(guī)模,提升數(shù)據(jù)質(zhì)量,有效提取、利用現(xiàn)有系統(tǒng)的功能模塊,在不影響現(xiàn)有系統(tǒng)功能與安全穩(wěn)定性的前提下實現(xiàn)高效的上層應(yīng)用,充分挖掘現(xiàn)有系統(tǒng)的價值,在更高的層次上實現(xiàn)電網(wǎng)運行處理的自動化、智能化,保障電網(wǎng)的安全穩(wěn)定運行。
【專利說明】一種面向電網(wǎng)運行的全息時標(biāo)量測數(shù)據(jù)萃取轉(zhuǎn)換方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于數(shù)據(jù)庫【技術(shù)領(lǐng)域】,更準(zhǔn)確地說本發(fā)明涉及一種面向電網(wǎng)運行的全息時標(biāo)量測數(shù)據(jù)萃取轉(zhuǎn)換方法。
【背景技術(shù)】
[0002]隨著電網(wǎng)建設(shè)規(guī)模的不斷擴大,智能電網(wǎng)、智能變電站等研究應(yīng)用的不斷深入,調(diào)度自動化系統(tǒng)面對的采集點越來越多。與以往地區(qū)調(diào)度自動化系統(tǒng)顯著不同的是,大型地區(qū)電網(wǎng)調(diào)度自動化系統(tǒng)面臨的數(shù)據(jù)采集規(guī)模急劇上升,個別地區(qū)將達到上百萬采集點的規(guī)模,數(shù)據(jù)存儲規(guī)模將從目前的GB級轉(zhuǎn)向TB級。此外,隨著調(diào)度自動化水平的不斷提高,各業(yè)務(wù)系統(tǒng)對調(diào)度自動化系統(tǒng)提出了更高的要求,以往低頻率按照分鐘級的歷史數(shù)據(jù)存儲已經(jīng)很難滿足電網(wǎng)精細化管理的要求,而全息保存電網(wǎng)運行所有細節(jié)已成為大勢所趨,原有的周期性歷史數(shù)據(jù)保存方式已不能滿足要求,應(yīng)按照變化的實際時間序列連續(xù)進行存儲,以滿足更多的應(yīng)用需求,這也將導(dǎo)致數(shù)據(jù)存儲規(guī)模數(shù)十倍的增長。同時,歷史數(shù)據(jù)的存儲組織策略以及查詢檢索策略也將變得相當(dāng)復(fù)雜。傳統(tǒng)的關(guān)系數(shù)據(jù)庫無論在響應(yīng)速度、存儲規(guī)模、查詢效率和變化存儲機制上都將很難滿足應(yīng)用的需求。近幾年來,動態(tài)信息數(shù)據(jù)庫(又稱時間序列數(shù)據(jù)庫)在電網(wǎng)中的集成應(yīng)用使得高精度采樣并全息記錄電網(wǎng)運行過程中帶有時標(biāo)的數(shù)據(jù)成為可能。
[0003]然而,全息時標(biāo)量測數(shù)據(jù)存在總體規(guī)模龐大、質(zhì)量參差不齊、數(shù)據(jù)本身缺乏對模型的描述等諸多問題。因此,亟需一種數(shù)據(jù)萃取方法及工具,能夠?qū)A咳r標(biāo)量測數(shù)據(jù)進行抽取和清洗,降低數(shù)據(jù)總體規(guī)模,提升數(shù)據(jù)質(zhì)量,同時和存儲于關(guān)系型數(shù)據(jù)庫中的電網(wǎng)模型以及其他各類業(yè)務(wù)數(shù)據(jù)進行集成,形成面向各類應(yīng)用的數(shù)據(jù)集市,為后續(xù)包括數(shù)據(jù)挖掘、輔助決策、多業(yè)務(wù)集成、可視化展示在內(nèi)的多個高級應(yīng)用奠定基礎(chǔ)。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是:彌補現(xiàn)有技術(shù)的不足,提供一種面向電網(wǎng)運行的全息時標(biāo)量測數(shù)據(jù)萃取轉(zhuǎn)換方法,保證數(shù)據(jù)能夠按照預(yù)期的方式正確地進行抽取、轉(zhuǎn)換和加載到動態(tài)信息數(shù)據(jù)庫中,同時和存儲于關(guān)系型數(shù)據(jù)庫中的電網(wǎng)模型以及其他各類業(yè)務(wù)數(shù)據(jù)進行集成。
[0005]具體地說,本發(fā)明是采用以下的技術(shù)方案來實現(xiàn)的,包括下列步驟:
1)全息時標(biāo)量測數(shù)據(jù)的抽取:從多數(shù)據(jù)源中讀取源數(shù)據(jù)中的元數(shù)據(jù)、接入數(shù)據(jù)和抽取數(shù)據(jù);
2)全息時標(biāo)量測數(shù)據(jù)的轉(zhuǎn)換:依照數(shù)據(jù)庫約束和業(yè)務(wù)邏輯,通過數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換將步驟I)中抽取的數(shù)據(jù)協(xié)調(diào)為統(tǒng)一格式,以滿足動態(tài)信息數(shù)據(jù)庫的數(shù)據(jù)模型和數(shù)據(jù)質(zhì)量的需要;
3)全息時標(biāo)量測數(shù)據(jù)的加載:將轉(zhuǎn)換完的全息時標(biāo)量測數(shù)據(jù)按照目標(biāo)數(shù)據(jù)模型定義的數(shù)據(jù)結(jié)構(gòu)加載到動態(tài)信息數(shù)據(jù)庫中,對不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采用不同的加載周期,同時采用多線程并行處理方式加載數(shù)據(jù)以提高程序運行效率; 4)將加載到動態(tài)信息數(shù)據(jù)庫中的全息時標(biāo)量測數(shù)據(jù)和存儲于關(guān)系型數(shù)據(jù)庫中的電網(wǎng)模型以及其他各類業(yè)務(wù)數(shù)據(jù)的集成,形成數(shù)據(jù)倉庫,應(yīng)用服務(wù)器通過獲取數(shù)據(jù)倉庫中的數(shù)據(jù)為上層應(yīng)用提供數(shù)據(jù)支撐。
[0006]上述技術(shù)方案的進一步特征在于,所述步驟I)具體包括以下過程:
1-1)讀取每一個數(shù)據(jù)源資源層中的全息時標(biāo)量測數(shù)據(jù)元模型;
1-2)通過遠端抽取元模型對數(shù)據(jù)進行抽取處理,所述遠端抽取元模型由抽取核心、日志模塊和抽取配置元數(shù)據(jù)構(gòu)成,抽取核心讀取抽取配置元數(shù)據(jù)的參數(shù)設(shè)置,根據(jù)相應(yīng)設(shè)置從遠端數(shù)據(jù)源表中抽取目標(biāo)數(shù)據(jù),抽取方式分為全量抽取和增量抽取兩種,抽取配置元數(shù)據(jù)由需要抽取的表名、字段、類型、數(shù)據(jù)庫連接信息、抽取數(shù)據(jù)時間信息組成,日志模型用來紀(jì)錄抽取處理的日志;
所述全量抽取是指根據(jù)抽取的字段和抽取的規(guī)則將數(shù)據(jù)源端的指定數(shù)據(jù)字段的全部數(shù)據(jù)都抽取出來;所述增量抽取是指全量抽取完成后在后續(xù)的抽取過程只抽取自上次抽取源表中新增或被修改的數(shù)據(jù);
1-3)通過傳輸元模型將抽取的數(shù)據(jù)從遠端傳輸?shù)街行亩耍?br>
1-4)將傳輸?shù)街行亩说臄?shù)據(jù)緩存到異構(gòu)臨時存儲區(qū)。
[0007]上述技術(shù)方案的進一步特征在于,所述增量抽取基于調(diào)度業(yè)務(wù)系統(tǒng)的時間戳實現(xiàn),通過比較指定抽取時間與抽取源表的時間戳字段的值來決定抽取哪些數(shù)據(jù)。
[0008]上述技術(shù)方案的進一步特征在于,所述步驟2)中的數(shù)據(jù)轉(zhuǎn)換包括不一致數(shù)據(jù)轉(zhuǎn)換、參照轉(zhuǎn)換、字符串處理、直接映射、日期轉(zhuǎn)換、日期運算、空值判斷、聚集運算和/或既定取值。
[0009]上述技術(shù)方案的進一步特征在于,所述步驟3)中,在全息時標(biāo)量測數(shù)據(jù)的加載時對新產(chǎn)生的實時數(shù)據(jù)變化進行實時捕獲,并根據(jù)量測數(shù)據(jù)質(zhì)量碼進行正常設(shè)備采集數(shù)據(jù)、越限數(shù)據(jù)的定位與捕捉,濾除人工置位產(chǎn)生的數(shù)據(jù)變化。
[0010]上述技術(shù)方案的進一步特征在于,所述數(shù)據(jù)倉庫中的實時數(shù)據(jù)與歷史數(shù)據(jù)分開存儲,并對實時數(shù)據(jù)和歷史數(shù)據(jù)進行統(tǒng)一建模,對外提供統(tǒng)一的訪問視圖。
[0011]本發(fā)明的有益效果如下:本發(fā)明能夠在全息時標(biāo)量測數(shù)據(jù)處理領(lǐng)域進行數(shù)據(jù)萃取轉(zhuǎn)換,達到99%的有效抽取、清洗和轉(zhuǎn)化,大大降低后續(xù)應(yīng)用開展的成本和復(fù)雜度。同時,本發(fā)明利用動態(tài)信息數(shù)據(jù)庫存儲的全息時標(biāo)量測數(shù)據(jù),可以降低數(shù)據(jù)總體規(guī)模,提升數(shù)據(jù)質(zhì)量,尋求調(diào)度自動化系統(tǒng)中精細化統(tǒng)計分析應(yīng)用的突破點,有效提取、利用現(xiàn)有系統(tǒng)的功能模塊,在不影響現(xiàn)有系統(tǒng)功能與安全穩(wěn)定性的前提下實現(xiàn)高效的上層應(yīng)用,充分挖掘現(xiàn)有系統(tǒng)的價值,在更高的層次上實現(xiàn)電網(wǎng)運行處理的自動化、智能化,保障電網(wǎng)的安全穩(wěn)定運行。
【專利附圖】
【附圖說明】
[0012]圖1是本發(fā)明的全息時標(biāo)量測數(shù)據(jù)萃取轉(zhuǎn)換整體框架示意圖。
[0013]圖2是本發(fā)明的全息時標(biāo)量測數(shù)據(jù)萃取抽取元模型示意圖。
[0014]圖3是本發(fā)明的數(shù)據(jù)倉庫體系結(jié)構(gòu)。
【具體實施方式】
[0015]下面參照附圖并結(jié)合實例對本發(fā)明作進一步詳細描述。
[0016]如圖1所示,本發(fā)明的全息時標(biāo)量測數(shù)據(jù)萃取轉(zhuǎn)換整體框架分為三個層次,由下往上分別為資源層、分析層、管理層。每一層由若干塊組成,每一塊代表一個兀模型。
[0017]其中,資源層描述各種不同類型數(shù)據(jù)資源的元數(shù)據(jù)的模型,元數(shù)據(jù)是指對數(shù)據(jù)的抽象信息,在這里主要是指全息時標(biāo)量測數(shù)據(jù)。分析層定義資源層中模型的進一步描述和各種規(guī)則,是數(shù)據(jù)萃取框架模型中最關(guān)鍵的部分,包括了抽取、轉(zhuǎn)換和加載元模型。抽取和加載元模型包括了數(shù)據(jù)源中的元數(shù)據(jù)、抽取和加載規(guī)則定義,轉(zhuǎn)換元模型主要完成數(shù)據(jù)集成和聚集工作。數(shù)據(jù)集成是指對多個數(shù)據(jù)源進行重構(gòu)集成,清洗和轉(zhuǎn)換,轉(zhuǎn)換為滿足目標(biāo)數(shù)據(jù)源模型的定義。其中包括解決數(shù)據(jù)源的異構(gòu)問題,分為四個層次:系統(tǒng)、語法、結(jié)構(gòu)和語義。如數(shù)據(jù)從數(shù)據(jù)源到數(shù)據(jù)倉庫要進行時間格式數(shù)據(jù)轉(zhuǎn)換,數(shù)據(jù)源中的紀(jì)錄中屬性的語義通常是不同的,如需要解決空值、重復(fù)值、不同的計量單位問題。聚集是指對數(shù)據(jù)進行匯總和綜合,即加大數(shù)據(jù)粒度。管理層定義分析層元數(shù)據(jù)調(diào)度和執(zhí)行方面的元數(shù)據(jù)模型,包括作業(yè)調(diào)度管理、運行監(jiān)控、恢復(fù)管理、異常管理、日志管理等模型。
[0018]全息時標(biāo)量測數(shù)據(jù)從異構(gòu)數(shù)據(jù)源通過數(shù)據(jù)萃取過程最終加載到動態(tài)信息數(shù)據(jù)庫中的過程如下:
(1)首先異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)通過資源層中的全息時標(biāo)量測數(shù)據(jù)元模型這個數(shù)據(jù)接口,由分析層中的抽取元模型對這些數(shù)據(jù)進行抽取,這個元模型定義了抽取規(guī)則,即哪些數(shù)據(jù)要抽取以及怎樣抽取。
[0019](2)對于抽取完成的數(shù)據(jù)經(jīng)過轉(zhuǎn)換元模型的轉(zhuǎn)換處理,其中轉(zhuǎn)換元模型定義了源數(shù)據(jù)和目標(biāo)數(shù)據(jù)存儲中的轉(zhuǎn)換元數(shù)據(jù)。這些轉(zhuǎn)換元數(shù)據(jù)包含了轉(zhuǎn)換規(guī)則元數(shù)據(jù),由調(diào)度領(lǐng)域的業(yè)務(wù)規(guī)則和動態(tài)信息數(shù)據(jù)庫的數(shù)據(jù)存儲格式?jīng)Q定。
[0020]( 3 )經(jīng)過轉(zhuǎn)換元模型后的數(shù)據(jù),通過保存了加載規(guī)則的加載元模型進行數(shù)據(jù)加載處理工作。
[0021](4)最后通過資源層中的元數(shù)據(jù)定義加載到動態(tài)信息數(shù)據(jù)庫中。
[0022]下面對上述過程進行具體說明:
1、全息時標(biāo)量測數(shù)據(jù)的抽取:從多數(shù)據(jù)源中讀取源數(shù)據(jù)中的元數(shù)據(jù)、接入數(shù)據(jù)和抽取數(shù)據(jù)。
[0023]如圖2所示,本發(fā)明的全息時標(biāo)量測數(shù)據(jù)萃取抽取元模型包括4個部分,分別為遠端抽取-傳輸-緩沖-合并,即使用遠端抽取-傳輸-緩沖-合并的抽取技術(shù)來解決多個異地數(shù)據(jù)源進行數(shù)據(jù)抽取的問題,在各個前端分別進行遠端抽取,然后將成功抽取的文件傳輸?shù)街行亩说臄?shù)據(jù)緩沖區(qū),再將這些數(shù)據(jù)進行合并,這樣有效地解決了在異地不同的數(shù)據(jù)源抽取數(shù)據(jù)的一致性和完整性問題。因為在傳輸之前先對抽取文件過程的狀態(tài)進行檢查,這就保證了數(shù)據(jù)抽取過程的正確,同時檢查傳輸運行狀態(tài),如果不成功傳輸元模型將自動重傳,并紀(jì)錄運行日志。
[0024]全息時標(biāo)量測數(shù)據(jù)抽取的詳細步驟如下:
(O讀取每一個數(shù)據(jù)源資源層中的全息時標(biāo)量測數(shù)據(jù)元模型;
(2)經(jīng)過遠端抽取元模型對數(shù)據(jù)進行抽取處理,遠端抽取元模型由抽取核心、日志模塊和抽取配置元數(shù)據(jù)構(gòu)成。抽取核心讀取抽取配置元數(shù)據(jù)的參數(shù)設(shè)置,根據(jù)相應(yīng)設(shè)置從遠端數(shù)據(jù)源表中抽取目標(biāo)數(shù)據(jù),抽取核心的抽取方式分為全量和增量抽取。在集成端進行數(shù)據(jù)的初始化時,第一次是全量抽取,由業(yè)務(wù)人員定義抽取策略,選定抽取的字段和抽取的規(guī)則后,設(shè)計人員執(zhí)行程序,將數(shù)據(jù)源端的指定數(shù)據(jù)字段的全部數(shù)據(jù)都抽取出來,放入數(shù)據(jù)臨時存儲區(qū)??梢赃x擇需要的字段,并為源數(shù)據(jù)庫的字段名定義新的字段名,數(shù)據(jù)值不變,也可以由源表數(shù)據(jù)的舊字段經(jīng)過數(shù)學(xué)運算,得出新的數(shù)據(jù)值裝載到目標(biāo)數(shù)據(jù)庫中。全量抽取完成后,后續(xù)的抽取過程只需要抽取自上次抽取源表中新增或被修改的數(shù)據(jù),即增量抽取。日常事務(wù)都是增量抽取。要實現(xiàn)增量抽取,需要準(zhǔn)確地捕獲數(shù)據(jù)庫中源表數(shù)據(jù)的變化,本發(fā)明采用時間戳方式,基于調(diào)度業(yè)務(wù)系統(tǒng)的時間戳實現(xiàn)。通過比較指定抽取時間與抽取源表的時間戳字段的值來決定抽取哪些數(shù)據(jù),即每次抽取之前首先判斷動態(tài)信息數(shù)據(jù)庫中記錄的最新時間戳,然后根據(jù)這個時間戳去業(yè)務(wù)系統(tǒng)取大于這個時間戳的所有記錄。這種方式需要在源表上增加一個時間戳字段,系統(tǒng)中更新或修改源表數(shù)據(jù)的時候,同時修改時間戳字段的值。插入數(shù)據(jù)的時間戳由系統(tǒng)時間指定。有些數(shù)據(jù)庫時間戳支持自動更新,即表的其它字段的數(shù)據(jù)發(fā)生改變時,時間戳字段的值會被自動更新為記錄改變的時刻。在這種情況下,進行數(shù)據(jù)萃取時只需在源表加上時間戳字段即可。對于不支持時間戳自動更新的數(shù)據(jù)庫,則需要業(yè)務(wù)系統(tǒng)在更新業(yè)務(wù)數(shù)據(jù)時,通過編程的方式手工更新時間戳字段。抽取核心依賴于抽取配置元數(shù)據(jù),抽取配置元數(shù)據(jù)由需要抽取的表名、字段、類型、數(shù)據(jù)庫連接信息、抽取數(shù)據(jù)時間等信息組成。日志模型用來紀(jì)錄抽取處理的日志;
(3)通過傳輸元模型將抽取的數(shù)據(jù)從遠端傳輸?shù)街行亩耍?br>
(4)將傳輸?shù)街行亩说臄?shù)據(jù)緩存到異構(gòu)臨時存儲區(qū),這是因為通常是有多個數(shù)據(jù)源需要抽取,抽取的進程通常是異步的,故需要有一個數(shù)據(jù)緩沖來同步這個過程,同時也為了數(shù)據(jù)恢復(fù),這樣不會因為一端數(shù)據(jù)抽取失敗而造成所有前端的數(shù)據(jù)重新抽取。最后將這些各個數(shù)據(jù)源中抽取的數(shù)據(jù)進行合并,形成一個統(tǒng)一的抽取文件。
[0025]2、全息時標(biāo)量測數(shù)據(jù)的轉(zhuǎn)換:依照數(shù)據(jù)庫約束和業(yè)務(wù)邏輯,通過數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換(合并、轉(zhuǎn)換和聚合等)將數(shù)據(jù)協(xié)調(diào)為統(tǒng)一格式,以滿足動態(tài)信息數(shù)據(jù)庫的數(shù)據(jù)模型和數(shù)據(jù)質(zhì)量的需要。
[0026]由于數(shù)據(jù)來源于許多不同的系統(tǒng),因此可能出現(xiàn)數(shù)據(jù)冗余甚至沖突的情況。數(shù)據(jù)清洗的任務(wù)實際上就是過濾不符合要求的數(shù)據(jù),將過濾的結(jié)果交給業(yè)務(wù)主管部門,由業(yè)務(wù)單位確認應(yīng)該過濾掉或是修正之后再進行抽取。這樣既可以在一定程度上提高抽取到的數(shù)據(jù)的質(zhì)量,也可以明顯降低后續(xù)數(shù)據(jù)萃取步驟的負擔(dān),很大程度上提高了數(shù)據(jù)萃取的效率。不符合要求的數(shù)據(jù)主要有:數(shù)據(jù)格式錯誤,如缺失數(shù)據(jù)、數(shù)據(jù)值超出范圍或者數(shù)據(jù)格式非法等;數(shù)據(jù)不完整,主要是指應(yīng)有信息的缺失;數(shù)據(jù)不一致或者有重復(fù)數(shù)據(jù)。
[0027]由于數(shù)據(jù)源之間往往存在著不一致的問題,因此數(shù)據(jù)轉(zhuǎn)換必須做到數(shù)據(jù)名稱及格式的統(tǒng)一,同時對源數(shù)據(jù)庫中可能不存在的數(shù)據(jù)需要創(chuàng)建新的數(shù)據(jù)邏輯視圖并進行相應(yīng)的轉(zhuǎn)換,需要作如下處理:
(1)不一致數(shù)據(jù)轉(zhuǎn)換:這個過程是一個整合的過程,將不同業(yè)務(wù)系統(tǒng)的相同類型的數(shù)據(jù)統(tǒng)一,比如同一個廠家在一個系統(tǒng)的編碼是AOOl而在另一個系統(tǒng)中編碼是B001,在抽取之后需統(tǒng)一轉(zhuǎn)換成一個編碼;
(2)參照轉(zhuǎn)換:在轉(zhuǎn)換中通常要用數(shù)據(jù)源的一個或多個字段作為Key,去一個關(guān)聯(lián)數(shù)組中搜索特定值,而且應(yīng)該只能得到唯一值。這個關(guān)聯(lián)數(shù)組使用Hash算法實現(xiàn),在整個數(shù)據(jù)萃取過程開始之前,它就裝入內(nèi)存,對性能提高的幫助非常大; (3 )字符串處理:從數(shù)據(jù)源某個字符串字段中經(jīng)??梢垣@取特定信息,對字符串的操作有類型轉(zhuǎn)換、字符串截取等,同時加上異常處理;
(4)直接映射:數(shù)據(jù)源字段和目標(biāo)字段長度或精度相同,無需做任何處理;
(5)日期轉(zhuǎn)換:由于動態(tài)信息數(shù)據(jù)庫中的日期類型格式是統(tǒng)一的,采用“YYYY-MM-DDhh: mm: ss ”來表示日期。而在不同的數(shù)據(jù)源中,會采用不同的日期格式,所以對數(shù)據(jù)源字段的日期格式需要相應(yīng)的轉(zhuǎn)換;
(6)日期運算:基于日期,通常會計算日差、月差、時長等。一般數(shù)據(jù)庫提供的日期運算函數(shù)都是基于日期型的,而在動態(tài)信息數(shù)據(jù)庫中需要有一套自己的日期運算函數(shù)集
(7)空值判斷:對于數(shù)據(jù)源字段中的NULL值,在動態(tài)信息數(shù)據(jù)庫進行分析處理時會出問題,因此必須對空值進行判斷,并轉(zhuǎn)換成特定的值;
(8)聚集運算:業(yè)務(wù)系統(tǒng)一般存儲非常明細的數(shù)據(jù),而數(shù)據(jù)倉庫中數(shù)據(jù)是用來分析的,不需要非常明細的數(shù)據(jù),需將業(yè)務(wù)系統(tǒng)數(shù)據(jù)按照數(shù)據(jù)倉庫粒度進行聚合。對于動態(tài)信息數(shù)據(jù)庫事實表中的一些度量字段,通常需要通過數(shù)據(jù)源一個或多個字段運用聚集函數(shù)得來的,比如sum、avg、min、max、count,因此需要做相應(yīng)的轉(zhuǎn)換;
(9)既定取值:這條規(guī)則對于目標(biāo)字段取一個固定的或是依賴系統(tǒng)的值,而不依賴于數(shù)據(jù)源字段。
[0028]3、全息時標(biāo)量測數(shù)據(jù)的加載:將轉(zhuǎn)換完的全息時標(biāo)量測數(shù)據(jù)按照目標(biāo)數(shù)據(jù)模型定義的數(shù)據(jù)結(jié)構(gòu)加載到動態(tài)信息數(shù)據(jù)庫中。對不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采用不同的加載周期,同時采用多線程并行處理方式加載數(shù)據(jù),提高程序運行效率。
[0029]在傳統(tǒng)數(shù)據(jù)倉庫系統(tǒng)中,由源系統(tǒng)按預(yù)先約定的加載時間和數(shù)據(jù)格式,定期把需要抽取的數(shù)據(jù)放到預(yù)先約定的接口中,然后由數(shù)據(jù)萃取工具把這部分?jǐn)?shù)據(jù)加載到數(shù)據(jù)倉庫。但是,對全息時標(biāo)量測數(shù)據(jù)而言,一旦由源系統(tǒng)產(chǎn)生就必須立即加載到數(shù)據(jù)倉庫中,以便支持實時戰(zhàn)術(shù)分析的需要。因此,數(shù)據(jù)萃取工具還需要對新產(chǎn)生的實時數(shù)據(jù)變化(插入、更新等)進行實時捕獲,對數(shù)據(jù)變化進行有選擇性的定位和捕捉,根據(jù)量測數(shù)據(jù)質(zhì)量碼進行正常設(shè)備采集數(shù)據(jù)、越限數(shù)據(jù)的定位與捕捉,濾除人工置位產(chǎn)生的數(shù)據(jù)變化,滿足零延遲的要求,最小化對源系統(tǒng)的入侵程度,降低源系統(tǒng)的負載,確保源系統(tǒng)性能不下降、不當(dāng)機。
[0030]捕捉到的每個全息時標(biāo)量測數(shù)據(jù)變化都是以消息的形式進行分發(fā),同一事務(wù)中包含多個數(shù)據(jù)變化,也就包含了多條消息,這些消息在網(wǎng)絡(luò)中進行獨立傳輸。數(shù)據(jù)萃取工具采用高效的數(shù)據(jù)分發(fā)機制,使每個捕捉到的數(shù)據(jù)變化放入消息隊列后,由消息隊列完成數(shù)據(jù)的分發(fā),保證消息傳輸?shù)囊恢滦院屯暾?,同時有效地維護數(shù)據(jù)的事務(wù)依賴性和時間依賴性。
[0031]接收到的消息中是未經(jīng)處理的數(shù)據(jù),如果對這些數(shù)據(jù)進行復(fù)雜地清洗和轉(zhuǎn)換操作,將無法滿足外部查詢對數(shù)據(jù)實時性的要求;反之,所包含的臟數(shù)據(jù)會嚴(yán)重影響數(shù)據(jù)的質(zhì)量。需要在保證數(shù)據(jù)質(zhì)量的前提下實現(xiàn)實時、高效的數(shù)據(jù)加載,對數(shù)據(jù)的清洗和轉(zhuǎn)換過程所包含的內(nèi)部子環(huán)節(jié)進行合理有效的組織,從而提高數(shù)據(jù)處理的速率和并發(fā)度。同時根據(jù)用戶對數(shù)據(jù)質(zhì)量的不同需求,對即時加載的數(shù)據(jù)進行區(qū)別對待,合理分配系統(tǒng)資源,提高數(shù)據(jù)加載性能。
[0032]4、將全息時標(biāo)量測數(shù)據(jù)和存儲于關(guān)系型數(shù)據(jù)庫中的電網(wǎng)模型以及其他各類業(yè)務(wù)數(shù)據(jù)的集成,即將加載到動態(tài)信息數(shù)據(jù)庫中的數(shù)據(jù)與存儲于關(guān)系型數(shù)據(jù)庫中的電網(wǎng)模型以及其他各類業(yè)務(wù)數(shù)據(jù)進行集成,形成數(shù)據(jù)倉庫。形成的數(shù)據(jù)倉庫體系結(jié)構(gòu)如圖3所示。應(yīng)用服務(wù)器通過獲取數(shù)據(jù)倉庫中的數(shù)據(jù),為實時告警、及時分析、定制報表等上層應(yīng)用提供數(shù)據(jù)支撐。
[0033]為了最大程度地減小查詢沖突給系統(tǒng)帶來的負面影響,保證數(shù)據(jù)倉庫正常高效地運行,實時數(shù)據(jù)與歷史數(shù)據(jù)通常分開存儲。為了最小化對查詢工具的影響,不需要查詢工具了解獲取不同類型數(shù)據(jù)的方法,而是一旦提出查詢請求,就可以得到“無縫集成”后的數(shù)據(jù)。
[0034]為了提供實時數(shù)據(jù)和歷史數(shù)據(jù)的有效的組織與管理策略,使之高效地工作在一種混合的工作負載環(huán)境中,數(shù)據(jù)倉庫對實時數(shù)據(jù)和歷史數(shù)據(jù)進行統(tǒng)一建模,對外提供統(tǒng)一的訪問視圖,解決對實時數(shù)據(jù)查詢所產(chǎn)生的“查詢沖突”和“查詢不一致性”問題,保證查詢處理過程的無阻塞性和查詢結(jié)果的一致性,將實時數(shù)據(jù)和歷史數(shù)據(jù)的及時信息合并,對提交的查詢操作提供“透明”的一體化服務(wù),同時,加強對負載的管理,使得集成后的數(shù)據(jù)倉庫高效的運行。
[0035]數(shù)據(jù)倉庫能夠自動分析查詢語句,從而確定數(shù)據(jù)需求,并從不同部分提取所需的數(shù)據(jù),合并后供查詢工具使用。同時,也能夠自動分析所需數(shù)據(jù)中實時部分和歷史部分的比例,從而更好地選擇數(shù)據(jù)的遷移策略,減少數(shù)據(jù)傳輸,改善服務(wù)性能。
[0036]雖然本發(fā)明已以較佳實施例公開如上,但實施例并不是用來限定本發(fā)明的。在不脫離本發(fā)明之精神和范圍內(nèi),所做的任何等效變化或潤飾,同樣屬于本發(fā)明之保護范圍。因此本發(fā)明的保護范圍應(yīng)當(dāng)以本申請的權(quán)利要求所界定的內(nèi)容為標(biāo)準(zhǔn)。
【權(quán)利要求】
1.一種面向電網(wǎng)運行的全息時標(biāo)量測數(shù)據(jù)萃取轉(zhuǎn)換方法,其特征在于,包括如下步驟: 1)全息時標(biāo)量測數(shù)據(jù)的抽取:從多數(shù)據(jù)源中讀取源數(shù)據(jù)中的元數(shù)據(jù)、接入數(shù)據(jù)和抽取數(shù)據(jù); 2)全息時標(biāo)量測數(shù)據(jù)的轉(zhuǎn)換:依照數(shù)據(jù)庫約束和業(yè)務(wù)邏輯,通過數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換將步驟I)中抽取的數(shù)據(jù)協(xié)調(diào)為統(tǒng)一格式,以滿足動態(tài)信息數(shù)據(jù)庫的數(shù)據(jù)模型和數(shù)據(jù)質(zhì)量的需要; 3)全息時標(biāo)量測數(shù)據(jù)的加載:將轉(zhuǎn)換完的全息時標(biāo)量測數(shù)據(jù)按照目標(biāo)數(shù)據(jù)模型定義的數(shù)據(jù)結(jié)構(gòu)加載到動態(tài)信息數(shù)據(jù)庫中,對不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采用不同的加載周期,同時采用多線程并行處理方式加載數(shù)據(jù)以提高程序運行效率; 4)將加載到動態(tài)信息數(shù)據(jù)庫中的全息時標(biāo)量測數(shù)據(jù)和存儲于關(guān)系型數(shù)據(jù)庫中的電網(wǎng)模型以及其他各類業(yè)務(wù)數(shù)據(jù)的集成,形成數(shù)據(jù)倉庫,應(yīng)用服務(wù)器通過獲取數(shù)據(jù)倉庫中的數(shù)據(jù)為上層應(yīng)用提供數(shù)據(jù)支撐。
2.根據(jù)權(quán)利要求1所述的面向電網(wǎng)運行的全息時標(biāo)量測數(shù)據(jù)萃取轉(zhuǎn)換方法,其特征在于,所述步驟I)具體包括以下過程: 1-1)讀取每一個數(shù)據(jù)源資源層中的全息時標(biāo)量測數(shù)據(jù)元模型; 1-2)經(jīng)過遠端抽取元模型對數(shù)據(jù)進行抽取處理,所述遠端抽取元模型由抽取核心、日志模塊和抽取配置元數(shù)據(jù)構(gòu)成,抽取核心讀取抽取配置元數(shù)據(jù)的參數(shù)設(shè)置,根據(jù)相應(yīng)設(shè)置從遠端數(shù)據(jù)源表中抽取目標(biāo)數(shù)據(jù),抽取方式分為全量抽取和增量抽取兩種,抽取配置元數(shù)據(jù)由需要抽取的表名、字段、類型、數(shù)據(jù)庫連接信息、抽取數(shù)據(jù)時間信息組成,日志模型用來紀(jì)錄抽取處理的日志; 所述全量抽取是指根據(jù)抽取的字段和抽取的規(guī)則將數(shù)據(jù)源端的指定數(shù)據(jù)字段的全部數(shù)據(jù)都抽取出來;所述增量抽取是指全量抽取完成后在后續(xù)的抽取過程只抽取自上次抽取源表中新增或被修改的數(shù)據(jù); 1-3)通過傳輸元模型將抽取的數(shù)據(jù)從遠端傳輸?shù)街行亩耍? 1-4)將傳輸?shù)街行亩说臄?shù)據(jù)緩存到異構(gòu)臨時存儲區(qū)。
3.根據(jù)權(quán)利要求2所述的面向電網(wǎng)運行的全息時標(biāo)量測數(shù)據(jù)萃取轉(zhuǎn)換方法,其特征在于,所述增量抽取基于調(diào)度業(yè)務(wù)系統(tǒng)的時間戳實現(xiàn),通過比較指定抽取時間與抽取源表的時間戳字段的值來決定抽取哪些數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的面向電網(wǎng)運行的全息時標(biāo)量測數(shù)據(jù)萃取轉(zhuǎn)換方法,其特征在于,所述步驟2)中的數(shù)據(jù)轉(zhuǎn)換包括不一致數(shù)據(jù)轉(zhuǎn)換、參照轉(zhuǎn)換、字符串處理、直接映射、日期轉(zhuǎn)換、日期運算、空值判斷、聚集運算和/或既定取值。
5.根據(jù)權(quán)利要求1所述的面向電網(wǎng)運行的全息時標(biāo)量測數(shù)據(jù)萃取轉(zhuǎn)換方法,其特征在于,所述步驟3)中,在全息時標(biāo)量測數(shù)據(jù)的加載時對新產(chǎn)生的實時數(shù)據(jù)變化進行實時捕獲,并根據(jù)量測數(shù)據(jù)質(zhì)量碼進行正常設(shè)備采集數(shù)據(jù)、越限數(shù)據(jù)的定位與捕捉,濾除人工置位產(chǎn)生的數(shù)據(jù)變化。
6.根據(jù)權(quán)利要求1所述的面向電網(wǎng)運行的全息時標(biāo)量測數(shù)據(jù)萃取轉(zhuǎn)換方法,其特征在于,所述數(shù)據(jù)倉庫中的實時數(shù)據(jù)與歷史數(shù)據(jù)分開存儲,并對實時數(shù)據(jù)和歷史數(shù)據(jù)進行統(tǒng)一建模,對外提供統(tǒng)一的訪問視圖。
【文檔編號】G06F17/30GK104318481SQ201410181171
【公開日】2015年1月28日 申請日期:2014年5月4日 優(yōu)先權(quán)日:2014年5月4日
【發(fā)明者】楊璃, 陳亞, 湯朝波, 李蓓貝, 胡翔 申請人:國家電網(wǎng)公司, 國網(wǎng)湖北省電力公司, 江蘇瑞中數(shù)據(jù)股份有限公司