本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,涉及一種電力多維全景數(shù)據(jù)的預(yù)處理方法。
背景技術(shù):
近年來,智能電網(wǎng)的發(fā)展與研究已成為當(dāng)今時代的一大熱點(diǎn),而智能電表作為智能電網(wǎng)的重要組成部分,采集了大量詳細(xì)的多時間尺度、多類型的基礎(chǔ)輸入數(shù)據(jù),與傳統(tǒng)的潮流數(shù)據(jù)等基礎(chǔ)數(shù)據(jù)相比,數(shù)據(jù)量從一個時間斷面數(shù)據(jù)變成一段時間的整體數(shù)據(jù),甚至出現(xiàn)了更多非結(jié)構(gòu)化數(shù)據(jù),現(xiàn)有的結(jié)構(gòu)化數(shù)據(jù)已無法滿足其實(shí)際分析需求。
隨著智能電網(wǎng)建設(shè)的推進(jìn),電力多維全景數(shù)據(jù)根據(jù)其所屬用戶性質(zhì),主要分為電網(wǎng)企業(yè)、電力用戶、政府及第三方機(jī)構(gòu)三個方面所分別對應(yīng)的電網(wǎng)數(shù)據(jù)、用戶數(shù)據(jù)和社會數(shù)據(jù)。這些數(shù)據(jù)一般以信息集成化平臺的方式呈現(xiàn);其中,電網(wǎng)企業(yè)數(shù)據(jù)主要包括配電自動化、GIS、SCADA、用電信息采集系統(tǒng)、客戶營銷服務(wù)系統(tǒng)、用戶用能管理系等;電力用戶數(shù)據(jù)主要包括分布式電源EMS、微電網(wǎng)MG-EMS、家庭HEMS、樓宇BEMS、企業(yè)EMS等用戶數(shù)據(jù);政府及第三方機(jī)構(gòu)數(shù)據(jù)主要包括氣象監(jiān)測系統(tǒng)、能耗監(jiān)管系統(tǒng)、智慧城市監(jiān)控系統(tǒng)、能源公共服務(wù)平臺等社會數(shù)據(jù)。這些數(shù)據(jù)在數(shù)據(jù)異構(gòu)方面呈現(xiàn)出設(shè)計(jì)風(fēng)格異構(gòu)、存儲方式異構(gòu)以及結(jié)構(gòu)化與非結(jié)構(gòu)化共存等特點(diǎn),同時它又具有海量、數(shù)據(jù)更新速度極快、分布地域廣泛等特性。
由于數(shù)據(jù)來源多、量大、更新速度快以及價(jià)值密度低等特點(diǎn),加大了數(shù)據(jù)價(jià)值挖掘的難度,一方面使我們很難快速發(fā)現(xiàn)數(shù)據(jù)有用價(jià)值信息和規(guī)律性等特點(diǎn),另一方面存在的若干數(shù)據(jù)冗余也會影響我們的判斷。因此,提出一種電力多維全景數(shù)據(jù)的與處理方法,對數(shù)據(jù)價(jià)值挖掘具有十分重要的意義。
技術(shù)實(shí)現(xiàn)要素:
針對以上問題,本發(fā)明提出了一種電力多維全景數(shù)據(jù)的預(yù)處理方法,以提高數(shù)據(jù)質(zhì)量,減少數(shù)據(jù)價(jià)值挖掘難度。
一種電力多維全景數(shù)據(jù)的預(yù)處理系統(tǒng),包括依次相連的:
數(shù)據(jù)清洗模塊:用于對電力多維全景數(shù)據(jù)進(jìn)行修正、降噪和填補(bǔ)缺失值,包括屬性識別、壞數(shù)據(jù)辨析、數(shù)據(jù)分類、數(shù)據(jù)填補(bǔ)和平滑處理,此模塊用來提高數(shù)據(jù)質(zhì)量,有助于提高數(shù)據(jù)挖掘過程的準(zhǔn)確率和效率;該數(shù)據(jù)清洗模塊利用時間序列模型識別各狀態(tài)量的時間序列,從而得到數(shù)據(jù)的屬性值,檢測出數(shù)據(jù)的異常模式,判斷異常數(shù)據(jù)是能提取設(shè)備故障信息的“有用數(shù)據(jù)”還是可被清洗的“無用數(shù)據(jù)”,然后將數(shù)據(jù)進(jìn)行分類,將分類后的數(shù)據(jù)分別用時間序列干預(yù)模型進(jìn)行擬合以提取有效故障信息。在數(shù)據(jù)清洗時,根據(jù)序列中異常值的種類選擇不同的修正公式,從而達(dá)到修正噪聲點(diǎn)數(shù)據(jù)和填補(bǔ)缺失值的目的
數(shù)據(jù)存儲模塊:用于對經(jīng)過數(shù)據(jù)清洗后的電力多維全景數(shù)據(jù)進(jìn)行存儲與管理,以更好的方式優(yōu)化存儲空間,支持海量同構(gòu)異構(gòu)的電力數(shù)據(jù);該數(shù)據(jù)存儲模塊充分考慮數(shù)據(jù)的相關(guān)性和時空屬性,以關(guān)系型數(shù)據(jù)庫和“key-value”的非關(guān)系型數(shù)據(jù)庫來支持海量數(shù)據(jù)的存儲與處理,對數(shù)據(jù)進(jìn)行存儲優(yōu)化和基于MapReduce的并行分析處理,并使用MapReduce框架設(shè)計(jì)實(shí)現(xiàn)了數(shù)據(jù)的并行分析算法;
數(shù)據(jù)集成模塊:用于在數(shù)據(jù)存儲后,針對大量的、分布式的數(shù)據(jù)源,將這些數(shù)據(jù)按一種統(tǒng)一的結(jié)構(gòu)與方式進(jìn)行處理,將分散的數(shù)據(jù)集中起來形成統(tǒng)一的數(shù)據(jù)集;該數(shù)據(jù)集成模塊考慮到數(shù)據(jù)來源于多個數(shù)據(jù)庫、數(shù)據(jù)倉庫或一般文件,將它們按照數(shù)據(jù)類型分別存入結(jié)構(gòu)化數(shù)據(jù)庫和非結(jié)構(gòu)化數(shù)據(jù)庫之后,為了便于數(shù)據(jù)的索引與提取,設(shè)計(jì)基于數(shù)據(jù)關(guān)聯(lián)矩陣的數(shù)據(jù)聚集方法,建立兩種數(shù)據(jù)庫之間的關(guān)聯(lián)關(guān)系,最后將兩種類型數(shù)據(jù)庫并行連接,采用分層結(jié)構(gòu)構(gòu)建一個大的數(shù)據(jù)平臺。
在上述的一種電力多維全景數(shù)據(jù)的預(yù)處理系統(tǒng),所述數(shù)據(jù)清洗模塊對電力多維全景數(shù)據(jù)進(jìn)行修正、降噪和填補(bǔ)缺失值的具體方法包括:
步驟1,屬性識別:輸入具有n個屬性的數(shù)據(jù)集樣本S,其中屬性集為X,|X|=n。設(shè)我們對數(shù)據(jù)的評價(jià)方法為J,候選屬性生成策略為GS。
定義L為屬性集X的起點(diǎn),Solution為根據(jù)評價(jià)方法J得出的L中的最佳屬性。對屬性集進(jìn)行循環(huán)操作,當(dāng)屬性集中X′經(jīng)過評價(jià)方法J的評價(jià)值J(X′)大于之前生成的最佳屬性的評價(jià)值J(Soltion)時,即J(X′)≥J(Soltion),則X′為最佳屬性。
步驟2,壞數(shù)據(jù)辨析:輸入含有n個樣本的屬性數(shù)據(jù)集Solution,{x1,x2,…,xn}。對于數(shù)據(jù)集中的每一個數(shù)據(jù)xi,如果(σ為可接受的誤差范圍),則認(rèn)為xi為壞數(shù)據(jù),并將它添加到壞數(shù)據(jù)集BS。
步驟3,數(shù)據(jù)分類:首先選擇k個初始中心點(diǎn),然后把每個數(shù)據(jù)對象分到距離它最近的類內(nèi),從而形成k個簇,最后再重新計(jì)算每個簇的中心;重復(fù)上述過程直到每個簇中心不發(fā)生變化。
步驟4,數(shù)據(jù)填補(bǔ):輸入包含n個對象且被分為k個簇的數(shù)據(jù)集D,處理步驟包括:
步驟4.1、把數(shù)據(jù)集D分為兩個數(shù)據(jù)子集DC和Di:DC中的記錄全部為完整記錄,沒有任何屬性含有缺失值;Di中的記錄為缺損記錄,即屬性中含有一個及以上的缺失值。
步驟4.2、對數(shù)據(jù)子集DC使用k-means算法。
步驟4.3、從數(shù)據(jù)子集Di中順序去除記錄,計(jì)算該記錄與DC的k個類中任一類的相似度,選出最大的相似度,把該記錄標(biāo)記為Ci(i=1,2…,k)類;直到數(shù)據(jù)子集為空。
步驟4.4、根據(jù)Di中記錄被分配的類,對記錄的缺失值進(jìn)行如下處理:
其中,Ai為類別中的數(shù)據(jù)。
將按步驟4.1至步驟4.4處理完后的Di即為數(shù)據(jù)填補(bǔ)后的數(shù)據(jù)集。
步驟5,平滑去噪處理:將填補(bǔ)好缺失數(shù)據(jù)的數(shù)據(jù)集進(jìn)行小波變換,選取合適的小波基函數(shù)和分解層數(shù),分離噪聲數(shù)據(jù)和信息數(shù)據(jù),刪掉其中的噪聲數(shù)據(jù)并進(jìn)行信號重構(gòu),保持?jǐn)?shù)據(jù)的完整和特性。
在上述的一種電力多維全景數(shù)據(jù)的預(yù)處理系統(tǒng),所述數(shù)據(jù)存儲模塊對經(jīng)過數(shù)據(jù)清洗后的電力多維全景數(shù)據(jù)進(jìn)行存儲與管理的具體步驟是:
對于結(jié)構(gòu)化數(shù)據(jù):為每類數(shù)據(jù)附上標(biāo)簽,標(biāo)簽與數(shù)據(jù)之間的處于一對多的聯(lián)系,利用已有的MySQL數(shù)據(jù)庫,將數(shù)據(jù)與標(biāo)簽存儲進(jìn)去。
對于非結(jié)構(gòu)化數(shù)據(jù):使用HDFS作為文件存儲系統(tǒng),利用數(shù)據(jù)之間的映射關(guān)系(key-value)模式,建立數(shù)據(jù)矩陣進(jìn)行存儲。數(shù)據(jù)矩陣的索引由行鍵(Row Key)、列族(Column family)、列鍵(Column Qualifier)以及時間戳(Timestamp)構(gòu)成,可以表示為(Row,F(xiàn)amily:Column,Timestamp)→Value。
在上述的一種電力多維全景數(shù)據(jù)的預(yù)處理系統(tǒng),所述數(shù)據(jù)集成模塊針對大量的、分布式的數(shù)據(jù)源按一種統(tǒng)一的結(jié)構(gòu)與方式進(jìn)行處理,將分散的數(shù)據(jù)集中起來形成統(tǒng)一的數(shù)據(jù)集的具體方法是:用權(quán)利要求3種所述兩種存儲方法將數(shù)據(jù)進(jìn)行存儲(關(guān)系型數(shù)據(jù)存入關(guān)系型數(shù)據(jù)庫,非關(guān)系型數(shù)據(jù)存入非關(guān)系型數(shù)據(jù)庫),將兩個數(shù)據(jù)庫上傳至預(yù)處理系統(tǒng)。在Hadoop運(yùn)行環(huán)境下利用MapReduce的技術(shù),在映射(Map)階段,所有數(shù)據(jù)在多個節(jié)點(diǎn)上進(jìn)行分組排序,之后由約減(Reduce)階段的TaskTracker節(jié)點(diǎn)通過遠(yuǎn)程訪問的方式進(jìn)行數(shù)據(jù)拉取。
本發(fā)明能有效處理來自電力系統(tǒng)的海量交易數(shù)據(jù)、海量交互數(shù)據(jù)和海量處理數(shù)據(jù),快速判斷數(shù)據(jù)類型并提取數(shù)據(jù)價(jià)值。
附圖說明
附圖1電力多維全景數(shù)據(jù)的預(yù)處理方法流程圖。
附圖2數(shù)據(jù)清洗模塊流程圖。
附圖3數(shù)據(jù)存儲模塊流程圖。
附圖4數(shù)據(jù)集成模塊流程圖。
具體實(shí)施方式
為了進(jìn)一步闡述本發(fā)明的過程和有益效果,結(jié)合附圖進(jìn)行說明。
為實(shí)現(xiàn)上述目的,本發(fā)明提出的技術(shù)方案是:構(gòu)建一種包括數(shù)據(jù)清洗、數(shù)據(jù)存儲和數(shù)據(jù)集成三大模塊的數(shù)據(jù)預(yù)處理系統(tǒng),由以下功能構(gòu)成:
(1)數(shù)據(jù)清洗模塊用于對電力多維全景數(shù)據(jù)進(jìn)行修正、降噪和填補(bǔ)缺失值,包括屬性識別、壞數(shù)據(jù)辨析和數(shù)據(jù)分類,此模塊用來提高數(shù)據(jù)質(zhì)量,有助于提高數(shù)據(jù)挖掘過程的準(zhǔn)確率和效率。
(2)數(shù)據(jù)存儲模塊用于對經(jīng)過數(shù)據(jù)清洗后的電力多維全景數(shù)據(jù)進(jìn)行存儲與管理,以更好的方式優(yōu)化存儲空間,支持海量同構(gòu)異構(gòu)的電力數(shù)據(jù)。
(3)數(shù)據(jù)集成模塊用于在數(shù)據(jù)存儲后,針對大量的、分布式的數(shù)據(jù)源,將這些數(shù)據(jù)按一種統(tǒng)一的結(jié)構(gòu)與方式進(jìn)行處理,將分散的數(shù)據(jù)集中起來形成統(tǒng)一的數(shù)據(jù)集。
數(shù)據(jù)清洗模塊功能如下:
該模塊利用時間序列模型識別各狀態(tài)量的時間序列,檢測出數(shù)據(jù)的異常模式,判斷異常數(shù)據(jù)是能提取設(shè)備故障信息的“有用數(shù)據(jù)”還是可被清洗的“無用數(shù)據(jù)”,用時間序列干預(yù)模型進(jìn)行擬合以提取有效故障信息。在數(shù)據(jù)清洗時,根據(jù)序列中異常值的種類選擇不同的修正公式,從而達(dá)到修正噪聲點(diǎn)數(shù)據(jù)和填補(bǔ)缺失值的目的。
數(shù)據(jù)存儲模塊功能如下:
該模塊充分考慮數(shù)據(jù)的相關(guān)性和時空屬性,以關(guān)系型數(shù)據(jù)庫和“key-value”的非關(guān)系型數(shù)據(jù)庫來支持海量數(shù)據(jù)的存儲與處理,對數(shù)據(jù)進(jìn)行存儲優(yōu)化和基于MapReduce的并行分析處理,并使用MapReduce框架設(shè)計(jì)實(shí)現(xiàn)了數(shù)據(jù)的并行分析算法。
數(shù)據(jù)集成模塊功能如下:
考慮到數(shù)據(jù)來源于多個數(shù)據(jù)庫、數(shù)據(jù)倉庫或一般文件等等,將它們按照數(shù)據(jù)類型分別存入結(jié)構(gòu)化數(shù)據(jù)庫和非結(jié)構(gòu)化數(shù)據(jù)庫之后,為了便于數(shù)據(jù)的索引與提取,設(shè)計(jì)基于數(shù)據(jù)關(guān)聯(lián)矩陣的數(shù)據(jù)聚集方法,建立兩種數(shù)據(jù)庫之間的關(guān)聯(lián)關(guān)系,最后將兩種類型數(shù)據(jù)庫并行連接,采用分層結(jié)構(gòu)構(gòu)建一個大的數(shù)據(jù)平臺。
如圖2,海量的電力數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),將數(shù)據(jù)導(dǎo)入數(shù)據(jù)清洗模塊之后,首先利用數(shù)據(jù)來源以及數(shù)據(jù)時間標(biāo)簽進(jìn)行屬性識別,然后辨識并清除類似于孤立點(diǎn)地壞數(shù)據(jù)。在初步處理數(shù)據(jù)之后,將數(shù)據(jù)分為常用的結(jié)構(gòu)化數(shù)據(jù)和圖片、文本等非結(jié)構(gòu)化數(shù)據(jù),并分別利用不同的算法,對數(shù)據(jù)進(jìn)行填補(bǔ)去噪。
如圖3,進(jìn)行數(shù)據(jù)清洗后的數(shù)據(jù)已經(jīng)分為結(jié)構(gòu)化和非結(jié)構(gòu)化,將它們分別存入關(guān)系型與非關(guān)系型數(shù)據(jù)庫,并用MapReduce框架并行處理分析。
如圖4,將已經(jīng)構(gòu)建好的兩種數(shù)據(jù)庫進(jìn)行數(shù)據(jù)關(guān)聯(lián)矩陣聚類分析,建立兩種數(shù)據(jù)庫的關(guān)聯(lián)關(guān)系,最后將其放入一個數(shù)據(jù)倉庫搭建一個大數(shù)據(jù)平臺。
本文中所描述的具體實(shí)施例僅僅是對本發(fā)明精神作舉例說明。本發(fā)明所屬技術(shù)領(lǐng)域的技術(shù)人員可以對所描述的具體實(shí)施例做各種各樣的修改或補(bǔ)充或采用類似的方式替代,但并不會偏離本發(fā)明的精神或者超越所附權(quán)利要求書所定義的范圍。