一種電力多維全景數(shù)據(jù)的預(yù)處理系統(tǒng)的制作方法

文檔序號：12063883閱讀：418來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種電力多維全景數(shù)據(jù)的預(yù)處理系統(tǒng)的制作方法與工藝

本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域，涉及一種電力多維全景數(shù)據(jù)的預(yù)處理方法。

背景技術(shù)：

近年來，智能電網(wǎng)的發(fā)展與研究已成為當(dāng)今時代的一大熱點(diǎn)，而智能電表作為智能電網(wǎng)的重要組成部分，采集了大量詳細(xì)的多時間尺度、多類型的基礎(chǔ)輸入數(shù)據(jù)，與傳統(tǒng)的潮流數(shù)據(jù)等基礎(chǔ)數(shù)據(jù)相比，數(shù)據(jù)量從一個時間斷面數(shù)據(jù)變成一段時間的整體數(shù)據(jù)，甚至出現(xiàn)了更多非結(jié)構(gòu)化數(shù)據(jù)，現(xiàn)有的結(jié)構(gòu)化數(shù)據(jù)已無法滿足其實(shí)際分析需求。

隨著智能電網(wǎng)建設(shè)的推進(jìn)，電力多維全景數(shù)據(jù)根據(jù)其所屬用戶性質(zhì)，主要分為電網(wǎng)企業(yè)、電力用戶、政府及第三方機(jī)構(gòu)三個方面所分別對應(yīng)的電網(wǎng)數(shù)據(jù)、用戶數(shù)據(jù)和社會數(shù)據(jù)。這些數(shù)據(jù)一般以信息集成化平臺的方式呈現(xiàn)；其中，電網(wǎng)企業(yè)數(shù)據(jù)主要包括配電自動化、GIS、SCADA、用電信息采集系統(tǒng)、客戶營銷服務(wù)系統(tǒng)、用戶用能管理系等；電力用戶數(shù)據(jù)主要包括分布式電源EMS、微電網(wǎng)MG-EMS、家庭HEMS、樓宇BEMS、企業(yè)EMS等用戶數(shù)據(jù)；政府及第三方機(jī)構(gòu)數(shù)據(jù)主要包括氣象監(jiān)測系統(tǒng)、能耗監(jiān)管系統(tǒng)、智慧城市監(jiān)控系統(tǒng)、能源公共服務(wù)平臺等社會數(shù)據(jù)。這些數(shù)據(jù)在數(shù)據(jù)異構(gòu)方面呈現(xiàn)出設(shè)計(jì)風(fēng)格異構(gòu)、存儲方式異構(gòu)以及結(jié)構(gòu)化與非結(jié)構(gòu)化共存等特點(diǎn)，同時它又具有海量、數(shù)據(jù)更新速度極快、分布地域廣泛等特性。

由于數(shù)據(jù)來源多、量大、更新速度快以及價(jià)值密度低等特點(diǎn)，加大了數(shù)據(jù)價(jià)值挖掘的難度，一方面使我們很難快速發(fā)現(xiàn)數(shù)據(jù)有用價(jià)值信息和規(guī)律性等特點(diǎn)，另一方面存在的若干數(shù)據(jù)冗余也會影響我們的判斷。因此，提出一種電力多維全景數(shù)據(jù)的與處理方法，對數(shù)據(jù)價(jià)值挖掘具有十分重要的意義。

技術(shù)實(shí)現(xiàn)要素：

針對以上問題，本發(fā)明提出了一種電力多維全景數(shù)據(jù)的預(yù)處理方法，以提高數(shù)據(jù)質(zhì)量，減少數(shù)據(jù)價(jià)值挖掘難度。

一種電力多維全景數(shù)據(jù)的預(yù)處理系統(tǒng)，包括依次相連的：

數(shù)據(jù)清洗模塊：用于對電力多維全景數(shù)據(jù)進(jìn)行修正、降噪和填補(bǔ)缺失值，包括屬性識別、壞數(shù)據(jù)辨析、數(shù)據(jù)分類、數(shù)據(jù)填補(bǔ)和平滑處理，此模塊用來提高數(shù)據(jù)質(zhì)量，有助于提高數(shù)據(jù)挖掘過程的準(zhǔn)確率和效率；該數(shù)據(jù)清洗模塊利用時間序列模型識別各狀態(tài)量的時間序列，從而得到數(shù)據(jù)的屬性值，檢測出數(shù)據(jù)的異常模式，判斷異常數(shù)據(jù)是能提取設(shè)備故障信息的“有用數(shù)據(jù)”還是可被清洗的“無用數(shù)據(jù)”，然后將數(shù)據(jù)進(jìn)行分類，將分類后的數(shù)據(jù)分別用時間序列干預(yù)模型進(jìn)行擬合以提取有效故障信息。在數(shù)據(jù)清洗時，根據(jù)序列中異常值的種類選擇不同的修正公式，從而達(dá)到修正噪聲點(diǎn)數(shù)據(jù)和填補(bǔ)缺失值的目的

數(shù)據(jù)存儲模塊：用于對經(jīng)過數(shù)據(jù)清洗后的電力多維全景數(shù)據(jù)進(jìn)行存儲與管理，以更好的方式優(yōu)化存儲空間，支持海量同構(gòu)異構(gòu)的電力數(shù)據(jù)；該數(shù)據(jù)存儲模塊充分考慮數(shù)據(jù)的相關(guān)性和時空屬性，以關(guān)系型數(shù)據(jù)庫和“key-value”的非關(guān)系型數(shù)據(jù)庫來支持海量數(shù)據(jù)的存儲與處理，對數(shù)據(jù)進(jìn)行存儲優(yōu)化和基于MapReduce的并行分析處理，并使用MapReduce框架設(shè)計(jì)實(shí)現(xiàn)了數(shù)據(jù)的并行分析算法；

數(shù)據(jù)集成模塊：用于在數(shù)據(jù)存儲后，針對大量的、分布式的數(shù)據(jù)源，將這些數(shù)據(jù)按一種統(tǒng)一的結(jié)構(gòu)與方式進(jìn)行處理，將分散的數(shù)據(jù)集中起來形成統(tǒng)一的數(shù)據(jù)集；該數(shù)據(jù)集成模塊考慮到數(shù)據(jù)來源于多個數(shù)據(jù)庫、數(shù)據(jù)倉庫或一般文件，將它們按照數(shù)據(jù)類型分別存入結(jié)構(gòu)化數(shù)據(jù)庫和非結(jié)構(gòu)化數(shù)據(jù)庫之后，為了便于數(shù)據(jù)的索引與提取，設(shè)計(jì)基于數(shù)據(jù)關(guān)聯(lián)矩陣的數(shù)據(jù)聚集方法，建立兩種數(shù)據(jù)庫之間的關(guān)聯(lián)關(guān)系，最后將兩種類型數(shù)據(jù)庫并行連接，采用分層結(jié)構(gòu)構(gòu)建一個大的數(shù)據(jù)平臺。

在上述的一種電力多維全景數(shù)據(jù)的預(yù)處理系統(tǒng)，所述數(shù)據(jù)清洗模塊對電力多維全景數(shù)據(jù)進(jìn)行修正、降噪和填補(bǔ)缺失值的具體方法包括：

步驟1，屬性識別：輸入具有n個屬性的數(shù)據(jù)集樣本S，其中屬性集為X，|X|＝n。設(shè)我們對數(shù)據(jù)的評價(jià)方法為J，候選屬性生成策略為GS。

定義L為屬性集X的起點(diǎn)，Solution為根據(jù)評價(jià)方法J得出的L中的最佳屬性。對屬性集進(jìn)行循環(huán)操作，當(dāng)屬性集中X′經(jīng)過評價(jià)方法J的評價(jià)值J(X′)大于之前生成的最佳屬性的評價(jià)值J(Soltion)時，即J(X′)≥J(Soltion)，則X′為最佳屬性。

步驟2，壞數(shù)據(jù)辨析：輸入含有n個樣本的屬性數(shù)據(jù)集Solution，{x₁,x₂,…,x_n}。對于數(shù)據(jù)集中的每一個數(shù)據(jù)x_i，如果(σ為可接受的誤差范圍)，則認(rèn)為x_i為壞數(shù)據(jù)，并將它添加到壞數(shù)據(jù)集BS。

步驟3，數(shù)據(jù)分類：首先選擇k個初始中心點(diǎn)，然后把每個數(shù)據(jù)對象分到距離它最近的類內(nèi)，從而形成k個簇，最后再重新計(jì)算每個簇的中心；重復(fù)上述過程直到每個簇中心不發(fā)生變化。

步驟4，數(shù)據(jù)填補(bǔ)：輸入包含n個對象且被分為k個簇的數(shù)據(jù)集D，處理步驟包括：

步驟4.1、把數(shù)據(jù)集D分為兩個數(shù)據(jù)子集D_C和D_i：D_C中的記錄全部為完整記錄，沒有任何屬性含有缺失值；D_i中的記錄為缺損記錄，即屬性中含有一個及以上的缺失值。

步驟4.2、對數(shù)據(jù)子集D_C使用k-means算法。

步驟4.3、從數(shù)據(jù)子集D_i中順序去除記錄，計(jì)算該記錄與D_C的k個類中任一類的相似度，選出最大的相似度，把該記錄標(biāo)記為C_i(i＝1,2…，k)類；直到數(shù)據(jù)子集為空。

步驟4.4、根據(jù)D_i中記錄被分配的類，對記錄的缺失值進(jìn)行如下處理：

其中，A_i為類別中的數(shù)據(jù)。

將按步驟4.1至步驟4.4處理完后的D_i即為數(shù)據(jù)填補(bǔ)后的數(shù)據(jù)集。

步驟5，平滑去噪處理：將填補(bǔ)好缺失數(shù)據(jù)的數(shù)據(jù)集進(jìn)行小波變換，選取合適的小波基函數(shù)和分解層數(shù)，分離噪聲數(shù)據(jù)和信息數(shù)據(jù)，刪掉其中的噪聲數(shù)據(jù)并進(jìn)行信號重構(gòu)，保持?jǐn)?shù)據(jù)的完整和特性。

在上述的一種電力多維全景數(shù)據(jù)的預(yù)處理系統(tǒng)，所述數(shù)據(jù)存儲模塊對經(jīng)過數(shù)據(jù)清洗后的電力多維全景數(shù)據(jù)進(jìn)行存儲與管理的具體步驟是：

對于結(jié)構(gòu)化數(shù)據(jù)：為每類數(shù)據(jù)附上標(biāo)簽，標(biāo)簽與數(shù)據(jù)之間的處于一對多的聯(lián)系，利用已有的MySQL數(shù)據(jù)庫，將數(shù)據(jù)與標(biāo)簽存儲進(jìn)去。

對于非結(jié)構(gòu)化數(shù)據(jù)：使用HDFS作為文件存儲系統(tǒng)，利用數(shù)據(jù)之間的映射關(guān)系(key-value)模式，建立數(shù)據(jù)矩陣進(jìn)行存儲。數(shù)據(jù)矩陣的索引由行鍵(Row Key)、列族(Column family)、列鍵(Column Qualifier)以及時間戳(Timestamp)構(gòu)成，可以表示為(Row，F(xiàn)amily：Column，Timestamp)→Value。

在上述的一種電力多維全景數(shù)據(jù)的預(yù)處理系統(tǒng)，所述數(shù)據(jù)集成模塊針對大量的、分布式的數(shù)據(jù)源按一種統(tǒng)一的結(jié)構(gòu)與方式進(jìn)行處理，將分散的數(shù)據(jù)集中起來形成統(tǒng)一的數(shù)據(jù)集的具體方法是：用權(quán)利要求3種所述兩種存儲方法將數(shù)據(jù)進(jìn)行存儲(關(guān)系型數(shù)據(jù)存入關(guān)系型數(shù)據(jù)庫，非關(guān)系型數(shù)據(jù)存入非關(guān)系型數(shù)據(jù)庫)，將兩個數(shù)據(jù)庫上傳至預(yù)處理系統(tǒng)。在Hadoop運(yùn)行環(huán)境下利用MapReduce的技術(shù)，在映射(Map)階段，所有數(shù)據(jù)在多個節(jié)點(diǎn)上進(jìn)行分組排序，之后由約減(Reduce)階段的TaskTracker節(jié)點(diǎn)通過遠(yuǎn)程訪問的方式進(jìn)行數(shù)據(jù)拉取。

本發(fā)明能有效處理來自電力系統(tǒng)的海量交易數(shù)據(jù)、海量交互數(shù)據(jù)和海量處理數(shù)據(jù)，快速判斷數(shù)據(jù)類型并提取數(shù)據(jù)價(jià)值。

附圖說明

附圖1電力多維全景數(shù)據(jù)的預(yù)處理方法流程圖。

附圖2數(shù)據(jù)清洗模塊流程圖。

附圖3數(shù)據(jù)存儲模塊流程圖。

附圖4數(shù)據(jù)集成模塊流程圖。

具體實(shí)施方式

為了進(jìn)一步闡述本發(fā)明的過程和有益效果，結(jié)合附圖進(jìn)行說明。

為實(shí)現(xiàn)上述目的，本發(fā)明提出的技術(shù)方案是：構(gòu)建一種包括數(shù)據(jù)清洗、數(shù)據(jù)存儲和數(shù)據(jù)集成三大模塊的數(shù)據(jù)預(yù)處理系統(tǒng)，由以下功能構(gòu)成：

(1)數(shù)據(jù)清洗模塊用于對電力多維全景數(shù)據(jù)進(jìn)行修正、降噪和填補(bǔ)缺失值，包括屬性識別、壞數(shù)據(jù)辨析和數(shù)據(jù)分類，此模塊用來提高數(shù)據(jù)質(zhì)量，有助于提高數(shù)據(jù)挖掘過程的準(zhǔn)確率和效率。

(2)數(shù)據(jù)存儲模塊用于對經(jīng)過數(shù)據(jù)清洗后的電力多維全景數(shù)據(jù)進(jìn)行存儲與管理，以更好的方式優(yōu)化存儲空間，支持海量同構(gòu)異構(gòu)的電力數(shù)據(jù)。

(3)數(shù)據(jù)集成模塊用于在數(shù)據(jù)存儲后，針對大量的、分布式的數(shù)據(jù)源，將這些數(shù)據(jù)按一種統(tǒng)一的結(jié)構(gòu)與方式進(jìn)行處理，將分散的數(shù)據(jù)集中起來形成統(tǒng)一的數(shù)據(jù)集。

數(shù)據(jù)清洗模塊功能如下：

該模塊利用時間序列模型識別各狀態(tài)量的時間序列，檢測出數(shù)據(jù)的異常模式，判斷異常數(shù)據(jù)是能提取設(shè)備故障信息的“有用數(shù)據(jù)”還是可被清洗的“無用數(shù)據(jù)”，用時間序列干預(yù)模型進(jìn)行擬合以提取有效故障信息。在數(shù)據(jù)清洗時，根據(jù)序列中異常值的種類選擇不同的修正公式，從而達(dá)到修正噪聲點(diǎn)數(shù)據(jù)和填補(bǔ)缺失值的目的。

數(shù)據(jù)存儲模塊功能如下：

該模塊充分考慮數(shù)據(jù)的相關(guān)性和時空屬性，以關(guān)系型數(shù)據(jù)庫和“key-value”的非關(guān)系型數(shù)據(jù)庫來支持海量數(shù)據(jù)的存儲與處理，對數(shù)據(jù)進(jìn)行存儲優(yōu)化和基于MapReduce的并行分析處理，并使用MapReduce框架設(shè)計(jì)實(shí)現(xiàn)了數(shù)據(jù)的并行分析算法。

數(shù)據(jù)集成模塊功能如下：

考慮到數(shù)據(jù)來源于多個數(shù)據(jù)庫、數(shù)據(jù)倉庫或一般文件等等，將它們按照數(shù)據(jù)類型分別存入結(jié)構(gòu)化數(shù)據(jù)庫和非結(jié)構(gòu)化數(shù)據(jù)庫之后，為了便于數(shù)據(jù)的索引與提取，設(shè)計(jì)基于數(shù)據(jù)關(guān)聯(lián)矩陣的數(shù)據(jù)聚集方法，建立兩種數(shù)據(jù)庫之間的關(guān)聯(lián)關(guān)系，最后將兩種類型數(shù)據(jù)庫并行連接，采用分層結(jié)構(gòu)構(gòu)建一個大的數(shù)據(jù)平臺。

如圖2，海量的電力數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)，將數(shù)據(jù)導(dǎo)入數(shù)據(jù)清洗模塊之后，首先利用數(shù)據(jù)來源以及數(shù)據(jù)時間標(biāo)簽進(jìn)行屬性識別，然后辨識并清除類似于孤立點(diǎn)地壞數(shù)據(jù)。在初步處理數(shù)據(jù)之后，將數(shù)據(jù)分為常用的結(jié)構(gòu)化數(shù)據(jù)和圖片、文本等非結(jié)構(gòu)化數(shù)據(jù)，并分別利用不同的算法，對數(shù)據(jù)進(jìn)行填補(bǔ)去噪。

如圖3，進(jìn)行數(shù)據(jù)清洗后的數(shù)據(jù)已經(jīng)分為結(jié)構(gòu)化和非結(jié)構(gòu)化，將它們分別存入關(guān)系型與非關(guān)系型數(shù)據(jù)庫，并用MapReduce框架并行處理分析。

如圖4，將已經(jīng)構(gòu)建好的兩種數(shù)據(jù)庫進(jìn)行數(shù)據(jù)關(guān)聯(lián)矩陣聚類分析，建立兩種數(shù)據(jù)庫的關(guān)聯(lián)關(guān)系，最后將其放入一個數(shù)據(jù)倉庫搭建一個大數(shù)據(jù)平臺。

本文中所描述的具體實(shí)施例僅僅是對本發(fā)明精神作舉例說明。本發(fā)明所屬技術(shù)領(lǐng)域的技術(shù)人員可以對所描述的具體實(shí)施例做各種各樣的修改或補(bǔ)充或采用類似的方式替代，但并不會偏離本發(fā)明的精神或者超越所附權(quán)利要求書所定義的范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃良;趙立進(jìn);呂黔蘇;楊濤;吳建蓉;王波;陳思遠(yuǎn);林剛;張亞茹;趙芳菲
技術(shù)所有人：貴州電網(wǎng)有限責(zé)任公司電力科學(xué)研究院
我是此專利的發(fā)明人

上一篇：一種展示搜索結(jié)果頁面的方法和裝置與流程
上一篇：保護(hù)文件的方法、裝置及終端與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

數(shù)據(jù)預(yù)處理方法相關(guān)技術(shù)

spss數(shù)據(jù)預(yù)處理相關(guān)技術(shù)

數(shù)據(jù)預(yù)處理相關(guān)技術(shù)

數(shù)據(jù)預(yù)處理的方法相關(guān)技術(shù)

python數(shù)據(jù)預(yù)處理相關(guān)技術(shù)

大數(shù)據(jù)預(yù)處理相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種電力多維全景數(shù)據(jù)的預(yù)處理系統(tǒng)的制作方法