實現多源異構數據融合的多核函數學習SVM的Mapreduce化短期負荷預測方法
【技術領域】
[0001] 本發(fā)明涉及發(fā)一種基于多源異構大數據的短期電力負荷預測方法。
【背景技術】
[0002] 在負荷預測領域中,影響負荷預測的因素豐富多樣,包括歷史負荷、天氣、季節(jié)、日 類型、交通、實時電價、經濟、政策等等,這些數據的各自治系統(tǒng)建設的時間、研發(fā)單位、采用 的技術和具體業(yè)務的特定要求等,導致了數據的存儲方式、數據類型以及更新頻次等不同, 進而呈現出數據異構、來源多樣和海量數據等諸多特點,使得這些特征通常擁有各自不同 的物理意義、量綱以及統(tǒng)計特性等?,F有的負荷預測方法中,基于時間序列模型不能很好 處理影響因素;回歸分析方法雖然考慮了部分影響因素,但并沒有考慮影響因素的異構特 性,未能對這些特征進行區(qū)分對待,可能導致對這些異源異構特征利用效率的降低;現有的 利用基于單核的SVM進行負荷預測,其將所有的特征都并列堆疊成一個向量,比如,特征是 由兩個特征融合而成,第一個特征服從多項式分布,而第二個特征服從正態(tài)分布而后一起 輸入一個固定形式固定參數的核映射函數當中來建立模型,這種處理方式顯得有些簡單低 效,尤其是用來應對來自不同數據源的不同種類特征。
[0003] 當數據規(guī)模龐大、數據異構或者樣本分布不均勻時,采用多核學習這一理論框架 則能夠提供更加靈活和有效的信息組織與挖掘功能。多核學習首先利用像一系列傳感器一 樣的基核對各自的信息進行感知,而后通過在映射后高維空間中對各基核的優(yōu)化線性加權 集成,形成一種在原始空間中對不同信息的非線性優(yōu)化集成,從而提高了核機器的性能以 更好的利用不同數據源中的信息。因此,研究基于多核學習的負荷預測算法具有重要意義。
【發(fā)明內容】
[0004] 本發(fā)明的目的是提供一種能有效處理影響負荷預測的多種多源異構數據的多核 函數學習方法,以解決因智能電網不斷發(fā)展,采集到的影響負荷變化的隨機因素的數量、結 構種類越來越多,導致傳統(tǒng)負荷預測方法無法精確處理及應用這些多源異構影響因素而不 能滿足大數據環(huán)境下短期負荷預測精度與速度要求的問題。
[0005] 本發(fā)明為解決上述技術問題而提供一種實現多源異構數據融合的多核函數學習 SVM的Mapreduce化短期負荷預測方法,該預測方法的步驟如下:
[0006] 步驟1、配置負荷預測平臺:選定主節(jié)點服務器與從節(jié)點計算機,搭建集群分布式 Hadoop平臺,并配置集群環(huán)境JDK、SSH、HDFS以及Mapreduce等;
[0007] 步驟2、調研待預測配電網區(qū)域負荷情況:調研待預測配網區(qū)域底層線路如IOKV 專線、35KV專線的負荷種類以及配電網區(qū)域范圍內工業(yè)負荷、農業(yè)負荷、商業(yè)負荷、居民負 荷的構成比例;
[0008] 步驟3、選定多源異構數據種類:根據步驟2的調研結果篩選M種影響負荷預測的 隨機多源異構因素特征值屬性,第M種屬性特征值包含m個子特征值,并從氣象網、交通網、 SCADA系統(tǒng)以及數據庫等采集各特征值歷史樣本,每天的采集頻率為f,采集樣本個數為N ;
[0009] 【特征值 Xlll, Xll2,…,Xlln,特征值 Xl21,X122,…,xl2n,......,特征值 xlM1,xlM2,… ,xiMm】,i = 1,2,…,N
[0010] 步驟4、數據預處理:將步驟3中采集的多源異構數據進行歸一化處理;
[0011] 步驟5、選定M個核函數Kk,k = 1,2,…M,組合的多核函數為:if = Σ?=14&。式 中,dk為核函數K k對應的權系數,具體選定核函數種類的步驟為:
[0012] 5A.采用單變量法,選定某一屬性的特征值【xkl, xk2,…,xkm】,k = 1,2,…M,m為 該屬性的特征值所含子特征值個數;
[0013] 5B.采用單核SVM法,輸入變量為5A.中選取的單屬性特征值,核函數分別選線性 核函數、多項式核函數、RBF核函數,進行單核SVM負荷預測;
[0014] 5C.計算四種單核SVM負荷預測精度;
[0015] 5D.選擇預測精度最高的核函數作為該單屬性特征值對應的核函數Kk;
[0016] 5E.對M種屬性的特征值分別進行5A至操作,得到最終的M個核函數Kk,k = 1,2,…M0
[0017] 步驟6、多源異構數據特征融合:利用Hadoop平臺將多核函數學習 SVM算法 Mapreduce化,實現多源異構數據特征融合,并得到負荷預測結果。具體步驟為:
[0018] 6A.將步驟4歸一化后的多源異構數據劃分為X個訓練樣本與C個測試樣本,X+C =N:
[0019] 訓練樣本:
[0020] Xu=【特征值 X ull,Xul2,…,Xuln,特征值 Xu21,Xu22,…,Xu2n,......,特征值 XUM1, XuM2,…,XuMm,Yu 】
[0021] 測試樣本:
[0022] Xv -【特征值 X vll,Xv12,…,XvIm,特征值 Xv21,Xv22,…,Xv2m,......,特征值 ΧνΜ1,XvM2,… ,XvMm, yv】
[0023] 其中:yu、yvS 目標負荷值,u = 1,2, · · ·,X,v = 1,2, · · ·,C.
[0024] 6B.將6A中的訓練樣本{xu,u = 1,2,…,X}分割為D個數據子集:確定需要并 行多核SVM計算的數目D和數據集大小,修改HDFS配置文件,設置塊大小,并將數據上傳至 HDFS ;
[0025] 6C.實現D個節(jié)點的Map過程:
[0026] ①設定精度為常數ε ;
[0027] ②利用步驟5的組合核函數K 4心計算數據子集的核矩陣,實現多源異構
數據特征融合:
[0028] 給定初值
[0029] 初始化核矩陣為
[0030] 其中
[0031] ③利用初始化核矩陣,采用求解多核函數SVM的雙層交替優(yōu)化算法對數據子集進 行訓練,得到D個節(jié)點的子支持向量,輸出為〈key, value〉,key為訓練樣本,value為子支 持向量;
[0032] 6D.實現Reduce過程:D個節(jié)點的子支持向量進行合并,對合并后的支持向量集 進行多核函數SVM訓練,得到最優(yōu)核函數權重4&= 1,2,-·,Μ)、最優(yōu)拉格朗日乘子 <與 = :U.…A/)以及最終支持向量,建立多核SVM回歸估計函數:
[0034] 其中
i為訓 練樣本中的任意兩個樣本的特征值,yu為訓練樣本中的目標負荷值,X為待預測負荷的各特 征值向量。利用該多核SVM回歸估計函數,對測試樣本進行負荷預測,并計算相對誤差,輸 出為〈key, value〉,key為測試樣本,value為負荷預測值與相對誤差。
[0035] 與現有技術相比,本發(fā)明的有益效果是:
[0036] 傳統(tǒng)負荷預測有的無法考慮影響因素,有的雖然考慮了部分影響因素,但并沒有 考慮影響因素的異構特性,未能對這些特征進行區(qū)分對待,導致對這些異源異構特征利用 效率的降低,而且隨著智能電網的發(fā)展,大數據環(huán)境下影響負荷預測的數據隨機性、復雜程 度增加,傳統(tǒng)負荷預測方法數據處理方面的劣勢愈加明顯,本發(fā)明根據不同的影響因素選 用不同的核函數來代表其異構特征,利用組合核函數來有效融合、處理影響負荷預測精度 的多源異構數據因素,提高這些異源異構特征利用效率,進而提高負荷預測精度。
【附圖說明】
[0037] 圖1是實現多源異構數據融合的多核函數學習 SVM的Mapreduce化短期負荷預測 方法流程圖
[0038] 圖2是選擇核函數的流程圖
【具體實施方式】
[0039] 為使本發(fā)明更明顯易懂,茲以優(yōu)選實施例子,并配合附圖作詳細說明如下。
[0040] 步驟1、配置負荷預測平臺:選定主節(jié)點服務器與從節(jié)點計算機,搭建集群分布式 Hadoop平臺,并配置集群環(huán)境JDK、SSH、HDFS以及Mapreduce等;
[0041] 步驟2、調研待預測配電網區(qū)域負荷情況:調研待預測配網區(qū)域底層線路如IOKV 專線、35KV專線的負荷種類以及配電網區(qū)域范圍內工業(yè)負荷、農業(yè)負荷、商業(yè)負荷、居民負 荷的構成比例;
[0042] 步驟3、選定多源異構數據種類:根據步驟2的調研結果篩選M種影響負荷預測的 隨機多源異構因素特征值屬性,第M種屬性特征值包含m個子特征值,并從氣象網、交通網、 SCADA系統(tǒng)以及數據庫等采集各特征值歷史樣本,每天的采集頻率為f,采集樣本個數為N ;
[0043] 【特征值xm,Xil2,…,Xilm,特征值 Xi21 ? Xi22,··、Xi2m,·· .…,特征值XiMl,XiM2,…,XiMm】, i = 1,2,…,N
[0044] 例如,此處選擇的多源異構數據構造形式:
[0045] 【時刻X1,星期屬性x2,日最高氣溫Xy日最低氣溫x4,日平均氣溫 x;>,預測點電價 X6、預測點前一時刻電價X7、前一天同一預測點電價X8、前一周同一預測點電價X 9、日最大車 流量X1。、日最小車流量χη、日進出地鐵人數χ12】
[0046] 時刻X1 :每日每隔30分鐘米樣負荷數據,一天共48個時刻表不如下:
[0048] 星期屬性x2:用數字1至7表示星期一至星期日。
[0049] 預測方式:日前負荷預測,以待預測日前T (自定義)天每天每15分鐘的數據作為 訓練樣本,來預測待預測日每15分鐘的負荷值。
[0050] 步驟4、數據預處理:將步驟3中采集的多源異構數據進行歸一化處理,歸一化方 法為:
[0052] 步驟5、選定M個核函數Kk,k = 1,2,…M,組合的多核函數為:[ = 。式 中,dk為核函數K k對應的權系數,具體選定核函數種類的步驟為:
[0053] 5A.采用單變量法,選定某一屬性的特征值【xkl, xk2,…,xkm】,k = 1,2,…M,m為 該屬性的特征值所含子特征值個數;
[0054] 5B.采用單核SVM法,輸入變量為5A.中選取的單屬性特征值,核函數分別選線性 核函數、多項式核函數、R