候區(qū)統(tǒng)一發(fā)布?xì)夂騾^(qū)的氣溫狀況。對于行政區(qū)內(nèi)存在多個氣候區(qū)的情況 只能夠公布?xì)夂騾^(qū)各自的氣溫,而缺乏對多個氣候區(qū)的綜合氣溫指數(shù)。其次,氣溫對用電影 響在區(qū)域之間存在差異,經(jīng)濟社會發(fā)展程度不同,氣溫對用電帶來的影響不同。氣溫對用電 影響有梯度效應(yīng),只有在溫度高于或者低于某個閾值,用電負(fù)荷才啟動。傳統(tǒng)利用氣溫直接 預(yù)測前提是氣溫影響是線性變化,并未考慮此梯度效應(yīng)。再者,氣溫對用電影響也有累積效 應(yīng),高低溫持續(xù)累計性對用電影響也不相同。因此,氣溫綜合指數(shù)在構(gòu)建中,我們利用歷史 氣溫確定氣溫高低溫閾值,把高于高溫閾值和低于低溫閾值所有日期的取值求和,利用氣 溫閾值和累積加總后,最終通過函數(shù)的映射值,從而刻畫了梯度和累積效應(yīng)。最后,我們利 用區(qū)域用電負(fù)荷在各個氣候區(qū)用電中的比重作為權(quán)重,加權(quán)計算了所有氣候區(qū)的氣溫,得 到了氣溫綜合指數(shù)。
[0090] 第二、有效工作日法消除了每年春節(jié)假日在公歷所在月份的變動導(dǎo)致的數(shù)據(jù)波動 問題。春節(jié)一般出現(xiàn)在1-3月,有時跨越月尾和月首,這給核算月度用電帶來的不便。春節(jié)用 電本身存在規(guī)律性,但是這種規(guī)律疊加到月度數(shù)據(jù)上,加上春節(jié)公歷日的變動,使得月度數(shù) 據(jù)存在波動,影響用電預(yù)測。有效工作日,通過春節(jié)前中后的調(diào)整系數(shù),核算了月度有效用 電日,消除了這種波動影響,從而提高模型預(yù)測精度。
[0091] 第三、先行指標(biāo)克服了同期指標(biāo)預(yù)測時的兩個缺點:數(shù)據(jù)不可獲得,傳導(dǎo)意義不 強。使用電力行業(yè)內(nèi)部指標(biāo),如業(yè)擴指標(biāo),完善了僅僅通過行業(yè)外部角度預(yù)測電力的視角不 足。首先,影響用電使用同期指標(biāo),往往在預(yù)測未來時期時,因為未來時期的數(shù)據(jù)不可獲得, 必須先對影響因素進行預(yù)測,再使用這些預(yù)測值對用電進行預(yù)測,因而存在雙重預(yù)測問題。 其次,使用同期指標(biāo),往往忽視了因素影響的時滯問題和傳導(dǎo)作用,因此,當(dāng)期的數(shù)據(jù)波動 往往不能在下期預(yù)測中很好的反映出來,預(yù)測精度不高。最后,現(xiàn)有外部指標(biāo)多為宏觀經(jīng)濟 指標(biāo),缺乏具有電力行業(yè)內(nèi)生性增長因素的業(yè)擴指標(biāo)。因此,我們選擇了具有行業(yè)內(nèi)生性質(zhì) 的業(yè)擴指標(biāo)和具有先行意義的指標(biāo),并且通過偏相關(guān)系數(shù)法把指標(biāo)對用電影響的先行期確 定出來,構(gòu)建了用電預(yù)測的指標(biāo)體系,實際預(yù)測提高了精度,從而解決了用電預(yù)測指標(biāo)沒有 內(nèi)生性,先行意義不足的缺點。
[0092] 第四、狀態(tài)空間模型的和隨機森林模型的相互輔助,提高預(yù)測效果。首先,狀態(tài)空 間模型基于系統(tǒng)理論,變量作用關(guān)系設(shè)定契合主觀經(jīng)驗,模型計算結(jié)果用以驗證經(jīng)驗關(guān)系。 隨機森林模型完全基于數(shù)據(jù)信息本身,不依賴系統(tǒng)和模型設(shè)定。兩者相輔相成,使主觀與客 觀得到統(tǒng)一。其次,狀態(tài)空間模型的預(yù)測因素受限,隨機森林模型具備大數(shù)據(jù)分析能力,可 容納很多因素,尤其在狀態(tài)空間模型預(yù)測因素效果受到波動影響,精度下降時,捕捉更顯著 的影響因素用以模型預(yù)測,對狀態(tài)空間模型是很好的補充。
【附圖說明】
[0093]圖1是本發(fā)明中狀態(tài)空間模型的觀測量與狀態(tài)量對應(yīng)關(guān)系示意圖。
[0094]圖2是本發(fā)明中狀態(tài)空間模型基本流程示意圖。
[0095]圖3是本發(fā)明中隨機森林模型基本流程示意圖。
[0096]圖4是本發(fā)明中氣溫合成指數(shù)的構(gòu)建步驟流程示意圖。
[0097]圖5是本發(fā)明中通過有效工作日法調(diào)整移動節(jié)假日效應(yīng)的流程示意圖。
[0098]圖6是本發(fā)明中先行指標(biāo)體系計算過程示意圖。
【具體實施方式】
[0099]本發(fā)明是電力預(yù)測模型,主要應(yīng)用于預(yù)測電力需求及電力市場。其解決的主要技 術(shù)問題是:一、氣溫合成指數(shù),構(gòu)建反映全區(qū)域氣溫情況的統(tǒng)一合成指數(shù)。二、有效工作日 法,解決移動節(jié)假日效應(yīng),即因農(nóng)歷春節(jié)在每年公歷日期的不一致,而導(dǎo)致的月度數(shù)據(jù)核算 問題。三、先行指標(biāo)體系,基于行業(yè)特性和經(jīng)濟規(guī)律選擇電力影響的外部指標(biāo)和反映內(nèi)生增 長的業(yè)擴指標(biāo)。通過確定指標(biāo)合理的先行期,從而構(gòu)建電力預(yù)測的外部指標(biāo)體系。四、狀態(tài) 空間模型和機器學(xué)習(xí)方法結(jié)合,一方面利用狀態(tài)空間模型強有力的迭代算法,另一方面使 用隨機森林模型大數(shù)據(jù)捕捉能力,補充狀態(tài)空間模型未考慮的變量。
[0100] 本發(fā)明【具體實施方式】詳述如下。
[0101] ( - )預(yù)測模型設(shè)定:狀態(tài)空間模型和隨機森林模型
[0102] 售電市場波動有時來自不可觀測因素的變動,在建模預(yù)測中需要及時捕捉其動態(tài) 特征。而這種變動一般難以數(shù)據(jù)識別,這種不可觀測的因素往往在數(shù)據(jù)趨勢突變中的作用 不容忽視。因此,一方面需要模型捕捉這種因素,更為重要的是通過算法實現(xiàn)對這種因素的 估計,從而強化預(yù)測變動趨勢的能力。
[0103] 狀態(tài)空間模型不但控制了外部影響因素,而且對不可觀測因素的變動進行動態(tài)調(diào) 整,提高預(yù)測精度,對數(shù)據(jù)長期預(yù)測較為準(zhǔn)確。它通過卡爾曼濾波算法,通過數(shù)據(jù)相關(guān)性及 更新信息遞歸得到系數(shù)的估計值。
[0104] 作為預(yù)測因素的補充,考慮使用隨機森林模型的大數(shù)據(jù)分析的特性,捕捉相關(guān)變 動因素。
[0105] 首先設(shè)定Yt為觀測量,Xt為狀態(tài)量,t時刻為當(dāng)前時刻,t+Ι為需要預(yù)測的未來時 亥IJ。狀態(tài)空間模型的基本流程如圖1所示。
[0106] 對狀態(tài)空間模型的預(yù)測步驟為:
[0107] 1、定義要預(yù)測的狀態(tài)空間模型,(1)式為狀態(tài)轉(zhuǎn)移方程,(2)式為觀測方程。
[0109] 其中,xt為不可觀測因素,假設(shè)其受到滯后一期自適應(yīng)的影響,作為模型估計的因 素存在,不對應(yīng)實際指標(biāo)。yt為外部影響因素,在實際的分析中,是各個影響售電的各個預(yù) 測指標(biāo),根據(jù)各個指標(biāo)的先行期來選擇合適的時期,這里的時間角標(biāo)為t-q,其中q為先行 期。yt為售電量,Φ為待估計的狀態(tài)轉(zhuǎn)移矩陣,它描述了不可觀測因素的自身動態(tài)調(diào)整行 為。Π 為觀測矩陣,它描述了不可觀測因素對售電的動態(tài)影響。Ψ為外部影響因素的系數(shù)矩 陣,表明與不可觀測因素的聯(lián)系,r為外部因素對售電影響的系數(shù)矩陣,v#pc〇 t為隨機擾動 項。
[0110] 通過模型類型,確定需要估計的參數(shù),就可作為后面濾波命令里所需的參數(shù)。濾波 命令里的參數(shù)和模型參數(shù)要一致對應(yīng),什么類型的模型決定什么類型的濾波命令。
[0111] 2、確定好預(yù)測模型使用的變量和變量之間的作用系數(shù)后,加載R軟件的命令包 38七83。通過該命令包,調(diào)用相關(guān)的卡爾曼濾波函數(shù)1(;1^]^61'0,1(;1^]^61'1,1(;1^]^612,供后續(xù) 計算使用。帶〇的命令,是非時變模型,且沒有外生輸入量時使用的命令,而帶1的命令是帶 有時變和外生輸入量時使用的命令。帶2的命令是存在模型間的殘差相關(guān)時使用的命令。
[0112] 3、導(dǎo)入數(shù)據(jù),對解釋變量和被解釋變量進行標(biāo)準(zhǔn)化處理。
[0113] 4、設(shè)置模型待估參數(shù)的初始值,設(shè)置為0,或其他來源于系數(shù)回歸結(jié)果或數(shù)據(jù)驗證 結(jié)論。比如模型變量作用系數(shù),轉(zhuǎn)移矩陣的元素取值,和兩個方程的協(xié)方差元素取值。這些 參數(shù)作為上述濾波函數(shù)所需的參數(shù)值。
[0114] 5、設(shè)置狀態(tài)空間模型的似然函數(shù)。似然函數(shù)的參數(shù)取值,使用上述初始參數(shù)值。而 且,在似然函數(shù)命令里,使用上述第二步里的相應(yīng)濾波命令,并通過濾波命令,返回似然函 數(shù)值。
[0115] 6、參數(shù)估計。通過參數(shù)的初始值,和設(shè)定的似然函數(shù)作為優(yōu)化命令opt im的輸入 項。使用"Nelder-Mead"或者"Newton-Raphson"迭代方法,最大迭代次數(shù)設(shè)為5000步。最終 迭代計算的參數(shù)最優(yōu)值作為參數(shù)的最終取值。
[0116] 7、得到估計出的參數(shù)值后,作為預(yù)測模型的系數(shù)得到預(yù)測模型的最終表達式。最 后代入變量數(shù)據(jù)作為模型新輸入量對售電進行預(yù)測。
[0117] 8、通過計算預(yù)測期的平均預(yù)測誤差,即真實值和預(yù)測值差異的平均值,來判斷預(yù) 測效果。
[0118] 使用隨機森林模型進行補充預(yù)測。隨機森林模型基于CART決策樹算法,每個樣本 需要經(jīng)過決策樹進行向下遞歸分類,按照節(jié)點不純度最小原則最終輸出結(jié)果的簡單平均。 具體實施方案如下:
[0119] 1、在R軟件中加載randomForest,rpart 軟件包。
[0120] 2、導(dǎo)入解釋變量和被解釋變量。
[0121 ] 3、設(shè)定參數(shù)值。要確認(rèn)原始訓(xùn)練樣本的個數(shù)N,確定擁有的變量個數(shù)M。針對具體問 題,樣本數(shù)是模型估計參數(shù)需要的時間區(qū)間,而變量個數(shù)是所有影響用電量的因素個數(shù)。需 要確定一個定值m,用來決定當(dāng)在一個節(jié)點上做決策時,會使用多少個變量,這里m小于總變 量數(shù)目M。選擇m = 3,在命令中設(shè)置mtry = 3。
[0122] 4、應(yīng)用bootsrap自助法,有放回地抽取k個自助樣本集,其實,就是在所有區(qū)間上 抽取部分時間段,構(gòu)建k個決策樹,設(shè)置ntree = 500。每個自助樣本區(qū)間生長為單棵決策樹。 在樹的每個節(jié)點處從Μ個變量里隨機選取m個變量,按照節(jié)點不純度最小的原則從這m個特 征中選取一個特征進行分支生長。
[0123] 5、預(yù)測根據(jù)生成的k個決策樹分類器對需要進行預(yù)測的數(shù)據(jù)進行預(yù)測,根據(jù)決策 樹的估計均值與實際均值的差異選擇差異小的模型作為最終的預(yù)測模型。狀態(tài)空間模型實 施的具體流程如圖2所示,隨機森林模型實施的具體流程如圖3所示。
[0124]確定了預(yù)測模型之后,需要確定模型輸入量,即數(shù)據(jù)指標(biāo)。使用反