-svm混合建模的霧霾時(shí)間序列預(yù)測(cè)方法
【專利摘要】本發(fā)明涉及一種基于AR*-SVM混合建模的霧霾時(shí)間序列預(yù)測(cè)方法。本方法的操作步驟是:第一步,對(duì)霧霾時(shí)間序列流建立AR*模型;第二步,運(yùn)用SVM模型對(duì)原始序列和從AR*模型中獲得的新息序列進(jìn)行AR*-SVM混合模型的建模;混合模型AR*-SVM是通過AR*和SVM模型分別來獲取霧霾時(shí)間序列流的線性和非線性部分,并結(jié)合起來改善整個(gè)霧霾時(shí)間序列流的建模和預(yù)測(cè)性能。本發(fā)明提出把AR*類模型與SVM模型結(jié)合起來,通過這兩類模型來捕捉時(shí)間序列流中隱含模式的不同方面,從而提高模型的擬合度,以提高霧霾序列的預(yù)測(cè)精度,試驗(yàn)也表明本發(fā)明的混合建模方法比單獨(dú)運(yùn)用這兩種方法均有很好的結(jié)果。
【專利說明】基于AfT-SVM混合建模的雲(yún)謹(jǐn)時(shí)間序列預(yù)測(cè)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種霧靈的預(yù)測(cè)方法,特別是一種基于AR*-SVM混合建模的霧靈時(shí)間 序列預(yù)測(cè)方法。
【背景技術(shù)】
[0002] 霧靈多因素時(shí)間序列流,展示了被研究對(duì)象在一段時(shí)間內(nèi)發(fā)展變化的過程。所謂 時(shí)間序列流特征值的預(yù)測(cè)方法,就是指在所研究對(duì)象的一組實(shí)測(cè)霧靈指標(biāo)和污染源指標(biāo)時(shí) 間序列流基礎(chǔ)上,通過各種數(shù)學(xué)的分析處理手段,尋找出數(shù)據(jù)的變化特征、發(fā)展趨勢(shì)與規(guī) 律,進(jìn)而對(duì)未來某時(shí)刻研究對(duì)象的狀態(tài)做出估計(jì)。該樣,就把影響研究對(duì)象的一切因素由時(shí) 間綜合起來描述。由于霧靈多因素時(shí)間序列流本身含有噪聲、非穩(wěn)定性和混沛的特性,所W 要在歷史的數(shù)據(jù)中獲取全部信息是非常困難的,故要在將來值和歷史記錄之間建立函數(shù)關(guān) 系也是不易的。
[0003] 霧靈時(shí)間序列流是一個(gè)非平穩(wěn)的序列。要把一個(gè)非平穩(wěn)序列映射到一個(gè)合適的線 性模型是非常困難的,所W基于諸如自回歸移動(dòng)平均模型(ARMA)的時(shí)間序列模型的預(yù)測(cè) 常常是無法令人滿意的。大量研究表明,時(shí)間序列流的收益率序列存在條件異方差,即方差 不僅隨著時(shí)間而變化,且具有變化幅度大和幅度小分別集中在某些時(shí)間段內(nèi)的特點(diǎn)---波 動(dòng)性的叢集性,該種現(xiàn)象在金融、電力、天氣等領(lǐng)域也是存在的。GARCH是廣義的ARCH模型, GARCH建模的目的在于對(duì)時(shí)間序列流的易變性的理解和建模。GARCH模型通過對(duì)方差和協(xié) 方差準(zhǔn)確預(yù)測(cè)來對(duì)時(shí)變的條件方差建模,很好地解決了上面討論的過度峰度和波動(dòng)叢集性 問題。
[0004] 對(duì)于霧靈時(shí)間序列流,很難構(gòu)建適合的GARCH模型,基于其上的預(yù)測(cè)也是不滿意 的。由于GARCH在霧靈數(shù)據(jù)的建模上存在諸多的不足,許多替代的方法諸如非線性模型也 被提出來用于該方面的建模,W提高建模和預(yù)測(cè)的效果。
[000引 本發(fā)明把AR、ARMA、ARIM、ARCH和GARCH模型統(tǒng)稱為AR*模型。對(duì)于時(shí)間序列流, 很難構(gòu)建適合的AR*模型,基于其上的預(yù)測(cè)也是不滿意的。由于線性時(shí)間序列模型AR*在 時(shí)間序列流的建模上存在諸多的不足,許多替代的方法諸如非線性模型也被提出來用于該 方面的建模,W提高建模和預(yù)測(cè)的效果。
[0006] 神經(jīng)網(wǎng)絡(luò)模型有著廣泛的應(yīng)用前景,近年來越來越多的研究者利用神經(jīng)網(wǎng)絡(luò)模型 來預(yù)測(cè)時(shí)間序列流的變化趨勢(shì)。在為時(shí)間序列流建立神經(jīng)網(wǎng)絡(luò)模型時(shí),有研究者對(duì)神經(jīng)網(wǎng) 絡(luò)模型和線性模型的預(yù)測(cè)性能進(jìn)行了研究對(duì)比,通過使用諸如工業(yè)、金融、天氣和微觀經(jīng)濟(jì) 方面的數(shù)據(jù),得出的實(shí)驗(yàn)結(jié)果表明神經(jīng)網(wǎng)絡(luò)技術(shù)相對(duì)于線性模型有絕對(duì)的優(yōu)勢(shì)。神經(jīng)網(wǎng)絡(luò) 模型的主要優(yōu)點(diǎn)在于它的非線性建模能力,諸多研究也都給出各自實(shí)驗(yàn),說明非線性神經(jīng) 網(wǎng)絡(luò)模型在時(shí)間序列流上的預(yù)測(cè)準(zhǔn)確性表現(xiàn)出比線性模型有較好的性能。
[0007] 支持向量機(jī)(SVM, Suppo;rt Vector Machine)是由Va噸ik等提出能較好解決小樣 本、非線性和高維數(shù)等實(shí)際問題的基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則的學(xué)習(xí)算法。支持向量機(jī)方法 解決了在高維特征空間中用線性回歸的方法來進(jìn)行預(yù)測(cè),幾乎不增加計(jì)算的復(fù)雜性,避免 了升維過程可能出現(xiàn)的維數(shù)災(zāi)。也避免了人工神經(jīng)網(wǎng)絡(luò)等方法的網(wǎng)絡(luò)結(jié)構(gòu)難于確定、過學(xué) 習(xí)和欠學(xué)習(xí)W及局部極小等問題,被認(rèn)為是目前針對(duì)小樣本的分類、回歸等問題的最佳理 論。
[000引 SVM相對(duì)于AR*時(shí)間序列流模型來說有更好效果。但是對(duì)于某一霧靈時(shí)間序列流 來說,很難判斷其是純粹的線性過程還是非線性的過程,故很難為其選擇合適的模型進(jìn)行 擬合并建模。雖然諸多文獻(xiàn)表明有許多的方法運(yùn)用到時(shí)間序列流的預(yù)測(cè),而且得出較為精 確的結(jié)果,但由于霧靈時(shí)間序列流存在諸多的不穩(wěn)定因素,SVM技術(shù)和其他神經(jīng)網(wǎng)絡(luò)技術(shù)并 不是用于霧靈時(shí)間序列流預(yù)測(cè)的最佳模型。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明的目的在于針對(duì)已有技術(shù)存在的缺陷,提供一種基于AR*-SVM混合建模的 霧靈時(shí)間序列預(yù)測(cè)方法,W獲得霧靈時(shí)間序列預(yù)測(cè)較佳效果。
[0010] 為解決上述技術(shù)問題,本發(fā)明采用如下技術(shù)方案:
[0011] 一種基于AR*-SVM混合建模的霧靈時(shí)間序列預(yù)測(cè)方法,操作步驟如下:
[0012] 第一步,對(duì)霧靈時(shí)間序列流建立AR*模型,首先識(shí)別該模型的階數(shù),確定AR*模型 的參數(shù)并進(jìn)行估計(jì),最終運(yùn)用AR*模型分析流數(shù)據(jù)中的線性部分;該線性部分的信息是通 過使用AR*模型得出時(shí)間序列的新息序列{ e J來獲取的,該新息序列包含了時(shí)間序列流 的統(tǒng)計(jì)和波動(dòng)信息;用它作為構(gòu)建AR*-SVM混合模型的一部分,不僅可W降低噪聲水平,同 時(shí)可通過獲取時(shí)間序列流的統(tǒng)計(jì)和波動(dòng)信息來提高預(yù)測(cè)的準(zhǔn)確性;
[001引第二步,運(yùn)用SVM模型對(duì)原始序列和從AR*模型中獲得的新息序列進(jìn)行AR*-SVM 混合模型的建模;所W混合模型AR*-SVM是通過AR*和SVM模型分別來獲取霧靈時(shí)間序列 流的線性和非線性部分,并結(jié)合起來改善整個(gè)霧靈時(shí)間序列流的建模和預(yù)測(cè)性能。
[0014] 優(yōu)選地,所述AR*模型包括自回歸移動(dòng)平均ARM模型,季節(jié)性自回歸移動(dòng)平均 ARIM模型和廣義自回歸條件異方差GARCH模型線型模型,該各模型如下:
[001引 1) ARIA是自回歸移動(dòng)平均模型:
[0016]
【權(quán)利要求】
1. 一種基于AR*-SVM混合模型的霧霾時(shí)間序列預(yù)測(cè)方法,其特征在于,操作步驟如下: 第一步,對(duì)霧霾時(shí)間序列流建立AR*模型,首先識(shí)別該模型的階數(shù),確定AR*模型的參 數(shù)并進(jìn)行估計(jì),最終運(yùn)用AR*模型分析流數(shù)據(jù)中的線性部分;該線性部分的信息是通過使 用AR*模型得出時(shí)間序列的新息序列{eJ來獲取的,該新息序列包含了時(shí)間序列流的統(tǒng) 計(jì)和波動(dòng)信息;用它作為構(gòu)建AR*-SVM混合模型的一部分,不僅可以降低噪聲水平,同時(shí)可 通過獲取時(shí)間序列流的統(tǒng)計(jì)和波動(dòng)信息來提高預(yù)測(cè)的準(zhǔn)確性; 第二步,運(yùn)用SVM模型對(duì)原始序列和從AR*模型中獲得的新息序列進(jìn)行AR*-SVM混合 模型的建模;混合模型AR*-SVM是通過AR*和SVM模型分別來獲取霧霾時(shí)間序列流的線性 和非線性部分,并結(jié)合起來改善整個(gè)霧霾時(shí)間序列流的建模和預(yù)測(cè)性能。
2. 根據(jù)權(quán)利要求1所述的基于AR*-SVM混合模型的霧霾時(shí)間序列預(yù)測(cè)方法,其特征在 于:所述AR*模型包括自回歸移動(dòng)平均ARMA模型,季節(jié)性自回歸移動(dòng)平均ARIMA模型和廣 義自回歸條件異方差GARCH模型線型模型,該各模型如下: DARMA是自回歸移動(dòng)平均模型:
其中Xt是指t時(shí)刻的觀測(cè)值,Xt_m是指t-m時(shí)刻的觀測(cè)值,(ai,a2,…ap)稱為自回歸 系數(shù),實(shí)參O^b2,…bq)稱為滑動(dòng)平均系數(shù),{eJ為白噪聲序列,亦稱之為新息序列,(p, q)為ARMA模型的階數(shù),構(gòu)建時(shí)間序列的ARMA(p,q)模型首先需要確定其p,q值; ARMA(p,q)模型的階數(shù)p,q可以通過計(jì)算AIC來確定,AIC信息準(zhǔn)則即Akaike informationcriterion,是衡量統(tǒng)計(jì)模型擬合優(yōu)良性的一種標(biāo)準(zhǔn);通過計(jì)算該序列不同的 P,q值的AIC值,取最小的AIC值來決定該序列的AR*模型,AIC計(jì)算公式如下: A/C( p,¢/) - Ina](p, q) + 2( p-I-q)l N 其中<;(AW是對(duì)噪聲項(xiàng)方差的估計(jì),N為序列的長(zhǎng)度; 2. ARIM模型是季節(jié)性自回歸移動(dòng)平均模型: 如果霧霾時(shí)間序列{xt}的d階差分yt= (I-B)dXt是一個(gè)平穩(wěn)的ARMA(p,q)序列,其 中B為一步延遲算子,表示把當(dāng)前序列值的時(shí)間向過去拔一個(gè)時(shí)刻,即Bxt=Xt_1;d> 1是 整數(shù),則稱{xt}為具有階p,d和q的自回歸求和移動(dòng)平均ARIMA模型,也稱為季節(jié)性自回 歸移動(dòng)平均模型,記為{xt}?ARIMA(p,d,q); 3. GARCH模型是廣義自回歸條件異方差模型: Yt=f(t-1,X) +et
第一式y(tǒng)t是一個(gè)帶有誤差項(xiàng)et的關(guān)于序列X的均值方程;第二式%2是以前面信息為 基礎(chǔ)的一期向前預(yù)測(cè)方差,由三部分組成:一是均值《 ;
,稱為自回歸條件異 方差(ARCH)項(xiàng),用均值方程的殘差平方的滯后來度量從前面得到的波動(dòng)性信息,其中
差心 通過上面流程確定AR*-SVM框架中的AR* (p,q)模型。
3.根據(jù)權(quán)利要求1所述的基于AR*-SVM混合模型的霧霾時(shí)間序列預(yù)測(cè)方法,其特征在 于:所述支持向量機(jī)SVM是: 該支持向量機(jī)SVM的理論基礎(chǔ)是統(tǒng)計(jì)學(xué)習(xí)理論,像多層感知器網(wǎng)絡(luò)和徑向基函數(shù)網(wǎng)絡(luò) 一樣,可用于模式分類和非線性回歸;其核心思想是通過核函數(shù)變換將輸入空間的樣本映 射到高維特征空間,在高維特征空間中尋找最優(yōu)分類面,從而區(qū)分樣本;故核函數(shù)類型的選 擇和確定核函數(shù)后相關(guān)參數(shù)的選取是決定SVM性能的關(guān)鍵;由于目前還沒有針對(duì)具體問題 構(gòu)造出合適核函數(shù)的有效方法,實(shí)際中利用的大多還是多項(xiàng)式核函數(shù)、RBF核函數(shù)、感知器 核函數(shù)標(biāo)準(zhǔn)核函數(shù);RBF核函數(shù)是一個(gè)普適核函數(shù),通過調(diào)整參數(shù)適用于任意分布的樣本; 給定訓(xùn)練樣本數(shù)據(jù)(Xi,y),i= 1,2,…,1,XGRm,yGR,其中Xi為輸入向量,y4是 對(duì)應(yīng)的輸出值,1為樣本個(gè)數(shù),支持向量回歸就是通過一個(gè)非線性映射I將數(shù)據(jù)Xi映射到 高維特征空間G,并在這個(gè)空間進(jìn)行線性回歸: y= g(X)=〇T€(X)+b 其中〇為超平面的權(quán)值向量,b為偏置項(xiàng); 支持向量機(jī)SVM決定的線性回歸超平面的解析式如下:
其中f(X)為分類決策函數(shù),i= 1,2, 3…1,1為訓(xùn)練樣本的個(gè)數(shù),
為高斯徑向基核函數(shù);間,<,…而,<)是對(duì)偶問題的最優(yōu)解,廠為閾值。
【文檔編號(hào)】G06Q50/00GK104504475SQ201410837471
【公開日】2015年4月8日 申請(qǐng)日期:2014年12月24日 優(yōu)先權(quán)日:2014年12月24日
【發(fā)明者】李衛(wèi)民, 張禮名, 周揚(yáng), 王盛, 毛敏娟 申請(qǐng)人:上海大學(xué)