專利名稱:構建時間序列模型的系統(tǒng)與方法
技術領域:
本發(fā)明涉及為時間序列指定模型的方法和計算機系統(tǒng)。
發(fā)明的
背景技術:
人們迫切期望能夠準確地建立模型并預測事件,特別是在當今的商業(yè)環(huán)境中。準確建模將會幫助人們預測未來事件,從而做出更好的決策以獲得更好的成績。因為與未來趨勢相關的可靠信息是非常有價值的,所以許多組織花費了大量的人力與財力資源,試圖預測未來趨勢和分析這些趨勢最終可能產(chǎn)生的結果。預測的一個基本目的在于降低風險和不確定性。商業(yè)決策依賴于預測。因此,預測在許多計劃過程中是一個必不可少的工具。
人們使用兩類模型來創(chuàng)建預測模型,即指數(shù)平滑模型和自回歸求和滑動平均(ARIMA)模型。指數(shù)平滑模型描述了隨時間變化的一系列值的變化過程,而它沒有試圖去理解這些值如此變化的原因。在現(xiàn)有技術中,存在著幾種不同的指數(shù)平滑模型。與之不同的是,ARIMA統(tǒng)計模型允許建模者詳細說明時間序列中過去值在預測該時間序列將來值中所起的作用。ARIMA模型也允許建模者在模型中包含預測因子,這些可能有助于解釋正在被預測的時間序列的變化過程。
為了有效地預測某一趨勢或時間序列中的將來值,必須創(chuàng)建描述該時間序列適合的模型。而創(chuàng)建能夠最準確反映時間序列過去值的模型是預測過程中最困難的方面。更好預測的關鍵在于從過去數(shù)據(jù)得出更優(yōu)模型。以前,為反映時間序列中數(shù)值而選擇的模型要么相對簡單、直接,要么基本上全部需要由建模者本人進行長時間而又乏味的數(shù)學分析才能得到結果。這樣,這種模型要么相對簡單而經(jīng)常不能有效指示時間序列的未來值,要么花費大量人力與財力也許與較簡單模型相比并沒有更好的成功機會。最近,隨著更好的電子計算機硬件的出現(xiàn),大量預測建模方面都可以由計算機快速地完成。然而,以前的計算機軟件預測解決方案受到了限制,因為用來評估歷史數(shù)據(jù)的模型數(shù)量有限,且一般來說階數(shù)較低,雖然潛在地存在無數(shù)個可用以比較時間序列的模型。
由于找到用來擬合數(shù)據(jù)序列的最優(yōu)模型要求進行某種迭代數(shù)據(jù)分析過程,所以建模進一步復雜化。為了保證有效性、精確性和可靠性,統(tǒng)計模型被設計、測試和評估。根據(jù)這些評估得出的結論,模型被不斷地更新以反映評估過程的結果。過去,由于建模者自身的限制,以及基于計算機的軟件解決方案缺乏靈活性,所以這種迭代程序非常繁瑣、費力,效率通常也很低。
模型建立過程通常包括由以下三個階段構成的迭代循環(huán)(1)模型確定;(2)模型評估;(3)診斷檢驗。一般情況下,模型確定是建模過程中最困難的方面。這一階段包括確定差分階數(shù)、自回歸(AR)階數(shù)以及滑動平均(MA)階數(shù)。通常在確定AR和MA階數(shù)之前要確定差分階數(shù)。一種廣泛地用來確定差分的經(jīng)驗方法是使用一種自相關函數(shù)(ACF)曲線,采用這種方法時,如果ACF失效而衰減得很快,則表明需要差分。存在若干個確定是否需要差分的規(guī)范檢驗方法,例如,這些方法中最普遍使用的是Dickey-Fuller檢驗。然而,當需要多次和季節(jié)差分時,這些規(guī)范的測試方法均不是很有效。本發(fā)明使用的是基于Tiao和Tsay的一種回歸方法(1983)。Dickey-Fuller檢驗是這種方法的一個特例。
序列經(jīng)適當差分后,下一步任務就是要找出AR和MA的階數(shù)。在一元ARIMA模型識別中,有以下兩類方法模式識別法和補償函數(shù)法。在各種模式識別法中,廣泛采用的是ACF模式和部分自相關函數(shù)(PACF)模式。PACF用于確定純AR模型的AR階數(shù),而ACF用于確定純MA模型的MA階數(shù)。對于同時出現(xiàn)AR和MA分量的ARIMA模型,因為ACF和PACF中沒有清除模式,所以ACF和PACF識別法是失效的。其它的模式識別方法包括R和S陣列法(Gary等人,1980)、隅角法(Begun等人,1980)、最小典型相關法(Tsay與Tiao,1985)以及廣義自相關函數(shù)(EACF)法(Tsay與Tiao,1984)。提出這些方法用以同時確定ARIMA模型的AR和MA階數(shù)。在模式確定方法中,最有效且最容易使用的方法是EACF。
補償函數(shù)法為評估類型的確定過程。它們用于選取使補償函數(shù)P(i,j,k,l)值最小化的ARMA(p,q)(P,Q)模型的階數(shù),其中0≤i≤l,0≤j≤J,0≤k≤K,0≤l≤L。有多種補償函數(shù),如使用最廣泛的AIC(Akaike信息準則)和BIC(Bayesian信息準則)。補償函數(shù)法涉及擬合所有可能的(I+1)(J+1)(K+1)(L+1)個模型,計算每一個模型的補償函數(shù),以及選出補償函數(shù)值最小的模型。選擇的I,J,K和L的取值必須足夠大以覆蓋p,q,P和Q的真值。即使必需的I=J=3和K=L=2也會產(chǎn)生出144種可能的模型來擬合。這一過程可能非常耗時,而且I,J,K,L的值也有可能太低而無法覆蓋真值模型階數(shù)。
雖然識別方法在運算上比補償函數(shù)法快,但模式識別法不能很好地確定季節(jié)AR和MA階數(shù)。本發(fā)明中的方法使用的是模式識別法,它通過使用ACF,PACF和EACF模式來確定非季節(jié)AR和MA階數(shù)。季節(jié)AR和MA階數(shù)被初始化為P=Q=1,而留到模型評估和診斷檢驗階段再修正它們。
因此,需要一種對具有單個用戶的最少輸入的數(shù)據(jù)序列精確擬合統(tǒng)計模型的系統(tǒng)和方法。進一步還需要一種更靈活與復雜的模型構造器,它使單個用戶能夠創(chuàng)建更優(yōu)模型并能用于改善以前的模型。也需要一種對創(chuàng)建的模型進行敏感性分析的系統(tǒng)和方法。
發(fā)明概要根據(jù)本發(fā)明一方面,提供一種基于一元和多元時間序列構造統(tǒng)計模型的計算機系統(tǒng)與方法。
通過不斷復雜的ARIMA統(tǒng)計建模技術,本發(fā)明的系統(tǒng)和方法允許根據(jù)過去值(一元建模)或觀察的過去值的組合連同其它時間序列(多元建模)來建立模型和預測。
在本申請中,Y(t)代表將要被預測的時間序列。
一元ARIMA模型數(shù)學上可以表示為如下形式φ(B)Φ(Bs)(1-B)d(1-Bs)DY(t)=μ+θ(B)Θ(Bs)a(t)其中自回歸(AR)多項式為非季節(jié)φ(B)=(1-1B-…-pBp),季節(jié)Ψ(Bs)=(1-Φ1Bs-···-ΦpBsp),]]>滑動平均(MA)多項式為非季節(jié)θ(B)=(1-θ1B-…-θqBq),季節(jié)Θ(BS)=(1-Θ1Bs-···-ΘQBsQ),]]>a(t)為一個白噪聲序列,s為季節(jié)長度,且B為反向移動算子,其使得BY(t)=Y(t-1)。
d與D為非季節(jié)和季節(jié)差分階數(shù),p和P為非季節(jié)和季節(jié)AR階數(shù),q和Q為非季節(jié)和季節(jié)MA階數(shù)。
該模型被表示為″ARIMA(p,d,q)(P,D,Q)″。按照ARIMA(p,d,q)(P,D,Q)模型,有時該模型為f(Y(t)),即對Y(t)的適當變換而不是Y(t)本身。在本發(fā)明中,變換函數(shù)f(.)可以是自然對數(shù)或是平方根。變換函數(shù)f(.)也稱作″方差穩(wěn)定″變換和差分″水平穩(wěn)定″變換。如果Y(t)遵循ARIMA(p,d,q)(P,D,Q)模型,那么對Y(t)進行d次非季節(jié)差分和D次季節(jié)差分后,它就變成了一個平穩(wěn)模型,表示為ARMA(p,q)(P,Q)。一些簡短的符號表示法用于特定情況,例如,非季節(jié)模型記作ARIMA(p,d,q)、季節(jié)AR模型記作AR(p)(P),而非季節(jié)AR模型記作AR(p)。
在模型確定階段,構造模型過程的第一階段,選擇適當?shù)淖儞Q函數(shù)f、差分階數(shù)d和D、AR階數(shù)p和P、MA階數(shù)q和Q。在模型評估階段,將已確定的模型與數(shù)據(jù)序列進行擬合,以便得出參數(shù)μ、{i}i=1p、{Φi}i=1P、{θi}i=1q、{Θi}i=1Q的評估。評估結果可能建議一些參數(shù)為零而應從該模型中刪除。在診斷檢驗階段,確定被選擇的模型是否與數(shù)據(jù)擬合;當該被選擇的模型與數(shù)據(jù)不擬合時,建議如何修改模型從而開始下一迭代循環(huán)。自從1976年Box與Jenkins合著的″時間序列分析,預測與控制″一書發(fā)行出版后,ARIMA模型和三階段模型建立過程開始流行起來。
當其它序列(X1(t),X2(t),...,XK(t))影響到要被預測的時間序列Y(t)時,適合采用多元模型。本發(fā)明中考慮的多元ARIMA模型實際上是Box與Jenkins合著的″時間序列分析,預測與控制″(1976)一書中的轉(zhuǎn)換函數(shù)模型。這種模型在數(shù)學上能夠表示為(1-B)d(1-BS)DY(t)=μ+Σi=1Kvi(B)(1-B)di(1-BS)DiXi(t)+N(t),]]>其中vi(B)(1-B)di(1-BS)Di是Xi(t)的轉(zhuǎn)換函數(shù)。v(B)的形式為v(B)=ω0+ω1B+···ωhBh1-δ1B-···-δrBrBb]]>其中b稱作延遲滯后,h為分子多項式的階數(shù),r為分母的階數(shù)。
N(t)為遵循零均值一元ARMA(p,q)(P,Q)模型的干擾序列。如同一元模型中的情況,Y(t)和Xi(t)可以由各自經(jīng)適當變換的形式f(Y(t))和fi(Xi(t))取代。確定多元ARIMA模型包括找出差分階數(shù)d、D;Y(t)的適當變換f(.);fi(.)以及轉(zhuǎn)換函數(shù),包括找出延遲滯后、每個Xi(t)的分子和分母的階數(shù);以及干擾序列N(t)的ARMA階數(shù)。除了確定階段和評估階段之間的相互作用更強以外,這里應用的是三階段模型構建迭代循環(huán)。
對于多元ARIMA模型,Box和Jenkins(1976)提出了一種涉及預白化技術的模型建立過程。他們的方法僅在有一個預測因子的情況下才有效在有一個以上的預測因子的情況下,則這種預白化技術是不適用的。針對這種情況,Liu和Hanssens(1982)提出了線性轉(zhuǎn)換函數(shù)(LTF)法。LTF法概括如下1. 對于“充分”大的值m,擬合模型,其形式為Y(t)=μ+Σi(ωi0+ωi1B+···ωimBm)Xi(t)+N(t),]]>以及對于s=1,初始的N(t)遵循模型AR(1);對于s>1,初始N(t)遵循模型AR(1)(1)。
2.檢查被評估的干擾序列N(t)是否穩(wěn)定。如果不穩(wěn),則差分Y與X序列。為差分的序列擬合同一模型。
3.利用每個預測因子序列的評估系數(shù),指定試用的有理轉(zhuǎn)換函數(shù),并為N(t)指定試用的ARIMA模型。
4.擬合該模型,并檢驗合適性。如果不合適,則返回到第3步。
除一些細微差別外,本發(fā)明的方法在兩個重要的方面不同于LTF方法首先,在初始模型前刪除一些預測因子序列。這使以后模型評估更容易、更精確。第二,通過一元ARIMA過程找到的Y(t)的AR和MA階數(shù)被用于初始模型中的N(t)。這避免了N(t)的模型識別,并使參數(shù)評估更精確。
根據(jù)本發(fā)明,提供一種使用計算機確定時間序列的一元ARIMA模型階數(shù)的方法。該方法包括將包括分離數(shù)據(jù)值組成的該時間序列輸入到計算機;將該時間序列的季節(jié)循環(huán)長度輸入到計算機;以及確定該時間序列是否有任何丟失的數(shù)據(jù)值。如果有任何數(shù)據(jù)值丟失,將至少一個(優(yōu)選地是所有的)嵌入的丟失值估算到該時間序列中。
對于一時間序列,假定第一值和最后值均未丟失。如果用戶有一個第一值和/或最后值丟失的序列,則通過刪除丟失的初值和末值來縮短該序列。縮短序列不是部分專家建模器系統(tǒng)當數(shù)據(jù)序列首次輸入時,它在DecisionTimeTM中執(zhí)行。這是一個慣例。在專家系統(tǒng)中,接收到的序列是縮短的序列,其中對所有丟失值都進行了估算(impute)。
確定時間序列的分離數(shù)據(jù)值以及任何估算數(shù)據(jù)值是否都是正數(shù)。如果有必要,對由正值組成的時間序列進行變換。然后確定該時間序列的差分階數(shù)。此后,構造初始ARIMA模型用于時間序列,如果有必要,根據(jù)迭代模型評估結果、診斷檢驗以及殘差的ACF/PACF,修正初始ARIMA模型,以生成修正的ARIMA模型。
根據(jù)本發(fā)明的另一方面,本發(fā)明也提供一種使用計算機確定時間序列的多元ARIMA模型的階數(shù)的方法。該方法包括將該時間序列輸入計算機;將該時間序列的季節(jié)長度輸入計算機,以及將包括數(shù)值表示的預測因子、干預以及事件中的至少一種類型輸入到計算機。由以上所描述的方法確定該時間序列的一元ARIMA階數(shù),以及確定這些類型的輸入中是否有一個或多個丟失值。刪除具有一個或多個丟失值的輸入類型。通過使用與要預測的時間序列相同的變換和差分階數(shù),對這些輸入類型進行變換與差分。根據(jù)互相關函數(shù)(CCF),可以對一些已輸入的預測因子進行進一步差分或刪除。根據(jù)為時間序列、干預和事件找出的一元ARIMA、以及剩余的預測因子,為該時間序列構造初始ARIMA模型。此后,根據(jù)迭代模型評估結果、診斷檢驗以及殘差的ACF/PACF,對初始ARIMA模型進行修正。
根據(jù)本發(fā)明的其他方面,本發(fā)明還提供包含實現(xiàn)前述方法的計算機軟件的一種計算機系統(tǒng)及非易失存貯介質(zhì)。
附圖簡要描述
圖1為根據(jù)本發(fā)明的數(shù)據(jù)處理系統(tǒng)框圖。
圖2為根據(jù)本發(fā)明的一元ARIMA建模流程圖。
圖3為根據(jù)本發(fā)明的多元ARIMA建模流程圖。
圖4為本發(fā)明的一個實施例的時間序列曲線。
圖5為本發(fā)明一個實施例的曲線。
圖6A、6B為根據(jù)本發(fā)明的多元ARIMA模型應用的曲線圖。
優(yōu)選實施例的詳細描述參見附圖,特別是圖1,其中公開了根據(jù)本發(fā)明的數(shù)據(jù)處理系統(tǒng)10的框圖。數(shù)據(jù)處理系統(tǒng)10具有由總線16連接的一個計算機處理器12和存貯器14。存貯器14是一種相對高速的機器可讀介質(zhì),該存貯器14包括如DRAM、SRAM的易失存貯器以及如只讀存貯器(ROM)、閃存(FLASH)、電可編程只讀存貯器(EPROM)、電可擦只讀存貯器(EEPROM)和磁泡存貯器的非易失存貯器。與總線16相連的還有輔助存貯介質(zhì)20、外存貯介質(zhì)22、輸出設備(如計算機顯示器24)、輸入設備(例如鍵盤(帶有鼠標)26)以及打印機28。輔助存貯介質(zhì)20包括機器可讀介質(zhì),例如硬盤驅(qū)動器、磁鼓以及磁泡存貯器。外部存貯介質(zhì)22包括機器可讀介質(zhì),如軟盤、可移動硬盤驅(qū)動器、磁帶、CD-ROM,甚至也可能是通過通信線30連接的其它計算機。圖示輔助存貯介質(zhì)20和外部存貯介質(zhì)22的區(qū)別主要是為了方便描述本發(fā)明。應該理解的是,這些部件之間實際上有功能上的重疊。根據(jù)本發(fā)明的計算機軟件和用戶程序能夠存貯在軟件存貯介質(zhì)中,例如存貯器14、輔助存貯介質(zhì)20和外部存貯介質(zhì)22中。例如,計算機軟件32的可執(zhí)行部分能夠從非易失存貯器(例如,外部存貯介質(zhì)22,二級存貯介質(zhì)20或非易失存貯器)讀出,然后直接載入易失存貯器中執(zhí)行,或者直接從非易失存貯器取出執(zhí)行,或者在載入易失存貯器之前存貯在輔助存貯介質(zhì)20上。
參見圖2,圖中提供的流程圖表示一種通過計算機用來從單個數(shù)據(jù)元素的時間序列創(chuàng)建一元ARIMA模型的算法。一元模型建立的算法包括如下基本步驟1.找出合適的變換并對時間序列進行變換;2.確定時間序列(季節(jié)與非季節(jié))的差分(I)階數(shù);3.確定時間序列的季節(jié)與非季節(jié)自回歸(AR)階數(shù);以及4.確定時間序列的滑動平均(MA)季節(jié)與非季節(jié)階數(shù)。
優(yōu)選地,ARIMA模型的按照下述順序構造。然而本領域所屬專業(yè)技術人員將意識到,統(tǒng)計建模的順序不需要按照下面討論的實施例中所描述的嚴格的順序。
在能夠為時間序列創(chuàng)建ARIMA統(tǒng)計模型前,先將時間序列Y(t)及其季節(jié)長度(或季節(jié)性周期)輸入到利用該算法的計算機程序中。下一步,檢查時間序列用以確定已輸入的時間序列是否有任何丟失值。如果時間序列有任何丟失值,則將未出現(xiàn)的值按如下方式估算到時間序列中A.估算丟失值根據(jù)序列是否具有季節(jié)模式,使用最近的鄰近值或季節(jié)鄰近值,按照線性內(nèi)插就能夠估算出丟失值。丟失值的估算如下確定是否有季節(jié)模式。
·如果s=1,則無季節(jié)模式。
·If s>1,計算序列的樣本ACF。時間序列Y(t)滯后為k的ACF計算如下ACF(k)=Σt=1n-k(Y(t)-Y‾)(Y(t+k)-Y‾)Σj=1n(Y(t)-Y‾)2,]]>其中n為序列長度,Y為序列的均值。
如果對于所有前6個滯后,ACF具有的絕對t值均大于1.6,則對時間序列進行非季節(jié)差分并計算差分序列的ACF。令m1=max(ACF(1)至ACF(k)),其中當s≤4時,k=s-1;4<s≤9時,k=s-2;當s≥10時,k=8。令m2=max(ACF(s),ACF(2s))。如果m1>m2,則認為沒有顯著的季節(jié)模式,否則具有季節(jié)模式。
季節(jié)模式的有無按如下方式進行考慮·無季節(jié)模式——使用最臨近的未丟失鄰近值,對丟失值進行線性內(nèi)插;及·存在季節(jié)模式——使用同一季節(jié)最臨近的未丟失數(shù)據(jù)對丟失值進行線性內(nèi)插。
如果有丟失值,它們在本步驟中進行估算。因此,人們可以假設從現(xiàn)在起在時間序列中沒有丟失值。如果時間序列只包括正值,則時間序列可按如下方式進行變換B.找出適合的變換優(yōu)選地,按照如下步驟找出適合的變換。對于正序列Y,在Y、log(Y)和Y的平方根上通過一般最小平方法(OLS)擬合高階AR(p)模型。比較每個模型的Y的對數(shù)似然函數(shù)。令Imax為三種模型的最大對數(shù)似然,以及Iy為Y本身模型的對數(shù)似然。如果Imax≠Iy,且(1/n)(Imax-Iy)與|(Imax-Iy)/Iy|均大于4%,則完成相應于Imax的變換。否則,無需進行變換。
選擇階數(shù)p的規(guī)則如下當s≤3時,則考慮AR(10);當4≤s≤11時,則考慮AR(14);當s≥12時,則考慮具有滯后為1至6、s至s+3、2s至2s+2的高階AR模型(如果樣本大小小于50,則丟掉大于等于2s的滯后)。
也要計算時間序列的差分階數(shù)。差分階數(shù)的確定分為兩步,(a)和(b)。步驟(a)初步確定差分階數(shù);步驟(b)進一步差分時間序列。
C.找出差分階數(shù)優(yōu)選地,按照如下步驟找出差分階數(shù)。
步驟(a)當s=1時通過一般最小二乘法擬合模型Y(t)=c+Φ1Y(t-1)+Φ2Y(t-2)+a(t)。對照表1中定義的臨界值,檢查Φ1與Φ2。如果{Φ1>C(1,1)且-Φ2>C(1,2)},則取差分(1-B)2Y(t)。否則,擬合模型Y(t)=c+ΦY(t-1)+a(t)。如果{|t(c)|<2且Φ>C(2,1)}或{|t(c)|≥2且(Φ-1)/se(Φ)>C(3,1)},則取差分(1-B)Y(t)。否則無差分。
其中s>1利用一般最小二乘法,擬合模型Y(t)=c+Φ1Y(t-1)+Φ2Y(t-s)+Φ3Y(t-s-1)+a(t)。表2中定義了臨界值C(i,j)。如果{Φ1>C(1,1)且Φ2>C(1,2)且-Φ3>C(1,1)C(1,2)},則取差分(1-B)(1-Bs)Y(t)。否則,如果Φ1≤Φ2,擬合模型Y(t)=c+ΦY(t-s)+a(t)。如果{|t(c)|<2且Φ>C(2,1)}或者{|t(c)|≥2且(Φ-1)/se(Φ)>C(3,1)},則取差分(1-BS)Y(t)。
否則,如果Φ1>Φ2,擬合模型Y(t)=c+ΦY(t-1)+a(t)。如果{|t(c)|<2且Φ>C(4,1)}或{|t(c)|≥2且(Φ-1)/se(Φ)>C(5,1)},則取差分(1-B)Y(t)。否則無差分。
步驟(b)對于步驟(a)后的數(shù)據(jù),現(xiàn)在這些數(shù)據(jù)表示為″Z(t)″。
當s=1通過條件最小二乘(CLS)法,擬合ARMA(1,1)模型(1-ΦB)Z(t)=c+(1-θB)a(t)。Ifθ>0.88且|Φ-θ|>0.12,則取差分(1-B)Z(t)。如果θ<0.88且與0.88相差得不太大(例如,如果0.88-Φ<0.03),則應該檢驗Z的ACF。如果對于所有前6個滯后,ACF具有的絕對t值都大于1.6,則取差分(1-B)Z(t)。
當s>1且未丟失Z的數(shù)量小于3s,則執(zhí)行與s=1的情況相同的處理。
當s>1且未丟失Z的數(shù)量大于或等于3s時通過CLS法,擬合ARMA(1,1)(1,1)模型(1-Φ1B)(1-Φ2Bs)Z(t)=c+(1-θ1B)(1-θ2Bs)a(t)。
如果Φ1和Φ2都大于0.88,且|Φ1-θ1|>0.12且|Φ2-θ2|>0.12,則取差分(1-B)(1-Bs)Z(t)。如果只有Φ1>0.88,且|Φ1-θ1|>0.12,則取差分(1-B)Z(t)。如果Φ1<0.88但與0.88相差不是太大(例如,如果0.88-Φ1<0.03),則應該檢驗Z的ACF。如果對于所有前6個滯后,ACF的t的絕對值都大于1.6,則取差分(1-B)Z(t)。
如果只有Φ2>0.88,而|Φ2-θ2|>0.12,則取差分(1-BS)Z(t)。
重復步驟(b),直至無需差分。
找出正確的差分階數(shù)是一個活躍的研究領域。一種廣泛采用的經(jīng)驗法涉及使用ACF曲線找出序列是否需要差分。在這種方法中,如果序列的ACF顯著且下降得很慢,則差分該序列。如果差分序列的ACF仍然顯著且下降得很慢,則再次差分該序列,直到不需要差分為止。然而由于需要以太多的滯后計算ACF,所以此方法很難用于找出季節(jié)差分。
由于其理論的合理性,引發(fā)了人們對更規(guī)范測試的濃厚興趣。例如,規(guī)范測試有增強Dickey-Fuller測試(1979),Dickey,Hasza與Fuller測試(1984),Phillips-Perron測試(1988),以及Dickey與Pantula測試(1987)。然而這些測試均不能處理多重差分和季節(jié)差分。
步驟(a)中使用的方法基于Tiao和Tsay(1983)提出的方法,他們證明了對于ARIMA(p,d,q)模型,AR(k)回歸的一般最小二乘評估(其中k>d)符合不穩(wěn)定AR系數(shù)。根據(jù)有限的樣本變化,步驟(a)從檢驗多重差分出發(fā),并將其降至單差分。此步驟應該能捕獲最常見的差分非季節(jié)序列的(1-B)2和(1-B);季節(jié)序列的(1-B)(1-Bs),(1-Bs)和(1-B)。
步驟(b)是如果步驟(a)錯過所有必要的差分時的后備步驟。
對于s=1,如表1所示,以及對于s>1,如表2所示,確定步驟(a)中使用的臨界值。
表1s=1時,臨界值C(i,j)的定義C(1,1)與C(1,2)-當真值模型為(1-B)2Y(t)=a(t)時,在擬合模型Y(t)=c+Φ1Y(t-1)+Φ2Y(t-2)+a(t)中的Φ1和-Φ2的臨界值。
C(2,1)--當真值模型為(1-B)Y(t)=a(t)時,在擬合模型Y(t)=c+ΦY(t-1)+a(t)中Φ的臨界值。
C(3.1)--當真值模型為(1-B)Y(t)=c0+a(t)時,c0≠0,在擬合模型Y(t)=c+ΦY(t-1)+a(t)中(Φ-1)/se(Φ)的臨界值。
表2s>1時,臨界值C(i,j)的定義C(1,1)和C(1,2)以及C(1,1)C(1,2)--當真值模型為(1-B)(1-BS)Y(t)=a(t)時,在擬合模型Y(t)=c+Φ1Y(t-1)+Φ2Y(t-s)+Φ3Y(t-s-1)+a(t)中Φ1、Φ2和-Φ3的臨界值。
C(2,1)--當真值模型為(1-Bs)Y(t)=a(t)時,在擬合模型Y(t)=c+ΦY(t-s)+a(t)中Φ的臨界值。
C(3.1)--當真值模型為(1-Bs)Y(t)=c0+a(t),c0≠0,在擬合模型Y(t)=c+ΦY(t-s)+a(t)中(Φ-1)/se(Φ)的臨界值。
C(4.1)--當真值模型為(1-B)Y(t)=a(t)時,在擬合模型Y(t)=c+ΦY(t-1)+a(t)中Φ的臨界值。
C(5.1)--當真值模型為(1-B)Y(t)=c0+a(t),c0≠0,在擬合模型Y(t)=c+ΦY(t-1)+a(t)中(Φ-1)/se(Φ)的臨界值。
注意1.臨界值取決于樣本大小n。
·令t(0.05,df)為具有自由度為df的5%的t-型分布。則在表1中,C(3,1)=t(0.05,n-3);表2中,C(3,1)=t(0.05,n-s-2)和C(5,1)=t(0.05,n-3)。
·對于其它臨界值,模擬n=50、100、200和300臨界值。由于臨界值近似線性依賴于1/n,這種近似關系被用于對于任意的n取得更優(yōu)的臨界值。
2.臨界值也取決于季節(jié)長度s。
僅模擬s=1、4和12的臨界值。當s>1且s不等于4和12時,根據(jù)1與s的接近,利用s=4或s=12時的臨界值。
D.初始模型非季節(jié)AR階數(shù)p和MA階數(shù)q在本步中,確定非季節(jié)AR和MA多項式的試用階數(shù),p和q。如果時間序列中存在季節(jié)性,則季節(jié)AR與MA多項式的階數(shù)取1。
使用ACF,PACF和EACF按如下方式識別p和q,其中M和K(K≤M)均為整數(shù),其值依賴于季節(jié)長度。
ACF對于第一個M的ACF,令k1為最小數(shù),以便所有ACF(k1+1)到ACF(M)均不顯著(例如,統(tǒng)計的|t|<2)。如果k1≤K,則p=0且q=k1。使用ACF的方法可能完全不識別模型。
PACF對于第一個M的ACF,令k2為最小值,以便所有PACF(k2+1)到PACF(M)均不顯著(即,統(tǒng)計的|t|<2)。如果k2≤K,則p=k2且q=0。使用PACF方法也可能完全不識別模型。
EACF對于一個M×M的EACF矩陣,采用如下過程i.檢查第一行,找出最大的階數(shù),其中一行的最大階數(shù)表示高于該階數(shù)的該行中所有的EACF均不顯著。該模型表示為ARMA(0,q0)。
ii.檢查第二行,找出最大的階數(shù)。該模型表示為ARMA(1,q1)。對每一行均如此操作,并將第i行的模型表示為ARMA(i-1,qi-1)。
iii.找出p和q值作為具有最小p+q的模型。如果由幾個模型實現(xiàn)最小p+q,因為AR參數(shù)較易于擬合,選取q值較小的一個。
在由ACF、PACF和EACF識別的模型中,選取p+q的值最小的模型。如果沒有單個模型具有最小p+q,則執(zhí)行如下步驟如果此關系涉及EACF識別的模型,則選擇該模型。如果此關系是由ACF和PACF識別的模型之間的一種雙向關系,則選取由PACF識別的模型。
E.修改模型在構造出ARIMA模型之后,優(yōu)選地,通過利用至少三個階段的修改來處理該模型,對該模型進行修改。圖2中所示的流程圖說明了模型修改中包括的階段。
修改模型的第一步是根據(jù)條件最小二乘(CLS)擬合的結果刪除不顯著的參數(shù)。根據(jù)參數(shù)的t值,這一步在迭代步驟中完成。
修改模型的第二步是根據(jù)最大似然(ML)擬合的結果刪除不顯著的參數(shù)。(ML方法比CLS方法更精確,但比CLS方法慢。)模型修改的最后階段涉及執(zhí)行診斷檢驗;如果模型沒有通過診斷檢驗的話,則需向模型添加適當?shù)捻棥?br>
在診斷檢驗中,Ljung-Box統(tǒng)計被用于執(zhí)行擬合測試的缺少。假設我們具有殘差ACF ri到rk的前K個滯后。然后,將Ljung-Box統(tǒng)計Q(K)定義為Q(K)=n(n+2)Σk=1krk2/(n-k),]]>其中n為未丟失殘差的數(shù)目。Q(K)具有自由度為K-m的近似卡方分布,其中m為模型中不是常數(shù)項的參數(shù)的數(shù)目。顯著Q(K)表示模型不充分。要確定Q(K)是否顯著,則要使用距卡方分布0.05水平的臨界值。如果Q(K)顯著,則檢驗單個殘差ACF(1)到ACF(M)。如果有足夠大的ACF(|t|>2.5),則模型需做如下修改。(K和M的取值可以是任何有理正整數(shù),優(yōu)選地是依賴于季節(jié)長度。在本發(fā)明中我們的選擇是,當s=1時,選擇K=18;s>1時,選擇K=2s;而s=1時,選擇M=K;而1<s<15時,選擇M=s-1;s≥15時,選擇M=14。)對于非季節(jié)部分,如果殘差ACF(1)到ACF(M)具有一個或多個顯著滯后(t>2.5),則向模型的非季節(jié)MA部分加入這些滯后。否則,如果殘差PACF(1)到PACF(M)具有一個或兩個顯著滯后(|t|>2.5),則向模型的非季節(jié)AR部分加入這些滯后。
對于季節(jié)部分,如果ACF(s)和ACF(2s)、或者PACF(s)和PACF(2s)均不顯著,則無需修改。否則,如果PACF(s)顯著而PACF(2s)不顯著,則向?qū)⒓竟?jié)AR加入滯后1。否則,如果ACF(s)顯著而ACF(2s)不顯著,則向季節(jié)MA加入滯后1。否則,如果PACF(s)不顯著而PACF(2s)顯著,則向季節(jié)AR加入滯后2。否則,如果ACF(s)不顯著而ACF(2s)顯著,則向季節(jié)MA加入滯后2。否則,向季節(jié)AR部分加入滯后1和2。
除ARIMA模型外,還有其它類型的模型;例如,指數(shù)平滑模型。本發(fā)明是找出“最優(yōu)”一元ARIMA模型的一種方法。如果不知道使用哪種類型的模型,可試圖找出每種類型的“最優(yōu)”模型,然后比較這些模型以找出“最優(yōu)”的總模型。然而,比較不同類型模型的困難之處在于一些模型可能有變換與/或差分,而一些模型可能沒有。在這些情況下,一些常用的準則不再適用,如貝葉斯(Bayesian)信息準則(BIC)以及赤池弘次(Akaike)信息準則(AIC)。本發(fā)明使用的是規(guī)范化的貝葉斯(Bayesian)信息準則(NBIC),它適用于比較不同變換和不同差分階數(shù)的模型。NBIC定義為NBIC=ln(MSE)+kln(m)m,]]>其中,k為模型中參數(shù)的數(shù)目,m為未丟失殘差的數(shù)目,而MSE為平均二乘誤差,定義為MSE=1m-kΣt(e^(t))2,]]>其中,和為總的未丟失殘差e^(t)=Y(t)-Y^(t),,]]>Y(t)為最初的未變換和未差分序列,并且 為單步前預測值。這里,NBIC中的MSE是最初序列的MSE,而不是經(jīng)變換或差分后的數(shù)據(jù)。當序列差分時,得到的序列要比最初的序列短。因此,需要進行規(guī)范化。所以通過使用最初序列的MSE以及有效序列長度的劃分,不同變換和差分階數(shù)的模型就能夠相互比較了。最初序列的最大似然函數(shù)可以用于替換NBIC定義中的MSE,并且在某些場合中可能更加精確。然而,MSE的計算更容易而且依我們的經(jīng)驗它也很有效。
現(xiàn)在參照圖3,由計算機用于構建多元統(tǒng)計ARIMA模型的算法被示為流程圖,它也可稱作轉(zhuǎn)換函數(shù)或分布-滯后模型。多元ARIMA模型構建過程包括1.找出Y(t)的適合變換及預測因子;2.找出干擾序列的ARIMA模型;以及3.找出每一個預測因子的轉(zhuǎn)換函數(shù)。
首先,該過程包括通過圖2中描述的一元ARIMA模型構造過程,首先找出Y(t)的一元ARIMA模型。將由一元過程找到的變換應用于所有正的序列,其中包括要預測的序列以及預測因子。將一元過程找出的ARIMA階數(shù)用作干擾序列的初始模型。然后,執(zhí)行一系列操作以找出每一個預測因子的轉(zhuǎn)換函數(shù)。細節(jié)說明如下A.找出Y(t)的一元ARIMA模型使用一元ARIMA模型構造過程識別Y(t)的一個一元ARIMA模型。在本步驟中,完成以下操作。
·如果有任何丟失值的話,估算Y(t)的所有丟失值。
·如果需要,對Y(t)進行變換。
·找出差分階數(shù)d和D,并對Y(t)做相應的差分。
·找出AR與MA階數(shù)。
當s>1時,如果在找到的Y(t)一元ARIMA模型中沒有季節(jié)模式,則從現(xiàn)在起,將按s=1處理此情況。
如果Y(t)經(jīng)過變換,則對所有正預測因子進行相同的變換。如果Y(t)經(jīng)過差分,則對所有的預測因子、所有干預以及所有事件進行相同的差分。
B.刪除與差分預測因子對于每一個預測因子Xi(t),對k=0到12計算CCF(k)=Corr(Y(t),Xi(t-k))。如果對于某些Xi(t),CCF(0)至CCF(12)中沒有一個是顯著的(|t|≥2),則利用一元過程,找出序列Xi(t)的非季節(jié)和季節(jié)的差分階數(shù),將其稱為di,Di。將di與Di與0比較,并執(zhí)行如下操作·如果di=0且Di=0,則丟掉模型中的Xi(t)。
·如果di>0且Di=0,取差分(1-B)diXi(t)。
·如果di>0且Di>0,取差分(1-B)DiXi(t)。
·如果di>0且Di>0,取差分(1-B)di(1-B)DiXi(t)。
如果在最后計算CCF之后對Xi(t)差分,則再次計算k=0到12的CCF(k)。如果CCF(0)到CCF(12)中沒有一個是顯著的(|t|≥2),則丟掉模型中的Xi(t)。
每次差分Xi(t)時,均檢驗它是否變?yōu)椴蛔冃蛄小H绻罘趾笮蛄胁辉僮兓?,則從模型中刪除它。
C.構造初始模型對于經(jīng)適當變換和差分的序列Y、Xs和Is,初始模型為Y(t)=c+Σi(Σj=0mωijBj)Xt(t)+ΣkβkIk(t)+N(t)]]>其中∑i是對所有預測因子序列求和,∑k是對所有干預與事件序列求和,噪聲序列N(t)的均值為0并遵循具有為Y(t)找出的一元ARIMA模型完全一樣的AR與MA階數(shù)的ARMA模型。m的取值可以選擇為任意有理整數(shù),其足夠大而允許找出延遲的滯后和確定模式,而優(yōu)選的是根據(jù)季節(jié)長度。在本發(fā)明中,值m的選取方式如下·對于s=1,m=8.
·對于s>1,m=s+3.(如果s+3>20,取m=20.)·當參數(shù)的總數(shù)大于樣本大小的一半時,則降低階數(shù)m的大小,以便參數(shù)的總數(shù)小于樣本大小的一半。
N(t)稱為干擾序列。為了在非干擾部分獲得參數(shù)的可靠評估,需要N(t)的合理模型。因為認為Y(t)的模型涵蓋了N(t)的模型,所以本發(fā)明的方法使用為適當變換和差分的Y(t)而找到的一元ARMA模型作為N(t)的初始模型。因此,ω′s的參數(shù)評估值更好,從而能夠用于做出更可信的決定。此外,同其它方法不同的是,N(t)的一般模型不需要進一步進行N(t)的模型識別。
D.找出每個預測因子的延遲滯后、分子與分母其實現(xiàn)過程如下。對于每一個預測因子Xi(t),執(zhí)行下述操作·如果僅有一個或兩個ωij項(例如,ωij0和ωij1)是顯著的(|t|≥2),則不需要分母,而延遲滯后為j0,分子為ωij0+ωij1Bji-j0.]]>
·如果兩個以上的ωij項顯著,假定ωij0是第一個顯著項,則延遲滯后為j0,分子為ωij0+ωi(j0+1)B+ωi(j0+2)B2,分母為1-δi1B-δi2B2。
本發(fā)明的方法被實現(xiàn)在商用軟件SPSS DecisionTimeTM專家建模器中。圖4到6A、6B取自商用軟件SPSS DecisionTimeTM。
示例1構造國際航線乘客數(shù)據(jù)的一元ARIMA模型在本例中,序列為從1949年1月到1960年12月期間旅行的國際航線乘客的月度總數(shù)。如圖4所示,其中y軸代表乘客數(shù)(單位為千),x軸顯示年和月份。
Box與Jenkins(1976)研究了該序列,并發(fā)現(xiàn)需要進行對數(shù)變換。他們?yōu)樵搶?shù)變換序列確定(0,1,1)(0,1,1)模型。因此,對數(shù)變換序列的模型(0,1,1)(0,1,1)稱作“航線”模型。將國際航線乘客月度總數(shù)作為要預測的輸入時間序列,而將“12”作為輸入季節(jié)循環(huán),本發(fā)明的方法為這種序列找出了相同的模型。圖5示出利用所示的模型連同輸入時間序列的預測值。圖中顯示了在1960年12月(12/60)序列結束后為期一年的預測的未來值??梢钥闯鲈撃P蛯斎霑r間序列擬合得很好。
示例2構造服裝銷售的多元ARIMA模型如圖6A與6B所示,為預測男式和女式服裝目錄銷售而構造的一個多元ARIMA模型。數(shù)據(jù)集由模擬和原始數(shù)據(jù)組成,它包括從1989年1月到1998年12月期間目錄公司每月銷售的男士與女士服裝情況??赡軡撛诘赜绊戜N售的預測因子有5個,包括(1)郵寄的目錄的數(shù)目,稱為“郵件”;(2)目錄中的頁數(shù),稱為“頁面”;(3)用于訂貨的電話線路數(shù)目,稱為“電話”;
(4)印刷廣告所花費的金額,稱為“印刷”;以及(5)客戶服務代表的數(shù)目,稱為″服務″。
其它考慮因素還包括1995年6月發(fā)生的罷工(″罷工″)、1997年9月的印刷事故(″事故″)以及分別于1989年3月、1991年6月、1992年2月、1993年5月、1994年9月、1995年1月、1996年4月和1998年8月舉行的促銷活動“促銷”。促銷被當作了事件處理;罷工和事故可作為事件或干預來處理。
使用所有這5個預測因子和3個事件,從該數(shù)據(jù)集構造出了兩個模型——一個用于男士服裝銷售(圖6A中表示為″男″)以及一個用于女士服裝的銷售(圖6B中表示為“女”)。
男裝的銷售僅受郵件、電話、罷工、事故和促銷影響。與之不同,女裝的銷售受郵件、印刷、服務、罷工、事故和促銷影響。
通過排除1998年7月到1998年12月的數(shù)據(jù),并使用余下的數(shù)據(jù)構造模型,然后使用新的模型預測最初被排除的數(shù)據(jù),對模型的有效性進行了測試。圖6A,B顯示排除數(shù)據(jù)的預測與實際數(shù)據(jù)匹配得非常好。
雖然本發(fā)明針對特定優(yōu)選實施例進行了描述,如同本領域技術人員所意識到的那樣,可以理解的是,本發(fā)明能夠進行多種變化、修改和重新調(diào)整。這些變化、修改和重新調(diào)整都在隨后的權利要求范圍之內(nèi)。
權利要求書(按照條約第19條的修改)30.如權利要求28的非易失存貯介質(zhì),其中變換該時間序列的計算機指令組包括執(zhí)行水平穩(wěn)定變換的計算機指令。
31.如權利要求28的非易失存貯介質(zhì),其中變換該時間序列的計算機指令組包括執(zhí)行方差穩(wěn)定變換和水平穩(wěn)定變換的計算機指令。
32.一種使用計算機創(chuàng)建時間序列的一元ARIMA模型的方法,其中該時間序列的分離數(shù)據(jù)值、季節(jié)循環(huán)和季節(jié)長度均輸入到所述計算機中,該方法包括當任何數(shù)據(jù)值從該時間序列中丟失時,估算至少一個丟失值;當該時間序列僅包含正數(shù)據(jù)值時,變換該時間序列;確定該時間序列的差分階數(shù);通過確定非季節(jié)AR和MA階數(shù),構造該時間序列的初始ARIMA模型;以及修改該初始ARIMA模型。
33.如權利要求32的方法,其中所述估算進一步包括確定在該時間序列中季節(jié)模式的存在;34.一種使用計算機創(chuàng)建時間序列的多元ARIMA模型的方法,其中該時間序列的分離數(shù)據(jù)值、季節(jié)循環(huán)和季節(jié)長度均被輸入到所述計算機中,該方法包括a)將包括由數(shù)據(jù)值表示的預測因子、干預和事件中至少一種類型輸入到該計算機;b)確定該時間序列的一元ARIMA階數(shù);c)除去具有至少一個丟失值的預測因子;d)如果步驟b)中該時間序列被變換并且所述預測因子僅包括正的數(shù)據(jù)值,則對該預測因子進行變換;e)如果步驟b)中該時間序列被差分,則對所述的預測因子、干預和事件差分;
f)根據(jù)為時間序列、干擾和事件得出的一元ARIMA、以及剩余預測因子,建立該時間序列的初始ARIMA模型;以及g)修改初始ARIMA模型。
35.如權利要求34的方法,其中,所述確定一元ARIMA模型進一步包括當從該時間序列丟失任何數(shù)據(jù)值時,估算至少一個丟失數(shù)據(jù)值;當該時間序列僅包括正的數(shù)據(jù)值時變換該時間序列;確定該時間序列的差分階數(shù)以及確定AR和MA的階數(shù)。
36.如權利要求35的方法,其中所述變換該時間序列進一步包括利用一般最小平方法對該時間序列、該時間序列的對數(shù)以及該時間序列的平方根擬合高階AR(p)模型。
權利要求
1.一種利用計算機確定時間序列的一元ARIMA(自回歸求和滑動平均)模型的方法,該方法包括將包括分離數(shù)據(jù)值的該時間序列輸入到所述計算機;將該時間序列的季節(jié)循環(huán)輸入到該計算機;確定該時間序列是否有任何丟失數(shù)據(jù)值;如果丟失任何數(shù)據(jù)值,則將這些丟失值的至少一個估算到該時間序列中;確定該時間序列的分離數(shù)據(jù)值以及任何估算數(shù)據(jù)值是否都是正數(shù);如果這些數(shù)據(jù)值均為正,確定是否需要進行對數(shù)或平方根變換;如果需要變換,則對包括正的分離數(shù)據(jù)值和任何正的估算值的時間序列進行變換;確定該時間序列的差分階數(shù);確定非季節(jié)AR(自回歸)和MA(滑動平均)階數(shù);根據(jù)先前確定的差分階數(shù)、AR和MA階數(shù)構造一個初始ARIMA模型;以及根據(jù)迭代模型評估結果、診斷檢驗以及殘差的ACF/PACF(自相關函數(shù)/部分自相關函數(shù)),修改該初始ARIMA模型。
2.如權利要求1的方法,其中變換該時間序列包括方差穩(wěn)定變換。
3.如權利要求1的方法,其中變換該時間序列包括水平穩(wěn)定變換。
4.如權利要求1的方法,其中變換該時間序列包括方差穩(wěn)定變換和水平穩(wěn)定變換。
5.如權利要求1的方法,其中確定非季節(jié)AR和MA階數(shù)包括利用ACF(自相關函數(shù))、PACF(部分自相關函數(shù))、和EACF(廣義自相關函數(shù))。
6.一種在優(yōu)化指數(shù)平滑模型和優(yōu)化ARIMA模型之間確定最優(yōu)化一元模型的方法,包括為優(yōu)化指數(shù)平滑模型和ARIMA模型之每一個計算一個NBIC(規(guī)范化的貝葉斯信息準則)值;以及選擇優(yōu)化指數(shù)平滑模型和ARIMA模型中的一個作為最優(yōu)化一元模型;所述選擇的模型具有最小的NBIC。
7.如權利要求6的方法,該方法進一步包括通過消除由于變換和差分產(chǎn)生的影響來計算出一個修訂NBIC值,該修訂NBIC值使指數(shù)平滑與一元ARIMA模型是可比的。
8.一種利用計算機確定時間序列的多元ARIMA模型的階數(shù)的方法,該方法包括將該時間序列輸入該計算機;將該時間序列的季節(jié)長度輸入到該計算機;將包括由數(shù)字值表示的預測因子、干預和事件的至少一個類型輸入到該計算機;確定輸入到該計算機的該時間序列的一元ARIMA階數(shù);確定這些類型的輸入是否具有一個或多個丟失值;除去具有任何丟失值的類型;使用與應用于輸入的時間序列上之相同變換,對正的輸入類型進行變換;使用與應用于輸入的時間序列上之相同的差分階數(shù),對輸入類型進行差分;如果有必要,對某些輸入類型做進一步的差分;根據(jù)為時間序列、干擾和事件得出的一元ARIMA模型、以及剩余的預測因子,為該時間序列建立一個初始ARIMA模型;以及根據(jù)迭代模型評估結果、診斷檢驗以及殘差的ACF/PACF,修改該初始ARIMA模型。
9.如權利要求8的方法,其中變換該時間序列包括方差穩(wěn)定變換。
10.如權利要求8的方法,其中變換該時間序列包括水平穩(wěn)定變換。
11.如權利要求8的方法,其中變換該時間序列包括方差穩(wěn)定變換和水平穩(wěn)定變換。
12.如權利要求8的方法,其中對輸入類型做進一步差分的步驟包括(a)對于每一個所述預測因子,計算已差分預測因子以及已輸入的差分時間序列之間的互相關函數(shù)(CCF);及(b)找出進一步差分階數(shù),并對其中那些具有不顯著CCF的預測因子的類型做進一步差分。
13.如權利要求8的方法,該方法進一步包括(a)構造初始模型前,刪除適當差分的預測因子與輸入的適當差分時間序列之間CCF不顯著的任何預測因子;以及(b)構造初始模型后,刪除具有全部不顯著評估系數(shù)的預測因子,其中每個模型評估之后,所述的預測因子每次被刪除一個。
14.如權利要求8的方法,其中構造初始模型的步驟包括指定帶有AR和MA階數(shù)的初始ARMA模型,所述AR和MA階數(shù)是為輸入干擾序列的時間序列而得出的。
15.如權利要求8的方法,該方法進一步包括將一些預測因子的轉(zhuǎn)換函數(shù)變成具有非空分母的一個有理形式。
16.一種確定時間序列的一元ARIMA模型的階數(shù)的數(shù)據(jù)處理系統(tǒng),該系統(tǒng)包括一個計算機處理器;以響應方式連接到所述計算機處理器的存貯器,該存貯器包含(a)用于接受輸入到存貯器中的、包括分離數(shù)據(jù)值的時間序列的數(shù)據(jù)的一組計算機指令;(b)用于接受該時間序列的、輸入到存貯器中的季節(jié)數(shù)據(jù)的一組計算機指令;(c)確定該時間序列是否具有任何丟失數(shù)據(jù)值的一組計算機指令;(d)將這些丟失值的至少一個估算到該時間序列中的一組計算機指令;(e)確定該時間序列的分離數(shù)據(jù)值以及任何估算數(shù)據(jù)值是否都是正數(shù)的一組計算機指令;(f)對包括正分離數(shù)據(jù)值和任何正的估算值的時間序列進行變換的一組計算機指令;(g)確定該時間序列的差分階數(shù)的一組計算機指令;(h)根據(jù)先前確定的差分階數(shù)以及AR和MA階數(shù)、構造該時間序列的初始ARIMA模型的一組計算機指令;以及(i)根據(jù)迭代模型評估結果、診斷檢驗以及殘差的ACF/PACF,修正初始ARIMA模型的一組計算機指令。
17.如權利要求16的數(shù)據(jù)處理系統(tǒng),其中變換該時間序列的計算機指令組包括執(zhí)行方差穩(wěn)定變換的計算機指令。
18.如權利要求16的數(shù)據(jù)處理系統(tǒng),其中變換該時間序列的計算機指令組包括執(zhí)行水平穩(wěn)定變換的指令。
19.如權利要求16的數(shù)據(jù)處理系統(tǒng),其中變換時間序列的計算機指令組包括執(zhí)行方差穩(wěn)定變換和水平穩(wěn)定變換的計算機指令。
20.一種包含計算機軟件的非易失存貯介質(zhì),該計算機軟件以機器可讀格式編碼、用于確定時間序列的一元ARIMA模型的階數(shù),該介質(zhì)包括(a)用于接受輸入到存貯器中的、包括分離數(shù)據(jù)值的時間序列的數(shù)據(jù)的一組計算機指令;(b)用于接受該時間序列的、輸入到存貯器中的季節(jié)數(shù)據(jù)的一組計算機指令;(c)確定該時間序列是否具有任何丟失數(shù)據(jù)值的一組計算機指令;(d)將這些丟失值的至少一個估算到該時間序列中的一組計算機指令;(e)確定該時間序列的分離數(shù)據(jù)值以及任何估算數(shù)據(jù)值是否都是正數(shù)的一組計算機指令;(f)對包括正分離數(shù)據(jù)值和任何正的估算值的時間序列進行變換的一組計算機指令;(g)確定該時間序列的差分階數(shù)的一組計算機指令;(h)根據(jù)先前確定的差分階數(shù)以及AR和MA階數(shù)、構造該時間序列的初始ARIMA模型的一組計算機指令;以及(i)根據(jù)迭代模型評估結果、診斷檢驗以及殘差的ACF/PACF,修正初始ARIMA模型的一組計算機指令。
21.如權利要求20的非易失存貯介質(zhì),其中轉(zhuǎn)換該時間序列的計算機指令組包括執(zhí)行方差穩(wěn)定變換的計算機指令。
22.如權利要求20的非易失存貯介質(zhì),其中轉(zhuǎn)換該時間序列的計算機指令組包括執(zhí)行水平穩(wěn)定變換的計算機指令。
23.如權利要求20的非易失存貯介質(zhì),其中轉(zhuǎn)換該時間序列的計算機指令組包括執(zhí)行方差穩(wěn)定變換和水平穩(wěn)定變換的計算機指令。
24.一種確定時間序列的多元ARIMA模型的階數(shù)的數(shù)據(jù)處理系統(tǒng),該系統(tǒng)包括一個計算機處理器;以響應方式連接到所述計算機處理器的存貯器,該存貯器包括(a)接受輸入到存貯器中、包括分離數(shù)據(jù)值的時間序列的數(shù)據(jù)的一組計算機指令;(b)接收該時間序列的季節(jié)數(shù)據(jù)之輸入的一組計算機指令;(c)接收包括由數(shù)字值表示的預測因子、干預和事件的至少一種類型的一組計算機指令;(d)確定輸入到該計算機的該時間序列的一元ARIMA模型的一組計算機指令;(e)確定這些類型的輸入是否具有一個或多個丟失值的一組計算機指令;(f)除去具有任何丟失值的那些類型的一組計算機指令;(g)變換已輸入類型的一組計算機指令;(h)確定這些已輸入類型的至少一個的差分階數(shù)的一組計算機指令;(i)根據(jù)先前確定的差分階數(shù)以及AR和MA階數(shù)、構造該時間序列的初始多元ARIMA模型的一組計算機指令;以及(j)根據(jù)迭代模型評估結果、診斷檢驗以及殘差的ACF/PACF、修改該初始多元ARIMA模型的一組計算機指令。
25.如權利要求24的數(shù)據(jù)處理系統(tǒng),其中轉(zhuǎn)換該時間序列的計算機指令組包括執(zhí)行方差穩(wěn)定變換的計算機指令。
26.如權利要求24的數(shù)據(jù)處理系統(tǒng),其中轉(zhuǎn)換該時間序列的計算機指令組包括執(zhí)行水平穩(wěn)定變換的計算機指令。
27.如權利要求24的數(shù)據(jù)處理系統(tǒng),其中轉(zhuǎn)換該時間序列的計算機指令組包括執(zhí)行方差穩(wěn)定變換和水平穩(wěn)定變換的計算機指令。
28.一種包含計算機軟件的非易失存貯介質(zhì),該計算機軟件以機器可讀格式編碼,用于利用計算機來確定時間序列的多元ARIMA模型的階數(shù),該介質(zhì)包括(a)接受輸入存貯器中、包括分離數(shù)據(jù)值的該時間序列的數(shù)據(jù)的一組計算機指令;(b)接受該時間序列的季節(jié)數(shù)據(jù)之輸入的一組計算機指令;(c)接受包括數(shù)字值表示的預測因子、干預和事件的至少一種類型的一組計算機指令;(d)確定輸入到該計算機的該時間序列的一元ARIMA模型的一組計算機指令;(e)確定這些類型的輸入是否具有一個或多個丟失值的一組計算機指令;(f)除去具有任何丟失值的那些類型的一組計算機指令;(g)變換已輸入類型的一組計算機指令;(h)確定這些已輸入類型之至少一種的差分階數(shù)的一組計算機指令;(i)根據(jù)先前確定的差分階數(shù)以及AR和MA階數(shù)、構造時間序列的初始多元ARIMA模型的一組計算機指令;以及(j)根據(jù)迭代模型評估結果、診斷檢驗以及殘差的ACF/PACF、修改該初始多元ARIMA模型的一組計算機指令。
29.如權利要求28的非易失存貯介質(zhì),其中變換該時間序列的計算機指令組包括執(zhí)行方差穩(wěn)定變換的計算機指令。
30.如權利要求28的非易失存貯介質(zhì),其中變換該時間序列的計算機指令組包括執(zhí)行水平穩(wěn)定變換的計算機指令。
31.如權利要求28的非易失存貯介質(zhì),其中變換該時間序列的計算機指令組包括執(zhí)行方差穩(wěn)定變換和水平穩(wěn)定變換的計算機指令。
全文摘要
提供一種方法和計算機系統(tǒng)用于為時間序列自動構造時間序列模型(圖2)。該模型可以是一元或多元ARIMA模型,這取決于除該時間序列以外,系統(tǒng)中是否輸入預測因子、干預或者事件。構造一元ARIMA模型的方法包含步驟輸入相應時間序列的丟失值;為正時間序列找出合適的變換;確定差分階數(shù);通過模式檢測來確定非季節(jié)AR和MA階數(shù);構造初始模型;以及迭代地評估和修正模型。構造多元模型的方法包含步驟找出該時間序列的一元ARIMA模型;將一元模型中找出的變換應用到包括將要預測的序列、預測因子在內(nèi)的所有正時間序列;將一元模型中找出的差分階數(shù)應用到包括將要預測的序列、預測因子、干預和事件在內(nèi)的所有時間序列中;刪除選定的預測因子并進一步差分其它預測因子;構造初始模型,其中它的干擾序列遵循具有一元模型中找到的AR和MA階數(shù)的ARIMA模型;以及迭代地評估與修正該模型。
文檔編號G06F17/17GK1662876SQ01821857
公開日2005年8月31日 申請日期2001年11月8日 優(yōu)先權日2000年11月9日
發(fā)明者方東平, 瑞·S·蔡 申請人:Spss公司