亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于新型隨機分形理論的動態(tài)數據挖掘方法與流程

文檔序號:12786717閱讀:533來源:國知局
一種基于新型隨機分形理論的動態(tài)數據挖掘方法與流程

本發(fā)明屬于非線性動力學、分形行為及時間序列建模與分析理論在大數據中的動態(tài)數據挖掘應用技術領域,尤其涉及一種基于新型隨機分形理論的動態(tài)數據挖掘方法。



背景技術:

識別時間序列的分形行為是動態(tài)數據挖掘中最具挑戰(zhàn)性的問題之一。典型的隨機分形行為包括統(tǒng)計自相似性、冪律、及長記憶性(即長程相關性),這些行為廣泛發(fā)生在自然、醫(yī)學、生態(tài)、水利、工程、網絡、經濟及金融等復雜系統(tǒng)。發(fā)現自相似序列、增長或縮短長相關程度等方法帶來各種用途。例如,自相似在網絡流量、股市動態(tài)、生理信號等許多領域有著重要應用。股票收益長記憶性意味著股價波動具有一種持久性或長期依賴性,對資產定價模型的效力具有潛在的重要影響,因而增長股市收益長記憶性具有重大經濟價值。

分形數據挖掘利用數據集分形維數的意義對數據集進行挖掘,目前在分形維數在特征屬性選擇、聚類、關聯(lián)規(guī)則、分類和預測等方向上,在網絡數據挖掘、金融數據分析、地理信息挖掘等領域中有一定的應用。分形數據挖掘技術面臨諸多挑戰(zhàn),比如如何判斷數據集具有分形特征、如何快速計算數據集的分形維數、如何在計算機上模擬實現、如何解釋數據集分形維數的實際意義等。這些問題主要歸因于分形維數自身,包括1)分形維數作為普適的復雜性標度律被引進,然而它即不是一個合格的標定律,又不能確定一個分形模式。分形維數有很多定義方式,如豪斯道夫維數、信息維數、關聯(lián)維數、相似維數、容量 維數、多重分形譜、填充維數、分配維數、李雅普洛夫指數、集團維數、質量維數、微分維數、布里格維數、模糊維數、廣義維數等。同一對象的分形維數估計值可以由于計算方法不同而不同,相同的分形維數可以對應不同的分形模式。2)分形維數的難以估計導致無法快速計算數據集的分形維數。大多通過統(tǒng)計或近似的方法得到,例如計算最常用的豪斯多夫維數,一般要通過計盒維數估計到它的一個上界和通過局部維數估計到它的一個下界。3)經典的分形過程如離散的分形布朗運動,它的不可迭代性使得難于在計算機上實現模擬。4)分形維數與分形行為之間,無論是解析關系還是直觀關系都不清楚,阻礙了分形方法參與精確建模,像對石油儲層裂縫這樣的分形現象的精細描述還依然是石油地質界未能完全解決的世界性難題。分形維數被編入經典的時間序列模型試圖實現精確建模,但是又帶來新的問題,例如經典的ARFIMA分形過程建模需要計算非常大的樣本逆矩陣。5)分形維數作為標度律沒有明確的物理意義,所以無法提供關于分形行為及其相關現象的成因。例如無法解釋為什么新興市場普遍存在長記憶性,而像美國那樣的國際性市場卻不存在顯著的長記憶性的現象。

識別時間序列的生成機制是動態(tài)數據挖掘的最高宗旨。利用數據生成機制可望揭示動態(tài)特征的形成和控制機制、以及對未來的數據進行推斷和預測。然而現有的動態(tài)數據和分形數據挖掘方法不提供數據集的生成過程。許多模型如時間序列ARMA和ARCH模型,技術如模糊建模、神經網絡、遺傳算法、數學優(yōu)化及自組織法,被用于提取動態(tài)數據中有用信息,通常得出結果,而不能解釋結果,更不提供數據集的生成過程。另一方面,動態(tài)特征和分形行為與觀察尺度密切相關,過小的觀察尺度會影響完整地反映數據生成機制,過大的觀察尺度會因為樣本的時間跨度過大,使得無法收集到足夠反映系統(tǒng)的樣本數,或者導致資源浪費和因為時效失去數據價值。因此識別足夠反映復雜系統(tǒng)的動態(tài) 特征和分形行為的最小觀察尺度的生成過程將產生重大價值。例如水文尺度問題就被列入21世紀水文學基礎研究的前沿課題。從目前學術研究或專利來看,尚無基于物理學原理從系統(tǒng)入手導出的模型被用于非線性動態(tài)特征和隨機分形行為的方法和技術。近年、通過牛頓運動第二定律在一類隨機自律恢復調節(jié)系統(tǒng)的應用、然后經過離散化,導出一類非線性自回歸整合(NLARI)過程。這類具有自律恢復調節(jié)的系統(tǒng)也稱隨機彈性系統(tǒng)廣泛地存在于自然、生態(tài)、醫(yī)學、工程、經濟和社會等許多實際系統(tǒng)中。NLARI過程可以被特定如下:

讓Yt=Xtt,方程(1)可被改寫為

在那里

其中ω表示外部擾動的期待值,σ表示外部擾動的標準差,εt為標準方差σ的高斯白噪音,α是阻力系數,β是恢復力系數,κ1是在阻力上的時間滯后,κ2是在恢復力上的時間滯后。當σ=0或對所有時間t有εt=0,方程(2)是一個確定性系統(tǒng),相對恢復力系數γ控制了該系統(tǒng)的穩(wěn)定性與分岔:作為κ2=1,它是一個漸近穩(wěn)定的零不動點在0<γ<1,一個漸近穩(wěn)定的二周期環(huán)在一個不穩(wěn)定的二周期環(huán)在 注意這里的穩(wěn)定性是局部而不是全局穩(wěn)定。當γ=0,NLARI過程退化 為一個線性的自回歸整合ARI(2,1)過程。本發(fā)明將基于NLARI模型的動力學特征和統(tǒng)計性質發(fā)展一種新型的分形理論,從而導出識別時間序列的不同分形水平及其控制和生成機制的方法。

綜上所述,現有技術中除了傳統(tǒng)的技術外還包括新穎的數據流挖掘、分形數據挖掘、聯(lián)機分析挖掘、經驗模態(tài)分解、聯(lián)系發(fā)現、趨勢分析、偏差分析等,通過統(tǒng)計學和數學算法如模糊建模、神經網絡、遺傳算法、優(yōu)化、自組織法等方法,在屬性約簡、分類、聚類、關聯(lián)規(guī)則、序列模式、預測、離群點分析、空間數據分析等方向上有了一定的應用。很多方面還停留在對傳統(tǒng)靜態(tài)方法的改進上,面臨諸多問題。動態(tài)數據挖掘技術只提供結果,不能解釋結果,不提供數據集的生成過程。分形數據挖掘面臨難于估計分形維數、建模分形過程、在計算機上實現模擬,不能揭示分形成因、控制機制和實際意義的困難。而且多數分形維數之間的關系、分形維數與分形行為的關系、分形維數與動態(tài)模式的關系都不明確。這些問題影響了分形數據挖掘。為了徹底解決分形數據挖掘問題,本發(fā)明將基于NLARI模型建立的一個新的隨機分形理論;證明非線性動態(tài)特征和分形行為分別作為同一復雜系統(tǒng)的內生結構性質和系統(tǒng)對外部擾動的響應性質;提供同時識別數據集的自相似性冪律和長記憶性的分形行為、穩(wěn)定不動點穩(wěn)定及不穩(wěn)定周期環(huán)的非線性動態(tài)特征、以及它們的控制參數的方法;提供足夠反映復雜系統(tǒng)的動態(tài)特征和分形行為的最小觀察尺度和生成過程的方法。



技術實現要素:

本發(fā)明的目的在于提供一種基于新型隨機分形理論的動態(tài)數據挖掘方法,旨在解決過小和過大的觀察尺度不僅影響完整反映數據生成機制,還會帶來樣 本數少,資源浪費,數據因時效失去價值;傳統(tǒng)時間序列模型提取動態(tài)數據中,不能解釋結果,不能提供數據生成過程的問題。

本發(fā)明是這樣實現的,一種基于新型隨機分形理論的動態(tài)數據挖掘方法,所述基于新型隨機分形理論的動態(tài)數據挖掘方法通過加聚時間序列即放大觀察尺度來改變NLARI的分形斜率指數參數和波幅指數參數,識別長記憶性、自相似性、兼有長記憶性和自相似性的不同分形水平的最小聚集度的時間序列生成過程和動力學特征。

進一步,通過控制時間序列的聚集度來識別不同分形水平和動力學特征的時間序列生成過程;具體包括:

步驟一,數據絕對值縮小化處理,記為X=(Xt:t=1,…,T);

步驟二,使用X計算最小二乘法回歸直線使用及

ΔYt=Yt-Yt-1,對作最小二乘法估計獲得參數估值記Y=(Y′10,…,Y′1t,…,Y′1T-1)′,s11和s22分別表示矩陣的第一行第一列的元素和第二行第二列的元素;

步驟三,計算θ1的置信區(qū)間其中是t分布在置信水平的臨界值以及歸無假說γ=0的統(tǒng)計量如果θ1的置信區(qū)間被包含在區(qū)間(-1,1)內并且歸無假說γ=0被拒絕、接受對立假說γ>0的話,則證據支持數據來自NLARI過程,執(zhí)行步驟四,否則對j=j+1(初值j=1),計算j重聚集時間序列Xj,記為X=Xj,執(zhí)行步驟二;如果循環(huán)時間序列到不能繼續(xù)被聚集,輸出結果X是一個非NLARI過程或一個具有γ=0的退化ARI(2,1)過程,退出分析;

步驟四,記j1=j,讓執(zhí)行分形識別,獲得j2重聚集序列分形度為(δ1,k,δ2,k),記為或無分形

步驟五,對和分別執(zhí)行步驟二獲得θ1的置信區(qū)間θ2的置信區(qū)間以及γ的置信區(qū)間其中如果θ1,θ2,γ的置信區(qū)間被包含在區(qū)間(-1,1),(0,4),(0,1)內,則證據支持X來自穩(wěn)定不動點域上的NLARI過程;如果θ1,θ2,γ的置信區(qū)間被包含在區(qū)間內,則證據支持X來自穩(wěn)定周期環(huán)域上的NLARI過程;如果θ1,θ2,γ的置信區(qū)間被包含在區(qū)間 內,則證據支持X來自不穩(wěn)定周期環(huán)域上的NLARI過程;否則X來自臨界值上的NLARI過程;輸出具有這些動態(tài)特征的分形序列 和無分形序列包括模型參數作為結論。

進一步,識別不同長記憶水平的最小聚集度時間序列方法,包括:

1)選定一個正值遞減序列δ1,k,設初值k=j=1和X1=X;

2)計算第j重聚集時間序列Xj;

3)計算Xj的樣本自相關系數ρn作為n=1,…,N和LM(Xj);如果LM(Xj)<δ1,k,則執(zhí)行步驟4),否則對j=j+1執(zhí)行步驟2),當循環(huán)到時間序列不能繼續(xù)被聚集時輸出結果最小聚集度的長記憶性時間序列Xj-11,k-1)及模型參數在那里Xj1,0)意味著原時間序列無長記憶性;

4)如果k<K,則令j=1和k=k+1,執(zhí)行步驟2),否則輸出結論最小聚集度的長記憶性時間序列Xj1,K)及模型參數。

進一步,識別不同自相似水平的最小聚集度時間序列方法,包括:

A、選定一個正值遞減序列δ2,k,設初值k=j=1和X1=X;

B、計算第j重聚集時間序列Xj;

C、計算Xj的樣本相似比rh(i,im)和SShm(Xj)作為m=1,…,M,h=1,…,H和i=1,…,n;如果SShm(Xj)<δ2,k成立作為給定的m=1,…,M和h=1,…,H,則執(zhí)行步 驟D,否則對j=j+1執(zhí)行步驟B,當循環(huán)到時間序列不能繼續(xù)被聚集時,輸出結果最小聚集度的自相似性時間序列Xj-12,k-1)及模型參數在那里Xj2,0)意味著原時間序列沒有自相似性;

D、如果k<K,則令j=1和k=k+1,執(zhí)行步驟B,否則輸出結論最小聚集度的自相似性時間序列Xj2,K)及模型參數。

進一步,識別不同分形水平的最小聚集度時間序列方法,包括:

a、選定兩個正值遞減序列δ1,k和δ2,k,設初值k=j=1和X1=X;

b、計算第j重聚集時間序列Xj

c、計算Xj的樣本自相關系數ρn作為n=1,…,N和LM(Xj)。如果LM(Xj)<δ1,k,則執(zhí)行步驟d,否則對j=j+1執(zhí)行步驟b,當時間序列不能繼續(xù)被聚集時,輸出結果最小聚集度的分形時間序列Xj-11,k-1,δ2,k-1)及模型參數,(δ1,0,δ2,0)為原序列 無分形結構;

d、計算Xj的樣本相似比rh(i,im)作為i=1,…,n和SShm(Xj)作為m=1,…,M和h=1,…,H;如果SShm(Xj)<δ2,k作為h=1,…,H和m=1,…,M成立,則執(zhí)行步驟e,否則對j=j+1執(zhí)行步驟b;

e、如果k<K,則令j=1和k=k+1,執(zhí)行步驟b,否則輸出結論最小聚集度的分形時間序列Xj1,K,δ2,K)及模型參數;通過限制δ1,k和δ2,k值識別不同長記憶和自相似水平的時間序列生成過程。

進一步,新型隨機分形理論,包括:

(一)作為分形參數的斜率指數η1=ω/α和波幅指數η2=σ/β基于一類描述隨機彈性系統(tǒng)的NLARI過程:

其中εt為白噪音,g(x)是滿足條件g(-x)=-g(x)及xg(x)<0的恢復力函數,ω為外部擾動的期待值,σ為外部擾動的標準差,α是阻力系數,β是恢復力系數,κ1是在阻力上的時間滯后,κ2是在恢復力上的時間滯后;

(二)j重聚集時間序列其中充分加大聚集度j將同時導致一個相對大的|η1|和一個相對小的η2從而產生長記憶和自相似行為;

(三)自協(xié)方差rh的相似比rh(i,im)=rh(Xi)/rh(Xim),如果時間序列是自相似的話,它會隨著i的增大趨于一條水平直線作為給定的h=1,…,H,m=1,…,M;

(四)長記憶水平指標和自相似水平指標

進一步,步驟四中,識別分形方法,包括:

一)計算j重聚集時間序列Xj、它的自相關系數ρn作為n=1,…,N和相似比rh(i,im)作為h=1,…,H,m=1,…,M和i=1,…,n;

二)加大聚集度j直到滿足長記憶水平條件LM(Xj)<δ1,k和自相似水平條件SShm(Xj)<δ2,k對于所有h=1,…,H和m=1,…,M,其中δ1,k和δ2,k是兩個正值遞減數列;

三)通過改變δ1,k和δ2,k的值控制長記憶水平和自相似水平。

進一步,識別動力學特征方法包括:

基于t分布的θ1,θ2,γ的置信區(qū)間檢定和歸無假說γ=0對立假說γ>0的統(tǒng)計量檢定,如果

證據支持數據具有NLARI的穩(wěn)定不動點結構,如果

證據支持數據具有NLARI的穩(wěn)定周期環(huán)結構,如果

證據支持數據具有NLARI的不穩(wěn)定周期環(huán)結構。

進一步,檢定方法,包括:使用X=Xj計算最小二乘法回歸直線通過對ΔYt=θ1ΔYt-12g(Yt-1)+εt作最小二乘法估計在那里ΔYt=Yt-Yt-1,獲得參數估值

本發(fā)明公開的NLAR1分形過程和經典的ARFIMA分形過程可以展現出非常類似的長記憶性(數據對比請參閱具體實施方式中的圖1)。然而ARFIMA分形過程不能揭示分形維數和長記憶性的物理意義以及顯示長記憶性的成因和控制因素。與此相比,本發(fā)明給出了NLARI過程的分形行為的控制機制和明確的物理意義:波動的均線斜率指標η1=ω/α控制了系統(tǒng)的長程相關程度,長相關性是系統(tǒng)遭受外部擾動水平相對于內部阻力系數的強度較大時系統(tǒng)的一種響應特性;波幅指標η2=σ/β確定了系統(tǒng)是否具有自相似性,自相似性是系統(tǒng)遭受外部擾動變化相對于內部恢復力系數較小時系統(tǒng)的一種響應特性;波動的均線斜率和波幅取決于系統(tǒng)外部對內部的相對作用強度,然而加大觀察尺度會使斜率指標的絕對值遞增同時使波幅指標遞減,從而分別導致長記憶性和自相似性。這 就是說,只要系統(tǒng)存在自律恢復調節(jié)力,足夠大的觀察尺度上必然出現分形行為?;谶@些性質,本發(fā)明提供同時識別不同水平的分形行為和生成機制及動力學特征;識別最小觀察尺度即聚集尺度的自相似序列,從而為動態(tài)數據采樣、壓縮、特征抽取提供了科學標準;本發(fā)明的識別數據生成機制、詮譯分形成因、調節(jié)記憶長度、利用或避免分形結構會產生各種用途;本發(fā)明雖然建立新型分形理論的途徑非常復雜,但是該理論提供的分形方法卻異常簡單。

附圖說明

圖1是本發(fā)明實施例提供的顯示NLARI過程可以展現出非常類似于經典ARFIMA分形過程長記憶性的一個實例圖。

圖2是本發(fā)明實施例提供的NLARI過程的分形參數即斜率指數η1和波幅指數η2與長記憶性關系。

圖3是本發(fā)明實施例提供的NLARI過程的波幅指數η2與自相似性關系。

圖4是本發(fā)明實施例提供的通過加聚時間序列來增大斜率指數|η1|和減小波幅指數η2的分形識別原理圖。

圖5是本發(fā)明實施例提供的識別時間序列的生成過程和動態(tài)特征的流程示意圖。

圖6是本發(fā)明實施例提供的識別不同長記憶水平的最小聚集度時間序列生成過程的流程示意圖。

圖7是本發(fā)明實施例提供的識別不同自相似水平的最小聚集度時間序列生成過程的流程示意圖。

圖8是本發(fā)明實施例提供的識別不同分形水平的最小聚集度時間序列生成過程的流程示意圖。

圖9是本發(fā)明實施例提供的分形參數與心跳時間序列的分形水平關系的一 個實例。

圖10是本發(fā)明實施例提供的本發(fā)明識別不同分形水平的最小聚集度時間序列生成過程的一個示范例。

圖11是本發(fā)明實施例提供的基于新型隨機分形理論的動態(tài)數據挖掘方法原理示意圖。

具體實施方式

為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結合實施例,對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。

本發(fā)明實施例提供的基于新型隨機分形理論的動態(tài)數據挖掘方法,所述基于新型隨機分形理論的動態(tài)數據挖掘方法通過加聚時間序列即放大觀察尺度來改變NLARI的分形斜率指數參數和波幅指數參數,識別長記憶性、自相似性、兼有長記憶性和自相似性的不同分形水平的最小聚集度的時間序列生成過程和動力學特征。

下面結合附圖及實施例對本發(fā)明作詳細描述。

本發(fā)明所述的新型隨機分形理論,包括:

(一)作為分形參數的斜率指數η1=ω/α和波幅指數η2=σ/β基于一類描述隨機彈性系統(tǒng)的NLARI過程:

其中εt為白噪音,g(x)是滿足條件g(-x)=-g(x)及xg(x)<0的恢復力函數,ω為外部擾動的期待值,σ為外部擾動的標準差,α是阻力系數,β是恢復力系數,κ1是在阻力上的時間滯后,κ2是在恢復力上的時間滯后;

(二)j重聚集時間序列其中充分加大聚集度j將同時導致一個相對大的|η1|和一個相對小的η2從而產生長記憶和自相似行為;

(三)自協(xié)方差rh的相似比rh(i,im)=rh(Xi)/rh(Xim),如果時間序列是自相似的話,它會隨著i的增大趨于一條水平直線作為給定的h=1,…,H,m=1,…,M,

(四)長記憶水平指標和自相似水平指標

本發(fā)明所述的識別分形方法,包括:

(一)計算j重聚集時間序列Xj、它的自相關系數ρn作為n=1,…,N和相似比rh(i,im)作為h=1,…,H,m=1,…,M和i=1,…,n;

(二)加大聚集度j直到滿足長記憶水平條件LM(Xj)<δ1,k和自相似水平條件SShm(Xj)<δ2,k對于所有h=1,…,H和m=1,…,M,其中δ1,k和δ2,k是兩個正值遞減數列;

(三)通過改變δ1,k和δ2,k的值控制長記憶水平和自相似水平。

所述的識別動力學特征方法,包括:基于t分布的θ1,θ2,γ的置信區(qū)間檢定和歸無假說γ=0對立假說γ>0的統(tǒng)計量檢定,在那里如果

證據支持數據具有NLARI的穩(wěn)定不動點結構,如果

證據支持數據具有NLARI的穩(wěn)定周期環(huán)結構,如果

證據支持數據具有NLARI的不穩(wěn)定周期環(huán)結構。

所述的檢定方法,其特征在于使用X=Xi計算最小二乘法回歸直線 通過對ΔYt=θ1ΔYt-12g(Yt-1)+εt作最小二乘法估計在那里ΔYt=Yt-Yt-1,獲得參數估值

下面結合附圖對本發(fā)明的應用原理作進一步描述。

本發(fā)明旨在提供一種新型隨機分形理論的動態(tài)數據挖掘方法,它基于如下模型及性質:

一.描述一類隨機彈性系統(tǒng)的一般NLARI過程:如圖1所示;

方程(3)可以被改寫為

在那里Yt=Xtt=X0-(ω/α)t并且

其中εt是白噪音,g(x)滿足條件g(-x)=-g(x)及xg(x)<0為恢復力函數,其他各項、參數和物理含義與方程(1)相同。NLARI過程,方程(4)的參數域為

當g(x)=-x exp(-x2)和κ2=1,穩(wěn)定不動點域上的NLARI過程的參數域為

穩(wěn)定二周期環(huán)域上的NLARI過程的參數域為

不穩(wěn)定二周期環(huán)域上的NLARI過程的參數域為

上述性質被用于識別數據的生成機制和動力學特征。本發(fā)明者通過模擬實驗顯示了上述性質并不拘泥于恢復力函數g(x)的具體結構,即別的形式的恢復力函數也有類似的動力學特征。首先要指出的是NLARI過程有一個分形結構,比如它可以很好地模擬一個經典的ARFIMA分形過程展現出的長記憶性(如圖1所示,在那里g(x)=-x/(1+x2))。

二.分形參數:

性質1 在NLARI過程(3)上,導入斜率指數和波幅指數作為分形參數。

能夠證明μt=E(Xt|X0,X-1)=X0+(ω/α)t依然成立,所以η1代表了波動平均線的斜率。樣本標準差sd與η1完全正相關(如圖2中的2c所示,相關系數r=1作為g(-x)=-x),與波幅指數η2完全正相關(當η1=0,如圖2中的2f所示,r=1作為g(x)=-xexp(-x2))或者強正相關(當η1≠0,如圖2中的2i所示,r=0.945作為g(x)=-x(1+x4)-1)。由于sd衡量了樣本波動大小,所以η2被稱為波幅指數。

三.長記憶性:

性質2 如果樣本自相關系數作為n=1,…,N隨滯后階數n增大以低于指數衰減率緩慢下降,表明Xt有長記憶性。

性質3 NLARI過程(3)的長記憶性歸因于一個相對大的斜率指數的絕對值|η1|,或者一個相對大的波幅指數η2當η1=0,或一個相對大的|η1|伴隨一個相對小的|η2|。

由于總體自相關系數是未知的,考慮大量重復的模擬樣本自相關系數的平均值(依然使用ρn來表示)作為總體自協(xié)方差的近似,這樣的模擬ρn被用于發(fā)現長記憶性的控制機制。能夠證實當相對恢復力系數γ 被增大,(i)隨著斜率指數|η1|的增大,ρn隨滯后階數n的增大其下降程度減慢(如圖2中的2a所示),|η1|和ρ70(最末一個自相關系數,它的絕對值反映了相關程度)完全正相關(如圖2中的2b所示),這意味著相對大的|η1|將導致長記憶性出現作為η2≠0;(ii)當η1=0時,隨著斜率指數η2的增大,ρn隨滯后階數n的增大其下降程度減慢(就像圖2中的2d所示),|η1|和ρ70完全正相關(如圖2中的2e所示),意味著相對大的η2將導致長記憶性出現;(iii)然而當η1≠0時,隨著斜率指數η2的增大,ρn隨滯后階數n的增大其下降程度增大(就像圖2中的2g所示),η2和ρ70負相關(如圖2中的2h所示),意味著當η1≠0,增大η2會降低記憶長度。當相對恢復力系數γ被固定時,隨著|η1|的增大和η2的減小,ρn隨滯后階數n的增大其下降程度減慢(如圖2中的2j所示,在那里γ=0.7)。這說明一個相對大的|η1|或一個相對大的η2當η1=0,或者一個相對大的|η1|伴隨一個相對小的η2可以導致時間序列的長記憶性。該發(fā)現解釋了新興市場比成熟市場有更長的記憶是因為其內生系統(tǒng)更為薄弱,即α和β更小,它們導致|η1|和η2的值比成熟市場更大。過小樣本會遮擋長記憶性(如圖2中的2k所示)。

四.自相似性:

由于分布意義上的統(tǒng)計自相似性是否存在尚缺乏證據,所以本發(fā)明考慮二階自相似性,它涉及時間序列的聚集度(或觀察尺度)。例如月度物價指數(指以月為單位的平均價格變動)和年度物價指數(指以年為單位的平均價格變動)的聚集度分別為月和年。

性質4 讓X=(Xh:h=1,…,T)表示原時間序列和表示j重聚集序列如果對于任意整數m存在一個常數δ使得滯后階數h的自協(xié)方差rh滿足條件rh(Xm)=mδrh(X),則稱X有二階自相似性。

這里δ的分量容許為負數,也不要求X必須是穩(wěn)定的。由于總體自協(xié)方差是未知的,這里通過大量重復的模擬樣本自協(xié)方差的平均(仍用rh表示)作為總體自協(xié)方差的近似。作為自相似性序列X,有rh(X)=irh(Xi)及rh(Xm)=irh(Xim),于是

成立。稱rh(i,im)為相似比,為平均m相似比。顯然有如下性質:

性質5 如果X是自相似序列,那么對于給定的m=2,…,M和h=1,…,H,相似比rh(i,im)伴隨聚 集度i的增長展現出一條水平直線,并且平均相似比rhm服從冪律m。

性質6 NLARI過程(3)的自相似性歸功于一個相對小的波幅指數η2

本發(fā)明證實了當η2的值小到一定程度,NLARI過程(3)將展現出自相似性。比如隨著η2的值從1.3降到0.1,自相似比隨著i的增大由一條向下傾斜線逐漸變成一條水平直線(圖3中的3a),自相似比r5(i,2i)隨著i的增大由向下傾斜曲線趨向于一條水平直線(圖3中的3b);當η2=0.025時,作為m=2,…,20,自相似比r5(i,im)隨著i的增大展現出一條水平直線(圖3中的3c);平均相似比r5m服從冪律m-3.022(圖3中的3d)。

性質7 充分加聚NLARI過程(3)產生的時間序列,即讓聚集度(或觀察尺度)j充分大,可以同時獲得一個相對大的斜率指數的絕對值|η1|和一個相對小的波幅指數η2,它們將導致聚集時間序列產生長記憶性和自相似性。

隨著滯后階數j的增大,聚集時間序列Xj的斜率指數的絕對值|η1(Xj)|幾乎呈直線增大(如圖4中的4a所示)而波幅指數η2(Xj)呈指數減小(如圖4中的4b所示)。這二者將分別導致長記憶性和自相似性的出現,比如隨著聚集度j從5加大到100,自相關系數ρn對滯后階數n的曲線從迅速下降到幾乎不下降、直至成為一條水平直線,顯示了很高的長記憶性(如圖4中的4c所示);自相似比sd(i,2i)對i的曲線逐步由下降曲線變成水平直線,顯示了很高的自相似性(如圖4中的4d所示)。可見NLARI的分形行為(長記憶性和自相似性)可以通過加聚它的時間序列而呈現。

性質8 稱為長記憶水平指標在那里n0和N分別是初始終滯后階數。稱為自相似水平指標。

初始滯后階數n0不一定為1,譬如n0=2。通常0≤LM(Xj)≤1和0≤SShm(Xj)≤1。分形水平指標愈小意味著分形水平愈高。

下面結合具體實施例對本發(fā)明的應用原理作進一步描述。

本發(fā)明實施例提供的新型隨機分形理論的挖掘動態(tài)數據方法,以g(x)=-x(1+x2)-1,κ1=κ2=1及εt是高斯白噪音i.i.d.N(0,σ2)為例,說明本發(fā)明公開的統(tǒng)計分形理論應用于動態(tài)數據挖掘方法由四部分組成,分別按如下具體步驟實現:

第一部分 識別時間序列的生成過程和動態(tài)特征:

步驟1 數據絕對值縮小化處理,記為X=(Xt:t=1,…,T)。

步驟2 使用X計算最小二乘法回歸直線使用及

ΔYt=Yt-Yt-1,對作最小二乘法估計獲得參數估值記Y=(Y′10,…,Y′1t,…,Y′1T-1)′,Y1t=(ΔYt,-Yt(1+Yt2)-1),s11和s22分別表示矩陣的第一行第一列的元素和第二行第二列的元素(如圖5中的501)。

步驟3 計算θ1的置信區(qū)間其中是t分布在置信水平的臨界值以及歸無假說γ=0的統(tǒng)計量如果θ1的置信區(qū)間被包含在區(qū)間(-1,1)內并且歸無假說γ=0被拒絕、接受對立假說γ>0的話,則證據支持數據來自NLARI過程,執(zhí)行步驟4(如圖5中的502),否則對j=j+1(初值j=1),計算j重聚集時間序列Xj(如圖5中的503),記為X=Xj,執(zhí)行步驟2。如果循環(huán)時間序列到不能繼續(xù)被聚集,輸出結果“X是一個非NLARI過程或一個具有γ=0的退化ARI(2,1)過程)”退出分析(如圖5中的504所示)。

步驟4 記j1=j,讓執(zhí)行第二部分分形識別,獲得j2重聚集序列分形度為(δ1,k,δ2,k),記為或無分形(如圖5中的505所示)。

步驟5對和分別執(zhí)行步驟2獲得θ1的置信區(qū)間θ2的置信區(qū)間以及γ的置信區(qū)間其中如果θ1,θ2,γ的置信區(qū)間被包含在區(qū)間(-1,1),(0,4),(0,1)內,則證據支持X來自穩(wěn)定不動點域上的NLARI過程;如果θ1,θ2,γ的置信區(qū)間被包含在區(qū)間(-1,1),內,則證據支持X來自穩(wěn)定周期環(huán)域上的NLARI過程;如果θ1,θ2,γ的置信區(qū)間被包含在區(qū)間(-1,1),(0,+∞),內,則證據支持X來自不穩(wěn)定周期環(huán)域上的NLARI過程;否則X來自臨界值上的NLARI過程(如圖5中的506所示)。輸出具有這些動態(tài)特征的分形序列和無分形序列包括模型參數作為結論。

第二部分 識別不同長記憶水平的最小聚集度時間序列

步驟1 選定一個正值遞減序列δ1,k,設初值k=j=1和X1=X(如圖6中的6的601)。

步驟2 計算第j重聚集時間序列Xj(如圖6中的602所示)。

步驟3 計算Xj的樣本自相關系數ρn作為n=1,…,N和LM(Xj)。如果LM(Xj)<δ1,k,則執(zhí)行步驟4(如圖6中的603所示),否則對j=j+1執(zhí)行步驟2,當循環(huán)到時間序列不能繼續(xù)被聚集時輸出結果“最小聚集度的長記憶性時間序列Xj-11,k-1)及模型參數在那里Xj1,0)意味著原時間序列無長記憶性”(如圖6中的604所不)。

步驟4 如果k<K,則令j=1和k=k+1,執(zhí)行步驟2(如圖6中的605所示),否則輸出結論“最小聚集度的長記憶性時間序列Xj1,K)及模型參數”(如圖6中的606)。

第三部分 識別不同自相似水平的最小聚集度時間序列

步驟1 選定一個正值遞減序列δ2,k,設初值k=j=1和X1=X(如圖7中的7的701)。

步驟2 計算第j重聚集時間序列Xj(如圖7中的702所示)。

步驟3 計算Xj的樣本相似比rh(i,im)和SShm(Xj)作為m=1,…,M,h=1,…,H和i=1,…,n。如果SShm(Xj)<δ2,k成立作為給定的m=1,…,M和h=1,…,H(如圖7中的703所示),則執(zhí)行步驟4,否則對j=j+1執(zhí)行步驟2,當循環(huán)到時間序列不能繼續(xù)被聚集時,輸出結果“最小聚集度的自相似性時間序列Xj-12,k-1)及模型參數在那里Xj2,0)意味著原時間序列沒有自相似性”(如圖7中的704所示)。

步驟4 如果k<K,則令j=1和k=k+1,執(zhí)行步驟2(如圖7中的705所示),否則輸出結論“最小聚集度的自相似性時間序列Xj2,K)及模型參數”(如圖7中的707)。

第四部分 識別不同分形水平的最小聚集度時間序列

步驟1 選定兩個正值遞減序列δ1,k和δ2,k,設初值k=j=1和X1=X(如圖8中的801)。

步驟2 計算第j重聚集時間序列Xj(如圖8中的802所示)。

步驟3 計算Xj的樣本自相關系數ρn作為n=1,…,N和LM(Xj)。如果LM(Xj)<δ1,k,則執(zhí)行步驟4(如圖8中的803所示),否則對j=j+1執(zhí)行步驟2,當時間序列不能繼續(xù)被聚集時,輸出結果“最小聚集度的分形時間序列Xj-11,k-1,δ2,k-1)及模型參數,在那里(δ1,0,δ2,0)意味著原序列無分形結構”(如圖8中的804所示)。

步驟4 計算Xj的樣本相似比rh(i,im)作為i=1,…,n和SShm(Xj)作為m=1,…,M和h=1,…,H。如果SShm(Xj)<δ2,k作為h=1,…,H和m=1,…,M成立,則執(zhí)行步驟5,否則對j=j+1執(zhí)行步驟2(如圖8中的805所示)。

步驟5 如果k<K,則令j=1和k=k+1,執(zhí)行步驟2(如圖8中的806),否則輸出結論“最小聚集度的分形時間序列Xj1,K,δ2,K)及模型參數”(如圖8中的807)。

通過限制δ1,k和δ2,k值利用上述方法可以識別不同長記憶和自相似水平的時間序列生成過程。

下面結合具體實施例對本發(fā)明的應用原理作進一步描述。

圖9顯示了本發(fā)明用于一個心跳時間序列(無心臟病、年齡34歲、男性、52200個樣本值)的一個實例。由于樣本不夠長,因此數據未被加聚,即j1=1。原始心跳數據經過對數轉換的縮小化處理被用于估計NLARI過程的參數,獲得最小二乘法估計值κ1=κ2=1,基于這些估計值的θ1,θ2,γ的置信區(qū)間在穩(wěn)定不動點的理論參數域(-1,1),(0,4),(0,1)內。作為檢定歸無假說γ=0的統(tǒng)計量為γn=85,由于P(γn>11.9)<1%,所以證據支持對立假說γ>0。這些結果支持心跳時間序列來自穩(wěn)定不動點域上的NLARI過程。該心跳時間序列進一步被劃分為29個時間序列,每一個時間序列有1800個樣本值,各段展現出不同水平的長記憶性(如圖9中的9a所示),隨著|η1|和η2的增大,樣本自相關系數ρn對滯后階數n的曲線的下降程度愈慢,證實了愈大的|η1|或η2會導致愈長的記憶水平(圖9中的9b)。在較小的m(比如m=2)處,sd(i,mi)展現出粗略近似的水平直線(如圖9中的9c所示),它的平均sdm符合一個冪函數m1.02(如圖9中的9d所示),然而rh(i,mi)和η2(i,mi)以及在較大m的sd(i,mi)沒有展現出近似水平直線,這是因為該心跳時間序列有一個相對大的η2值0.3140。

圖10顯示了本發(fā)明識別最小聚集度分形過程的一個示范例??紤]數據產生于一個穩(wěn)定不動點域的NLARI過程,在那里j1=1,θ0=-4.475×10-7,θ1=0.5027,θ2=0.0794,σ=0.0249,η1=-8.999×10-7,η2=0.3136,γ=0.0264,T=1.8×107,N=70,n=50,m=20。獲得在分形水平指標和的最小聚集度j2=100的分形,自相關系數ρn隨著滯后階數n的增大展現出幾乎為一條水平的直線,顯示了高度長記憶性(如圖10中的10a所示),相似比對i幾乎是水平直線,平均相似比服從于一個冪律m-0.97,顯示X100有高度的自相似性(如圖10中的10b所示)。

以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內所作的任何修改、等同替換和改進等,其中包括基于本發(fā)明的精神和原則創(chuàng)造一個滿足不同水平分形和動力學特征要求的最小尺度時間序列生成過程的應用,均應包含在本發(fā)明的保護范圍之內。

當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1