本發(fā)明屬于氣象學(xué)的大數(shù)據(jù)應(yīng)用領(lǐng)域,具體涉及一種針對(duì)不同地理位置的兩個(gè)地點(diǎn),計(jì)算此兩地監(jiān)測(cè)指標(biāo)在時(shí)空維度上延遲相關(guān)性的方法。
背景技術(shù):
相關(guān)性分析方法是對(duì)兩個(gè)或兩個(gè)以上的變量進(jìn)行一系列的統(tǒng)計(jì)分析,以考察變量之間所具有的線性關(guān)系。通俗地講,相關(guān)性分析的目的是探索當(dāng)一個(gè)變量變化時(shí),另一個(gè)變量如何變化,這種相互關(guān)系需要用相關(guān)性分析這樣的統(tǒng)計(jì)方法來(lái)進(jìn)行定量的描述。在相關(guān)性的計(jì)算中,“相關(guān)系數(shù)r”則是兩個(gè)變量之間相關(guān)程度的定量指標(biāo)。在分析過(guò)程中,不僅要考察相關(guān)程度的大小,還需要考慮數(shù)據(jù)之間相關(guān)的方向,即r存在正負(fù)值,正值代表正相關(guān),負(fù)值則代表負(fù)相關(guān),所以r的取值為-1到1,其絕對(duì)值越大代表相關(guān)程度越高。
在實(shí)際分析中,相關(guān)性的大小不能直接以“相關(guān)系數(shù)”下定論,即不能從相關(guān)系數(shù)r直接定論兩個(gè)變量的相關(guān)性,從而需要引進(jìn)了“顯著性水平α”和假設(shè)檢驗(yàn)中常用到的p值?!帮@著性水平α”是用于判斷被檢驗(yàn)的統(tǒng)計(jì)量與假設(shè)之間是否差異明顯,確切地講,在相關(guān)性分析中,顯著性檢驗(yàn)是指樣本的相關(guān)系數(shù)與總體相關(guān)系數(shù)的差異。而假設(shè)檢驗(yàn)中的p值代表概率,反映著某一事件發(fā)生的可能性大小,在這里則代表“樣本間差異是由抽樣誤差導(dǎo)致的”這一事件的的概率。在實(shí)際操作中,一般認(rèn)為顯著性水平α=0.05是統(tǒng)計(jì)學(xué)意義的邊界線,根據(jù)假設(shè)檢驗(yàn)方法所得到的p值,通常認(rèn)為如果p≤0.05,則說(shuō)明相關(guān)系數(shù)r可以接受。值的指出的是,相關(guān)關(guān)系不能直接混淆為因果關(guān)系,如果兩個(gè)變量之間出現(xiàn)了很強(qiáng)的相關(guān)性且通過(guò)顯著性檢驗(yàn),也無(wú)法直接說(shuō)明這兩個(gè)變量存在著因果的關(guān)系,而只能說(shuō)明兩個(gè)變量之間存在較多的相同特征。
時(shí)間序列的延遲相關(guān)性分析是指,兩個(gè)序列在同一時(shí)間段內(nèi)的數(shù)據(jù)不具有最大的相關(guān)性,而在某一序列往后延遲多個(gè)時(shí)刻后,兩個(gè)序列重疊時(shí)間段內(nèi)的數(shù)據(jù)具有最大的相關(guān)性。隨著延遲數(shù)的增加,兩序列重疊時(shí)間段逐漸變短,若重疊時(shí)間段太短,則所計(jì)算出的相關(guān)性也沒(méi)有實(shí)際應(yīng)用價(jià)值,所以,一般設(shè)置序列最大可延遲數(shù)為序列長(zhǎng)度的一半。在實(shí)際生產(chǎn)中,延遲相關(guān)性被運(yùn)用到了多種領(lǐng)域,例如氣象學(xué)分析,空氣質(zhì)量分析以及金融市場(chǎng)分析等多方面,延遲相關(guān)性分析對(duì)實(shí)際生產(chǎn)生活起到了很優(yōu)秀的輔助決策作用。
空間延遲相關(guān)性分析是指針對(duì)不同的地理位置地點(diǎn),它們的某些指標(biāo)例如空氣質(zhì)量,受到其他空間性因素例如風(fēng)速的影響,從而使得這些地點(diǎn)的空氣質(zhì)量在時(shí)間上呈現(xiàn)出某些延遲相關(guān)的特性。
對(duì)于兩個(gè)時(shí)間序列的延遲性分析,業(yè)界提出了多種科學(xué)的探測(cè)方法;然而對(duì)于不同時(shí)空下的多點(diǎn)空間延遲相關(guān)性分析,最主要面臨的問(wèn)題是如何確定相關(guān)性計(jì)算的窗口,特別是在處理真實(shí)的時(shí)空數(shù)據(jù)時(shí),時(shí)間和空間的特性都需要在分析過(guò)程中被考慮。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明針對(duì)上述問(wèn)題,提出了一種針對(duì)氣象和監(jiān)測(cè)指標(biāo)數(shù)據(jù)進(jìn)行時(shí)空延遲相關(guān)性分析的方法。本方法不僅考慮了監(jiān)測(cè)指標(biāo)時(shí)間序列數(shù)據(jù)在時(shí)間上的相關(guān)性特性,同時(shí)加入考慮了兩地在空間上的特性,從而確定了一種新穎的延遲相關(guān)性計(jì)算窗口的定義方法,然后再進(jìn)一步進(jìn)行延遲相關(guān)性分析。
在本發(fā)明中,監(jiān)測(cè)指標(biāo)指各種在空間分布中的監(jiān)測(cè)站點(diǎn)所監(jiān)測(cè)的各種時(shí)序數(shù)據(jù),例如PM2.5,PM10,氮氧化物等。
具體來(lái)說(shuō),本發(fā)明采用的技術(shù)方案為:
一種基于氣象數(shù)據(jù)的監(jiān)測(cè)指標(biāo)時(shí)空延遲相關(guān)性的計(jì)算方法,主要步驟包括:
1)采集各地的氣象數(shù)據(jù)和監(jiān)測(cè)指標(biāo)數(shù)據(jù);
2)根據(jù)1)中采集的數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理工作,剔除空數(shù)據(jù)和錯(cuò)誤數(shù)據(jù),以及剔除所有沒(méi)有成對(duì)的監(jiān)測(cè)指標(biāo)數(shù)據(jù)和氣象數(shù)據(jù)的時(shí)刻下的數(shù)據(jù);一般情況下,監(jiān)測(cè)指標(biāo)數(shù)據(jù)與氣象數(shù)據(jù)在采集數(shù)據(jù)時(shí),具有不同的時(shí)間間隔,如指標(biāo)數(shù)據(jù)每隔一小時(shí)采集一次數(shù)據(jù),而氣象數(shù)據(jù)可能每隔兩個(gè)小時(shí)采集一次數(shù)據(jù),這樣情況下,需要將兩類(lèi)數(shù)據(jù)對(duì)齊,即只取同一采集時(shí)刻具有監(jiān)測(cè)指標(biāo)數(shù)據(jù)和氣象數(shù)據(jù)的采集數(shù)據(jù)。
3)確定一個(gè)將要分析的時(shí)間段T,其長(zhǎng)度為t0;
4)確定兩個(gè)地點(diǎn)A和B,取出兩個(gè)地點(diǎn)在時(shí)間段T內(nèi)所對(duì)應(yīng)的監(jiān)測(cè)指標(biāo)數(shù)據(jù)X和Y以及氣象數(shù)據(jù)(如風(fēng)速數(shù)據(jù));
5)第一個(gè)地點(diǎn)A的監(jiān)測(cè)指標(biāo)數(shù)據(jù)X不變,第二個(gè)地點(diǎn)B的監(jiān)測(cè)指標(biāo)數(shù)據(jù)Y向前多取t1個(gè)時(shí)刻的監(jiān)測(cè)指標(biāo)數(shù)據(jù),t1的計(jì)算方法為A地氣象指標(biāo)影響B(tài)的時(shí)間(如風(fēng)速數(shù)據(jù),則t1為兩地距離除以B地當(dāng)時(shí)風(fēng)速),同時(shí)再向后多取t2個(gè)時(shí)刻的監(jiān)測(cè)指標(biāo)數(shù)據(jù),t2的計(jì)算方法為A地被B地氣象指標(biāo)影響的時(shí)間(如風(fēng)速數(shù)據(jù),則t2為兩地距離除以A地當(dāng)時(shí)風(fēng)速);
6)此時(shí),計(jì)算所取的B點(diǎn)監(jiān)測(cè)指標(biāo)數(shù)據(jù)Y對(duì)應(yīng)的時(shí)間長(zhǎng)度為(t0+t1+t2),B點(diǎn)監(jiān)測(cè)指標(biāo)數(shù)據(jù)Y從數(shù)據(jù)起始,以一個(gè)時(shí)刻為單位向后依此進(jìn)行窗口移動(dòng),總計(jì)移動(dòng)d個(gè)時(shí)刻,d取值范圍為[0,t1+t2]。為保證A、B兩組數(shù)據(jù)在計(jì)算時(shí)具有相同數(shù)目的時(shí)序數(shù)據(jù)值,A、B兩點(diǎn)在一次計(jì)算時(shí)時(shí)間范圍(窗口長(zhǎng)度)一直為檢測(cè)指標(biāo)數(shù)據(jù)X的長(zhǎng)度t0;
7)在6)每次窗口移動(dòng)時(shí),計(jì)算Y移動(dòng)后窗口內(nèi)的數(shù)據(jù)與未移動(dòng)的X數(shù)據(jù)之間的延遲相關(guān)性,相關(guān)性計(jì)算采用皮爾森相關(guān)系數(shù)計(jì)算方法,取循環(huán)移動(dòng)后相關(guān)系數(shù)最大值和對(duì)應(yīng)的移動(dòng)數(shù)值dmax作為兩地的監(jiān)測(cè)指標(biāo)的延遲相關(guān)性。在該步驟中,窗口是指計(jì)算時(shí)所取的時(shí)間范圍t0,窗口滑動(dòng),是指起始時(shí)刻從數(shù)據(jù)起始,到(t1+t2),窗口每次向后進(jìn)行一個(gè)時(shí)刻的移動(dòng)。
8)根據(jù)t1-dmax的值確定A、B兩地之間的影響關(guān)系。正值的t1-dmax代表A地在延遲|t1-dmax|個(gè)時(shí)刻后與B地相關(guān),負(fù)值的t1-dmax代表B地在延遲|t1-dmax|個(gè)時(shí)刻后與A地相關(guān)。
與現(xiàn)有方法相比,本發(fā)明的積極效果為:
現(xiàn)有的方法在計(jì)算延遲相關(guān)性時(shí),沒(méi)有考慮監(jiān)測(cè)指標(biāo)數(shù)據(jù)的空間特性,本方法擴(kuò)展了相關(guān)性分析方法到真實(shí)時(shí)空數(shù)據(jù)的處理,加入考慮了數(shù)據(jù)的空間特性,即將兩地之間互相影響的時(shí)間,做為計(jì)算窗口滑動(dòng)的范圍。同時(shí),現(xiàn)有的方法在計(jì)算延遲相關(guān)性時(shí),只計(jì)算重疊時(shí)間段內(nèi)數(shù)據(jù)的相關(guān)性,重疊時(shí)間段內(nèi)的數(shù)據(jù)數(shù)量隨著延遲移動(dòng)逐漸減小,當(dāng)數(shù)據(jù)量較小時(shí)計(jì)算出的相關(guān)性沒(méi)有實(shí)際意義,然而本方法每次計(jì)算的時(shí)間窗口的大小不變,一直為原始時(shí)間段長(zhǎng)度,從而計(jì)算出的相關(guān)性更準(zhǔn)確,多個(gè)相關(guān)性數(shù)值之間更具有可比較性(原因:并非只計(jì)算重疊時(shí)間段,而是每次窗口滑動(dòng)時(shí),均計(jì)算相同時(shí)間長(zhǎng)度的相關(guān)性)。此外,普通延遲相關(guān)性計(jì)算方法,只可單向計(jì)算兩地的延遲相關(guān)關(guān)系,然而本方向可以雙向計(jì)算出兩地的相關(guān)關(guān)系,即,可以通過(guò)最優(yōu)相關(guān)系數(shù)對(duì)應(yīng)的窗口移動(dòng)的時(shí)刻數(shù)d,來(lái)確定是A地延遲于B地還是B地延遲于A地。
附圖說(shuō)明
圖1是本發(fā)明方法流程圖。
具體實(shí)施方式
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯和清晰,下面給出實(shí)施例,對(duì)本發(fā)明做進(jìn)一步說(shuō)明。在本實(shí)施中,我們選擇風(fēng)速作為氣象數(shù)據(jù),選擇空氣質(zhì)量作為監(jiān)測(cè)指標(biāo)數(shù)據(jù)。
首先采集數(shù)據(jù)各地的氣象小時(shí)數(shù)據(jù)和空氣質(zhì)量的小時(shí)數(shù)據(jù),數(shù)據(jù)格式(示例,真實(shí)數(shù)據(jù)可能與該格式不同,但都具有時(shí)間點(diǎn)及對(duì)應(yīng)的檢測(cè)數(shù)值)分別如下所示。
同時(shí)采集發(fā)布數(shù)據(jù)的氣象觀測(cè)站和空氣質(zhì)量觀測(cè)站的地理坐標(biāo)(經(jīng)緯度),(示例,真實(shí)數(shù)據(jù)可能與該格式不同,但都具有站點(diǎn)標(biāo)識(shí)及對(duì)應(yīng)的地理位置)數(shù)據(jù)格式分別如下所示;
所有數(shù)據(jù)以bson數(shù)據(jù)形式存儲(chǔ)在MongoDB數(shù)據(jù)庫(kù)中,本發(fā)明的處理流程如圖1所示。
對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和清洗工作。由于在之后計(jì)算時(shí)需要同一時(shí)刻同時(shí)存在氣象數(shù)據(jù)和空氣質(zhì)量數(shù)據(jù),所以需要清除掉同一時(shí)刻下氣象數(shù)據(jù)不存在的空氣質(zhì)量數(shù)據(jù),以及同一時(shí)刻下空氣質(zhì)量數(shù)據(jù)不存在的氣象數(shù)據(jù)。并且,還需要清除掉空數(shù)據(jù)以及錯(cuò)誤由于觀測(cè)站設(shè)備原因發(fā)布的錯(cuò)誤數(shù)據(jù)。
數(shù)據(jù)清洗完畢后,選定兩個(gè)地點(diǎn)A和B,以及確定一個(gè)需要分析的時(shí)間段T,分別取出A和B兩地在此時(shí)間段內(nèi)的空氣質(zhì)量PM2.5小時(shí)數(shù)據(jù),形成兩個(gè)時(shí)間序列X和Y。
本方法特別加入考慮了空氣質(zhì)量數(shù)據(jù)在空間上的傳播特性,所以引入了氣象數(shù)據(jù)(風(fēng)速)對(duì)空氣質(zhì)量的時(shí)空特性進(jìn)行研究。首先設(shè)置A地的空氣質(zhì)量數(shù)據(jù)X不變,而對(duì)在B地的Y序列,在其前部額外多取T開(kāi)始時(shí)刻前的t1個(gè)時(shí)刻數(shù)據(jù),t1的計(jì)算方式為A、B兩點(diǎn)的直線距離除以B地在T開(kāi)始時(shí)刻全天的平均風(fēng)速,數(shù)學(xué)表示如下:
同時(shí),在Y序列的后部額外多取T結(jié)束時(shí)刻后的t2個(gè)數(shù)據(jù),t2的計(jì)算方式為A、B兩點(diǎn)直線距離除以A地在T結(jié)束時(shí)刻全天的平均風(fēng)速,數(shù)學(xué)表示如下:
此時(shí),Y序列的長(zhǎng)度比X序列多出的時(shí)刻數(shù)據(jù)個(gè)數(shù)為:
t=t1+t2
一般地,對(duì)于計(jì)算兩個(gè)普通序列的相關(guān)系數(shù),最常采用的是“皮爾森相關(guān)系數(shù)”計(jì)算方法,也被稱(chēng)作“皮爾森積差相關(guān)系數(shù)”,其定義如下:
其中rXY的取值范圍是-1到1,正負(fù)號(hào)代表相關(guān)的方向是正相關(guān)或負(fù)相關(guān),其絕對(duì)值越大代表相關(guān)程度越高,和分別代表序列X和Y的平均值,xi和yi分別為X和Y中第i個(gè)值。兩個(gè)時(shí)序數(shù)據(jù)的延遲相關(guān)性計(jì)算的一般思路為,一個(gè)序列依次后移,計(jì)算兩個(gè)序列重疊部分的數(shù)據(jù)的相關(guān)性,定義如下:
其中d為Y序列往后移動(dòng)的時(shí)間間隔數(shù),其取值范圍業(yè)界一般規(guī)定其最大值為序列長(zhǎng)度的一半,而Nd為移動(dòng)后X和Y兩序列的公共部分長(zhǎng)度;此種針對(duì)普通時(shí)序數(shù)據(jù)的延遲相關(guān)性計(jì)算方法。然而普通的延遲相關(guān)性計(jì)算方法并不適用于真實(shí)時(shí)空數(shù)據(jù)的延遲相關(guān)性計(jì)算,而本方法特別考慮了空氣質(zhì)量數(shù)據(jù)在空間上的特性,空間特性由氣象數(shù)據(jù)中的風(fēng)速和地理距離給出。本方法主要思想為:首先通過(guò)風(fēng)速和兩地距離計(jì)算出Y序列額外需要向前多取的時(shí)刻數(shù)t1和向后多取的時(shí)刻數(shù)t2,分別取出這些時(shí)刻對(duì)應(yīng)的監(jiān)測(cè)指標(biāo)數(shù)據(jù)并添加在Y中,之后再對(duì)X和Y兩個(gè)時(shí)間序列數(shù)據(jù)進(jìn)行“延遲相關(guān)性”計(jì)算,計(jì)算方法為:設(shè)置Y上的窗口大小等于X的長(zhǎng)度,將Y的窗口向后移動(dòng)d個(gè)時(shí)間間隔數(shù),即Y往后延遲一定的時(shí)間間隔數(shù)d后,從Y延遲后的起始點(diǎn)開(kāi)始,依次取出與X等長(zhǎng)的數(shù)據(jù),即取出了Y的窗口內(nèi)的所有數(shù)據(jù),然后再計(jì)算兩個(gè)序列的相關(guān)系數(shù)。本方法的數(shù)學(xué)定義如下:
其中NX為X序列的長(zhǎng)度,d為Y序列往后移動(dòng)的時(shí)間間隔數(shù),取值范圍為[0,t],xi為X中第i個(gè)值,yi+d為Y中的第i+d個(gè)值(即在窗口移動(dòng)d個(gè)時(shí)間間隔數(shù)后,Y在窗口內(nèi)的第i個(gè)值)。在計(jì)算完畢所有d值對(duì)應(yīng)的延遲相關(guān)性后,將rXY(d)最大值記錄,其所對(duì)應(yīng)的d記作dmax,分別作為A、B兩地間的最優(yōu)相關(guān)系數(shù)和最優(yōu)延遲數(shù)。在本方法中,根據(jù)t1-dmax的值可確定A、B兩地之間的影響關(guān)系。正值的t1-dmax代表A地在延遲|t1-dmax|個(gè)時(shí)刻后與B地相關(guān),負(fù)值的t1-dmax代表B地在延遲|t1-dmax|個(gè)時(shí)刻后與A地相關(guān)。
下面給出一個(gè)具體的算例:
1)選取兩個(gè)地點(diǎn)A(位于石家莊市)和B(位于北京市),兩地點(diǎn)對(duì)應(yīng)的空氣質(zhì)量觀測(cè)站點(diǎn)的信息如下:
2)選擇要分析的時(shí)間段T為:2015年6月1日00:00點(diǎn)至2015年6月3日00:00點(diǎn),數(shù)據(jù)以小時(shí)為時(shí)間間隔,T的長(zhǎng)度為t0=48;
3)從數(shù)據(jù)庫(kù)中取出A和B兩地在時(shí)間段T內(nèi)的空氣質(zhì)量數(shù)據(jù)集X和Y(以PM2.5數(shù)值為例),分別為:
X:{130 146 137 122 122 81 90 90 90 99 117 116 134 134 161 136 149 90 76 53 55 61 68 79 63 62 59 57 52 42 33 31 23 27 30 29 31 32 35 39 40 44 56 81 81 69 74 56},
Y:{88 68 90 93 93 123 119 119 86 84 45 25 59 59 102 141 153 73 53 84 74 76 58 3 3 9 7 3 3 6 4 5 3 6 3 9 5 14 158 36 39 34 32 30 34 28 30};
4)查詢(xún)位于B地的氣象觀測(cè)站發(fā)布的2015年6月1日00:00點(diǎn)的氣象數(shù)據(jù)(以風(fēng)速為例),此時(shí)B地風(fēng)速為8.43km/h;查詢(xún)A地的氣象觀測(cè)站2015年6月3日00:00點(diǎn)的氣象數(shù)據(jù)(以風(fēng)速為例),此時(shí)A地風(fēng)速為9.89km/h;
5)根據(jù)A、B兩地經(jīng)緯度計(jì)算得到兩地空間距離為253.90km,可以計(jì)算出Y需要向前多取t1=253.90/8.43≈30個(gè)時(shí)刻的空氣質(zhì)量數(shù)據(jù),以及Y需要向后多取t2=253.90/9.89≈26個(gè)時(shí)刻的空氣質(zhì)量數(shù)據(jù)。取出這些數(shù)據(jù)后,Y一共含有104個(gè)數(shù)據(jù),此時(shí)Y變成了:
Y:{60 67 72 72 44 46 47 59 62 57 57 45 42 41 44 44 53 54 54 59 52 53 72 78 75 89 92 78 86 87 88 68 90 93 93 123 119 119 86 84 45 25 59 59 102 141 153 73 53 84 74 76 58 3 3 9 7 3 3 6 4 5 3 6 3 9 5 14 158 36 39 34 32 30 34 28 30 33 32 39 38 23 23 22 18 17 10 19 21 24 27 28 33 38 43 50 47 45 43 40 48 46 44};
6)設(shè)置Y上的窗口長(zhǎng)度等于X的長(zhǎng)度48,將窗口依次向后移動(dòng)d個(gè)時(shí)間間隔,并根據(jù)本發(fā)明提出的延遲相關(guān)性計(jì)算公式計(jì)算此時(shí)Y窗口中的數(shù)據(jù)和X的數(shù)據(jù)的時(shí)序相關(guān)性rXY(d),d的取值范圍為[0,30+26]即[0,56]。
7)根據(jù)6)可以分別計(jì)算得到57個(gè)相關(guān)性數(shù)據(jù),記錄57個(gè)數(shù)據(jù)中的最優(yōu)延遲相關(guān)性結(jié)果為rXY(33)=0.785,則最優(yōu)延遲數(shù)為dmax=33。根據(jù)t1-dmax=30-33=-3可以得出結(jié)論:B地在延遲3個(gè)小時(shí)后與A地的空氣質(zhì)量最相關(guān)。
在本方法中,克服了普通方法只能利用重疊時(shí)間段計(jì)算兩序列的延遲相關(guān)性,隨時(shí)延遲的依次增大,重疊時(shí)間段內(nèi)的數(shù)據(jù)量越來(lái)越小,當(dāng)參與計(jì)算相關(guān)性的數(shù)據(jù)量過(guò)小的時(shí)候,容易導(dǎo)致所計(jì)算出的相關(guān)性不再具有實(shí)際意義。同時(shí),本方法可以通過(guò)t1-dmax雙向判定兩地之間的空氣質(zhì)量的延遲相關(guān)關(guān)系,而不再局限于被移動(dòng)序列的選定。
以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案而非對(duì)其進(jìn)行限制,本領(lǐng)域的普通技術(shù)人員可以對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明的精神和范圍,本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求所述為準(zhǔn)。