本發(fā)明涉及水文站網(wǎng)技術(shù),具體涉及一種基于Copula熵的水文站網(wǎng)優(yōu)化模型。
背景技術(shù):
水文站是一個在河流或者流域上設(shè)立的,主要用于觀測以及搜集河流湖泊和水庫等水體相關(guān)水文和氣象資料的基層水文機(jī)構(gòu),通過前期對實(shí)測資料的完整搜集和把控,為后期探究基本水文規(guī)律的工作提供足夠的資料支撐,在很大程度上滿足了水文預(yù)報、水文情報、水資源評價工作和水科學(xué)研究的基本需求。因此規(guī)劃合理的水文站網(wǎng)能夠充分反映水文時空變異特征,使之能收集準(zhǔn)確詳盡的水文信息,這顯然是有必要探究較為客觀地理論方法支撐水文站網(wǎng)的合理規(guī)劃。前人在站網(wǎng)規(guī)劃的研究方法上大體可以歸納為以下幾種:
1、數(shù)理統(tǒng)計方法,該方法應(yīng)用最早,但要求研究者對水資源系統(tǒng)結(jié)構(gòu)有充足的認(rèn)識;同時,受到數(shù)理統(tǒng)計的原理的限制,統(tǒng)計分析技術(shù)的選擇和樣本數(shù)量都將對數(shù)據(jù)分析的結(jié)論產(chǎn)生較大影響;并且該方法只能通過估計精度與樣本數(shù)量之間的關(guān)系來確定站點(diǎn)的數(shù)量,達(dá)不到對站點(diǎn)的空間布局優(yōu)化的目的。
2、克里格插值法,需要在圖上對水文變量估算誤差的改進(jìn)作出主觀評價,若估計誤差的標(biāo)準(zhǔn)差大于給定的標(biāo)準(zhǔn)差的范圍,則空間中需要增設(shè)站點(diǎn),反之就應(yīng)該減少站點(diǎn),實(shí)際應(yīng)用中該方法主觀性比較大精度不夠高。
3、信息熵方法,在以往基于信息熵進(jìn)行水文站網(wǎng)優(yōu)化研究中,常以信息傳遞量為依據(jù),選擇某一指標(biāo)進(jìn)行站網(wǎng)評價優(yōu)化,而單一信息熵指標(biāo)往往不能全面反映站點(diǎn)組合所包含的信息總量、信息冗余程度等決定站網(wǎng)效用的重要因素。站對間的傳遞熵的估計很大程度上受限于聯(lián)合概率密度函數(shù)的合理估計。
技術(shù)實(shí)現(xiàn)要素:
發(fā)明目的:本發(fā)明的目的在于解決現(xiàn)有技術(shù)中存在的不足,提供一種基于Copula熵的水文站網(wǎng)優(yōu)化模型,結(jié)合Copula函數(shù)對于多變量間的關(guān)聯(lián)性定量描述的優(yōu)勢,提出Copula熵的方法用以體現(xiàn)信息傳遞量。
技術(shù)方案:本發(fā)明一種基于Copula熵的水文站網(wǎng)優(yōu)化模型,依次包括如下步驟:
(1)Copula函數(shù)的優(yōu)選:首先,對潛在的站點(diǎn)數(shù)據(jù)間按照排列組合的方法得到x-y形式的站點(diǎn)對假設(shè)有n個潛在站點(diǎn)就有個站對,在常用于水文領(lǐng)域的Archimedean Copula函數(shù)族(范圍內(nèi),基于最大似然法和AIC準(zhǔn)則求出表征Copula函數(shù)的參數(shù)θ值,最終確定對應(yīng)的Copula函數(shù);所述Archimedean Copula函數(shù)族是指Frank、G-H和Clayton Copula函數(shù),x和y是指任意兩個站點(diǎn);
(2)計算信息傳遞值:首先求出Copula熵,即Hc,以Copula熵Hc代替信息傳遞熵并結(jié)合站對之間的距離值,得出最為基本的指標(biāo)——信息傳遞強(qiáng)度值IDIT(the intensity of direction information transfer);
IDITxy=T(x,y)/[H(x)*d(x,y)]
IDITyx=T(x,y)/[H(y)*d(x,y)]
其中,x,y代表步驟(1)所得任意站對中的兩個站點(diǎn),xi,yi表示站點(diǎn)中的樣本數(shù)據(jù),c(xi,yi)表示站對的Copula密度樣本函數(shù)值,n為樣本大小,T(x,y)表示互信息,IDITxy表示站點(diǎn)x傳遞給站點(diǎn)y的信息強(qiáng)度值;同理,IDITyx表示站點(diǎn)y傳遞給站點(diǎn)x的信息強(qiáng)度值,H(x),H(y)表示邊緣熵;d(x,y)表示兩站點(diǎn)的距離;
(3)站網(wǎng)重組和優(yōu)選:基于計算得到的IDITxy和IDITyx,如果兩者都大于給定的閾值(閾值基于在0.8AI-1.5AI范圍內(nèi)),那么這兩個站點(diǎn)就會歸為同一組;如果兩個指標(biāo)都小于閾值,那么就是屬于不同的兩組;如果只有一個指標(biāo)大于閾值(假定是IDITxy大于閾值),意味著站點(diǎn)y的信息可以由站點(diǎn)x推斷得到,只要站點(diǎn)y不屬于其它組,那么站點(diǎn)y就可以由站點(diǎn)x取代,從而實(shí)現(xiàn)對站網(wǎng)進(jìn)行重新分組;
AI(Average IDIT)基于公式:
其中,x,y代表步驟(1)所得任意站對中的兩個站點(diǎn),IDITxy表示站點(diǎn)x傳遞給站點(diǎn)y的信息強(qiáng)度值;同理,IDITyx表示站點(diǎn)y傳遞給站點(diǎn)x的信息強(qiáng)度值;N為站點(diǎn)個數(shù)。
(4)然后基于以下三個綜合指標(biāo),在IDIT值較高的一組中,進(jìn)行進(jìn)一步的優(yōu)選:
N(x)=S(x)-R(x)
其中,S(x)表示站點(diǎn)x發(fā)出的總信息強(qiáng)度值,R(x)表示站點(diǎn)x收集到的總信息強(qiáng)度值;N(x)表示站點(diǎn)x凈信息強(qiáng)度值。
有益效果:本發(fā)明以Copula熵代替?zhèn)鹘y(tǒng)的互信息量,以最大似然法(MPL)對站對間的Copula函數(shù)進(jìn)行優(yōu)選,得出Copula以站點(diǎn)間的信息傳遞強(qiáng)度值為基本指標(biāo),對站網(wǎng)內(nèi)已有的站點(diǎn)進(jìn)行重新分組,從而對同一組的站點(diǎn)進(jìn)行站點(diǎn)篩選,并創(chuàng)新性地提出了信息傳遞量均值指標(biāo)(AI),并提出了閾值范圍的確定方法主要從信息傳遞量值和信息傳遞矩陣的兩方面對站網(wǎng)進(jìn)行評價。與現(xiàn)有技術(shù)下相比本發(fā)明具有以下優(yōu)點(diǎn):
(1)克服了傳統(tǒng)方法對于多變量間的聯(lián)合概率密度函數(shù)估計局限性。一方面,汲取了Copula函數(shù)對于多變量間的關(guān)聯(lián)性刻畫的優(yōu)勢;另一方面,利用Copula熵對于互信息的互為相反數(shù)的關(guān)系,很好的規(guī)避了對于互信息的估計,從而較為客觀地得出信息傳遞強(qiáng)度指標(biāo)。
(2)創(chuàng)新性地提出了信息傳遞量均值指標(biāo)(AI),并提出了閾值范圍的確定方法綜合性地提出三項(xiàng)表征各站點(diǎn)信息傳遞量的指標(biāo)S(x),R(x),N(x),對站網(wǎng)后期的站點(diǎn)篩選提供較為客觀依據(jù)。該模型綜合考慮了站網(wǎng)中站點(diǎn)間的信息傳遞量以及空間變異性的影響,對站網(wǎng)合理地規(guī)劃分組和優(yōu)選提供了評判標(biāo)準(zhǔn)。
綜上所述,本發(fā)明將Copula熵對互信息描述的優(yōu)越性,既可實(shí)現(xiàn)對站網(wǎng)信息的定量分析,又能綜合多個指標(biāo)進(jìn)行評價和優(yōu)化,具有合理性和有效性。
附圖說明
圖1為本發(fā)明中流程示意圖;
圖2為本發(fā)明的站點(diǎn)布置圖;
圖3為實(shí)施例的分組示意圖;
圖4為實(shí)施例中站點(diǎn)排序示意圖。
具體實(shí)施方式
下面對本發(fā)明技術(shù)方案進(jìn)行詳細(xì)說明,但是本發(fā)明的保護(hù)范圍不局限于所述實(shí)施例。
為便于理解本發(fā)明,做以下說明:
熵在統(tǒng)計學(xué)中是隨機(jī)變量不確定性的度量。設(shè)X是一個離散型隨機(jī)變量,其字母表取值空間為U,概率密度函數(shù)p(x)=Pr(X=x),x∈U。一個離散型隨機(jī)變量X的熵H(X)定義為
對于兩變量的情況,兩者之間的信息傳遞量T(X,Y)以互信息得以計算(Shannon,2001):
T(X,Y)=H(x)+H(y)-H(x,y)
依據(jù)Sklar定理(Zeng et al,2011),二元Copula為:
其中:u=FX(x)和v=FX(y)分別為隨機(jī)變量X和Y的邊緣累積分布函數(shù),FXY(x,y)為兩變量的聯(lián)合累積分布函數(shù)。由此推導(dǎo)出Copula密度函數(shù)為:
因此,可利用Copula函數(shù)來估計互信息,從而避免了聯(lián)合概率密度函數(shù)的估計。
如圖1所示,本發(fā)明的一種基于Copula熵的水文站網(wǎng)優(yōu)化模型,具體依次包括以下步驟:
步驟1.Copula函數(shù)的優(yōu)選:基于最大似然法(Maximum pseudo likelihood,MPL和AIC準(zhǔn)則對潛在的站點(diǎn)數(shù)據(jù)間進(jìn)行兩兩組合,得出若干個站點(diǎn)對,通過求出表征Copula函數(shù)的參數(shù)θ值,繼而在給定的中的常用于水文領(lǐng)域的三種Archimedean Copula函數(shù)即Frank,G-H,Clayton Copula函數(shù)最終確定對應(yīng)的Copula函數(shù)類型。具體的Copula函數(shù)的優(yōu)選步驟如下:
將每個站點(diǎn)的觀測數(shù)據(jù)作為隨機(jī)變量的觀測值xi(i=1,2,…,n),求得邊緣熵值H(xi)。
第1步,計算經(jīng)驗(yàn)概率分布函數(shù):對原數(shù)據(jù)進(jìn)行處理得出各個站點(diǎn)的邊緣經(jīng)驗(yàn)概率Fem(xi);
第2步,n個站點(diǎn)兩兩組成站對后,繼而基于最大似然法估計出Copula函數(shù)的參數(shù)θ值;
第3步,基于Kendall秩序相關(guān)系數(shù)法求出Copula的參數(shù)θ值作為比選方法。
步驟2.計算信息傳遞值:首先求出Copula熵——Hc,以Copula熵代替信息傳遞熵并結(jié)合站對之間的距離值,得出最為基本的指標(biāo)——信息傳遞強(qiáng)度值IDIT(the intensity of direction information transfer)。
IDITxy=T(x,y)/[H(x)*d(x,y)]
IDITyx=T(x,y)/[H(y)*d(x,y)]
其中,x,y代表站對中的兩個站點(diǎn),xi,yi表示站點(diǎn)中的樣本數(shù)據(jù),c(xi,yi)表示站對的Copula密度樣本函數(shù)值,n為樣本大小。T(x,y)表示互信息,IDITxy表示站點(diǎn)x傳遞給站點(diǎn)y的信息強(qiáng)度值;同理,DITyx表示站點(diǎn)y傳遞給站點(diǎn)x的信息強(qiáng)度值。H(x),H(y)表示邊緣熵;d(x,y)表示兩站點(diǎn)的距離。
IDIT很好地詮釋了任意站對之間互信息量大小和空間變異關(guān)系;如果一個站對之間的兩個指標(biāo)IDITxy,IDITyx都超過所選定的閾值,那么這兩個站點(diǎn)應(yīng)該歸于統(tǒng)一組別,因?yàn)樗麄兏髯钥梢曰ハ囝A(yù)測另一站點(diǎn)的信息量。反之,如果兩個指標(biāo)都小于閾值,那么他們應(yīng)該分屬兩個不同的組別;如果兩個指標(biāo)(假設(shè)IDITxy)一個大于閾值,另一個小于閾值,那么站點(diǎn)y的信息可以由站點(diǎn)x得來,那么只要站點(diǎn)y不屬于其他組別,那么便可以由站點(diǎn)x代替,站點(diǎn)y自然而然便可刪去。
當(dāng)然,IDIT這一指標(biāo)的閾值選取是顯為重要的一點(diǎn)。
步驟3.站網(wǎng)重組和優(yōu)選:基于計算得到的IDITxy和IDITyx,如果兩者都大于給定的閾值(閾值基于在0.8AI-1.5AI范圍內(nèi)),那么這兩個站點(diǎn)就會歸為同一組;如果兩個指標(biāo)都小于閾值,那么就是屬于不同的兩組;如果只有一個指標(biāo)大于閾值(假定是IDITxy大于閾值),意味著站點(diǎn)y的信息可以由站點(diǎn)x推斷得到,只要站點(diǎn)y不屬于其它組,那么站點(diǎn)y就可以由站點(diǎn)x取代,從而實(shí)現(xiàn)對站網(wǎng)進(jìn)行重新分組;
AI(Average IDIT)基于公式:
步驟4.在IDIT值較高的一組中,可以進(jìn)行進(jìn)一步的優(yōu)選?;谝韵氯齻€綜合指標(biāo):
N(x)=S(x)-R(x)
其中,S(x)表示站點(diǎn)x發(fā)出的總信息強(qiáng)度值,R(x)表示站點(diǎn)x收集到的總信息強(qiáng)度值;N(x)表示站點(diǎn)x凈信息強(qiáng)度值。
得出IDIT的信息傳遞矩陣,依據(jù)傳遞矩陣并結(jié)合選定的閾值,對站點(diǎn)重新分組,并將其中冗余的站點(diǎn)刪除。
接著對余下各組中,如果兩項(xiàng)指標(biāo)IDITxy和IDITyx相對于閾值都較高,那么需要在進(jìn)一步依據(jù)三個綜合指標(biāo)S(x),R(x),N(x),并對他們依次進(jìn)行組內(nèi)的站點(diǎn)排序。
實(shí)施例1:本實(shí)施以伊洛河流域水文站網(wǎng)優(yōu)化作為實(shí)際應(yīng)用
以伊洛河流域13個水文站組成的站網(wǎng)為例,以2003-2013年的月均流量序列為樣本,用基于Copula熵的水文站網(wǎng)優(yōu)化模型對該站網(wǎng)進(jìn)行評價和優(yōu)化。
(1)流域概況
本實(shí)施例的數(shù)據(jù)資料來源于黃河流域洛河、伊河以及伊洛河,2001年1月-2013年12月逐月均流量數(shù)據(jù)。伊洛河:伊河與洛河的簡稱,二水交匯后的稱謂。源出陜西洛南縣西北部,東入河南經(jīng)盧氏、洛寧、宜陽、洛陽至偃師納入洛河,到鞏縣的洛口注入黃河。伊洛河為黃河南岸支流。伊河全長264.88km,流域面積6029km2,沿程有欒川、潭頭、東灣、陸渾等水文站;洛河全長447km,流域面積18881km2,沿程設(shè)有靈口、長水、黑石關(guān)等水文站。(見圖2、表1)
表1伊洛河水系水文站一覽表
(2)模型運(yùn)行
首先對伊洛河流域水文站網(wǎng)內(nèi)的13個站點(diǎn)進(jìn)行編號(1~13),選取了八個站對之間的Copula函數(shù)模擬結(jié)果見表2。
表2水文站點(diǎn)間Copula函數(shù)模擬結(jié)果
表3信息傳遞強(qiáng)度矩陣(IDIT)
(3)站網(wǎng)評價
表2中加粗的字體為各站對選定的Copula函數(shù)種類,由表2中Copula函數(shù)模擬結(jié)果可知不同的站對之間的Copula函數(shù)種類不同的,MPL法對于站對數(shù)據(jù)的擬合性較好,絕對誤差也控制較好。
表3站對之間的信息傳遞量也隨著站對信息量和空間關(guān)系的不同而不同。
(4)站網(wǎng)優(yōu)化
依據(jù)表3并設(shè)定本站網(wǎng)的信息傳遞強(qiáng)度指標(biāo)閾值范圍為0.24,IDIT的第一個作用體現(xiàn)在對站網(wǎng)進(jìn)行重新分組上:選取站對1(8&9)和站對2(2&11)之間為例,站對1包含最大的指標(biāo)分別為0.37與0.30,站對2則都是0.02。依據(jù)IDIT評判標(biāo)準(zhǔn),站對1間的相互依賴程度強(qiáng)于站對2,所以站點(diǎn)8和9應(yīng)該屬于同一組,而2和11應(yīng)該分開。IDIT這一指標(biāo)的優(yōu)勢在于能夠量化不同站對間的信息傳遞強(qiáng)度并考慮到了他們之間的空間關(guān)系。所以可以得出最終的分組結(jié)果見圖3。站點(diǎn)1,3,4,6,7,8,9,10,13可以歸為一組,站點(diǎn)2,11,12各自為一組。其中站點(diǎn)5被刪去由于其指標(biāo)為:IDIT35=0.34,IDIT53=0.24,即站點(diǎn)5可以由站點(diǎn)3的信息強(qiáng)度值預(yù)測而來。
接著又依據(jù)依據(jù)三個綜合指標(biāo)S(i),R(i),N(i)對站點(diǎn)1,3,4,6,7,8,9,10,13這一組進(jìn)行組內(nèi)站點(diǎn)的信息強(qiáng)度值排序,見表4和圖4。由圖4可知,S(i)所表明的輸出信息量與N(i)表明的凈信息量正相關(guān),而R(i)則負(fù)相關(guān)于N(i);所以S(i)要比R(i)在凈信息量中的比重要更大。所以站點(diǎn)1,3,7應(yīng)該作為該組最該率先考慮的關(guān)鍵站點(diǎn),相反站點(diǎn)8應(yīng)該是站網(wǎng)精簡中應(yīng)該刪除的站點(diǎn)。
表4依據(jù)S(i),R(i)and N(i)三項(xiàng)指標(biāo)的排序分析
綜上所述,本發(fā)明采用的是Copula熵的方法,兼顧了信息傳遞量和站點(diǎn)空間變異關(guān)系,依據(jù)IDIT這一評價指標(biāo)定量地刻畫站網(wǎng)各站點(diǎn)間的信息冗余量和信息關(guān)聯(lián)度,為水文站網(wǎng)合理規(guī)劃和篩選提供技術(shù)支持。