一種基于信息熵的地下水?dāng)?shù)值模擬不確定性定量分析方法
【專利摘要】本發(fā)明提供了一種基于信息熵的地下水?dāng)?shù)值模擬不確定性定量分析方法,將預(yù)測變量概率分布的信息熵作為該變量的不確定性大小,根據(jù)貝葉斯模型平均方法的預(yù)測公式和信息熵理論,將地下水預(yù)測不確定性分解為模型結(jié)構(gòu)、模型參數(shù)和各概念模型預(yù)測分布間的重疊不確定性。能夠度量各種概率分布類型隨機變量的不確定性大小,克服了傳統(tǒng)方差法只能度量正態(tài)分布的缺陷,擴展了不確定性定量分析的應(yīng)用范圍;將地下水?dāng)?shù)值模擬不確定性分解為模型參數(shù)、模型結(jié)構(gòu)和重疊不確定性等三部分,能夠克服傳統(tǒng)方差法無法描述模型間重疊不確定性的缺點;將模型參數(shù)不確定性定義為各概念模型內(nèi)部(參數(shù))不確定性權(quán)重和減去模型間重疊的不確定性,從而能夠?qū)Ω鞑糠植淮_定性進(jìn)行更加準(zhǔn)確、合理的描述。
【專利說明】
一種基于信息熵的地下水?dāng)?shù)值模擬不確定性定量分析方法
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及一種不確定性定量描述方法,具體涉及一種地下水?dāng)?shù)值模擬不確定性 定量分析方法。
【背景技術(shù)】
[0002]地下水?dāng)?shù)值模擬受到眾多因素的影響,模擬(預(yù)測)結(jié)果的不確定性來源通常可以 歸納為:(1)模型參數(shù)的不確定性,即由于模型參數(shù)的不合理設(shè)置而導(dǎo)致的不確定性;(2)模 型結(jié)構(gòu)(概念模型)的不確定性,即由于對水文地質(zhì)概念模型進(jìn)行不合理的概化而導(dǎo)致的不 確定性。模型參數(shù)的不確定性首先得到了地下水工作者的注意,而概念模型不確定性通常 沒有給予足夠的重視,一般通過單一的水文地質(zhì)概念模型來表示地下水系統(tǒng),忽略其他模 型結(jié)構(gòu)存在的可能性,基于單一的模型結(jié)構(gòu)進(jìn)行地下水?dāng)?shù)值模擬及預(yù)測時,將過高估計該 模型的預(yù)測能力,并得到不可靠的預(yù)測結(jié)果。
[0003] 貝葉斯模型平均方法(Bayesian Model Averaging,BMA)被當(dāng)前廣泛用于處理地 下水?dāng)?shù)值模擬中的模型參數(shù)與結(jié)構(gòu)不確定性問題,在貝葉斯統(tǒng)計的框架內(nèi),BMA能夠融合各 類先驗信息(如模型參數(shù)和模型結(jié)構(gòu)),從而獲得預(yù)測變量(如地下水水位與水量、地下水污 染物濃度等)的后驗分布,其基本步驟可以總結(jié)為:
[0004] (1)根據(jù)研究區(qū)的水文地質(zhì)資料、專家知識等,建立一組可行的概念模型M[Mi, M2,…,Mn]來表不實際地下水系統(tǒng),N表不概念模型的數(shù)量,這些概念模型具有不同的結(jié)構(gòu);
[0005] (2)在觀測數(shù)據(jù)d下,針對每個概念模型Mk(k=l,-_,N)分別進(jìn)行參數(shù)不確定性分 析,如馬爾科夫鏈蒙特卡洛模擬,獲得變量A的預(yù)測分布f( A |d,Mk);
[0006] (3)根據(jù)拉普拉斯近似方法(Laplace approximation method)或蒙特卡洛方法 (Monte Carlo method)計算各概念模型的權(quán)重p(Mk|d);
[0007] (4)由BMA公式計算變量Δ的綜合預(yù)測分布:
[0008]
(1)
[0009]公式(1)中BMA預(yù)測分布的不確定性主要來自模型參數(shù)與結(jié)構(gòu)的不確定性,對預(yù)測 分布f( △ |d)的不確定性及其組成進(jìn)行定量分析能夠揭示預(yù)測不確定性的來源,從而為減 少地下水?dāng)?shù)值模擬不確定性提供指導(dǎo)依據(jù)。
[0010]傳統(tǒng)的方差法將隨機變量概率分布的方差定義為該變量的不確定性大小,將預(yù)測 分布f ( A | d)的方差分解為模型內(nèi)部方差(varw)與模型間方差(varb),分別表不模型參數(shù)和 模型結(jié)構(gòu)不確定性。根據(jù)公式(1),預(yù)測變量△的前兩階矩分別表示為:
[0011]
[0012]
[0013]
[0014]
(5)
[0015] 其中,E和var分別表示預(yù)測變量的均值和方差。
[0016] 傳統(tǒng)的方差法原理簡單,容易操作,但在應(yīng)用過程中可以發(fā)現(xiàn):(1)方差概念無法 合理的描述某些類型概率分布的不確定性,如多峰分布,而該類型的概率分布常見于地下 水?dāng)?shù)值模擬的預(yù)測分布;(2)方差法將各概念模型預(yù)測分布方差的加權(quán)定義為參數(shù)不確定 性,將各概念模型預(yù)測分布均值的方差定義為模型結(jié)構(gòu)不確定性,而不能描述相似結(jié)構(gòu)概 念模型間的重疊不確定性。因此,應(yīng)用方差法進(jìn)行地下水?dāng)?shù)值模擬不確定性定量分析時,具 有一定的局限性和不可靠性。
【發(fā)明內(nèi)容】
[0017] 發(fā)明目的:本發(fā)明的目的在于針對現(xiàn)有技術(shù)的不足,將預(yù)測變量的信息熵作為其 不確定性大小的度量,提供一種基于信息熵的地下水?dāng)?shù)值模擬不確定性定量分析方法。
[0018] 技術(shù)方案:本發(fā)明提供了基于信息熵的地下水?dāng)?shù)值模擬不確定性定量分析方法, 包括以下步驟:
[0019] (1)建立一組概念模型來代表研究區(qū)地下水系統(tǒng);
[0020] (2)對各概念模型進(jìn)行參數(shù)不確定性分析,獲得預(yù)測變量的概率分布,基于貝葉斯 多模型平均方法,對各概念模型的預(yù)測分布進(jìn)行權(quán)重平均,獲得考慮模型參數(shù)和結(jié)構(gòu)不確 定性的地下水綜合預(yù)測分布;
[0021 ] (3)根據(jù)信息熵理論,將預(yù)測變量概率分布的信息熵作為該變量的不確定性大小;
[0022] (4)根據(jù)貝葉斯模型平均方法的預(yù)測公式和信息熵理論,將地下水預(yù)測不確定性 分解為模型結(jié)構(gòu)、模型參數(shù)和各概念模型預(yù)測分布間的重疊不確定性。
[0023] 進(jìn)一步,步驟(4)的模型參數(shù)不確定性為概念模型后驗權(quán)重的離散信息熵,模型參 數(shù)不確定性為概念模型預(yù)測分布的信息熵。
[0024] 進(jìn)一步,步驟(4)中各概念模型預(yù)測分布的信息熵加權(quán)和減去各概念模型預(yù)測分 布間的重疊不確定性即為模型參數(shù)不確定性。
[0025] 有益效果:本發(fā)明針對傳統(tǒng)方差法存在的問題,將信息熵用于度量預(yù)測變量的不 確定性大小,并將總體不確定性分解為模型參數(shù)、模型結(jié)構(gòu)和重疊不確定性等三部分,相對 現(xiàn)有技術(shù)具有以下效果:
[0026] (1)能夠度量各種概率分布類型隨機變量的不確定性大小,克服了傳統(tǒng)方差法只 能度量正態(tài)分布的缺陷,擴展了不確定性定量分析的應(yīng)用范圍;
[0027] (2)將地下水?dāng)?shù)值模擬不確定性分解為模型參數(shù)、模型結(jié)構(gòu)和重疊不確定性等三 部分,能夠克服傳統(tǒng)方差法無法描述模型間重疊不確定性的缺點;
[0028] (3)將模型參數(shù)不確定性定義為各概念模型內(nèi)部(參數(shù))不確定性權(quán)重和減去模型 間重疊的不確定性,從而能夠?qū)Ω鞑糠植淮_定性進(jìn)行更加準(zhǔn)確、合理的描述。
【附圖說明】
[0029] 圖1為基于方差法的不確定性度量;
[0030] 圖2為基于信息熵法的不確定性度量。
【具體實施方式】
[0031] 下面對本發(fā)明技術(shù)方案進(jìn)行詳細(xì)說明,但是本發(fā)明的保護(hù)范圍不局限于所述實施 例。
[0032] 實施例:信息論中,對于離散變量X,信息熵Η定義為:
[0033]
(6)
[0034] 其中ρ(Χι)*Χι的概率。對于連續(xù)變量X,信息熵Η定義為:
[0035] H(x)=-/f(x)logf(x)dx (7)
[0036] 其中f(x)為X的概率密度函數(shù)。
[0037] KullbaCk-Leibler(K-L)散度(或相對熵D)用于表示兩個概率分布之間的相對距 離:
[0038] (8)
[0039] 其中,p(x)表示目標(biāo)的真實分布,D(p | | q)表示近似分布q(x)與真實分布之間的相 對距離。根據(jù)方程(8),相對熵的形式可以改寫為:
[0040] D(p | | q) =/p(x)logp(x)dx-/p(x)logq(x)dx = Hp(x)-IP[q(x)] (9)
[0041] Ip[q(x)]=EP[logq(x)] (10)
[0042] 其中,HP(x)為x的信息熵,IP[q(x)]為Fraser信息(Fraser information,FI),表示 在真實概率密度函數(shù)p(x)下,對于參數(shù)化模型q(x)的信息獲得量。
[0043] 基于BMA方程(1),預(yù)測變量Δ的平均概率密度為:
[0044]
k=\
[0045] 根據(jù)連續(xù)變量信息熵公式(7),變量△的信息熵可以表示為:
[0046]
[0047] 其中,S表示變量△的支撐集,從而將預(yù)測變量△的信息熵表達(dá)式分解為兩項,第 一項可以改寫為:
[0048]
[0049] 其中,F(xiàn)I表示Fraser信息,fk和fk'分別表示f ( Δ I d,Mk),f ( Δ I d,Mk'),1^ = 1,· · ·,N 表示第V個概念模型,H( △ I d,Mk)表示模型Mk預(yù)測分布的信息熵,H(M I d)表示概念模型權(quán)重 的信息熵。
[0050]
[0051]
[0052]方程(12)的第二項可以改寫為:
[0054] 其中,fBMA表不fBMA( Δ I d) 〇
[0055] 從而方程(12)可以改寫為:
[0056]
[0057]根據(jù)ΒΜΑ的邏輯過程,預(yù)測變量△的總體不確定性(U)來自三個步驟,分別是:
[0058] (1)概念模型結(jié)構(gòu)的選擇過程所導(dǎo)致的模型結(jié)構(gòu)不確定性(Ubm)
[0059] 由于地下水系統(tǒng)是一個復(fù)雜、未知的系統(tǒng),地下水模型的結(jié)構(gòu)具有多種可能性,每 種可能的模型結(jié)構(gòu)(概念模型)具有相應(yīng)的權(quán)重,選擇這些可能的模型結(jié)構(gòu)并賦予其權(quán)重的 過程將會產(chǎn)生不確定性。因此,模型結(jié)構(gòu)不確定性可表示為模型權(quán)重的離散信息熵H(M|d), 即公式(15)所示。
[0060] (2)各概念模型的參數(shù)及邊界條件的設(shè)置過程所導(dǎo)致的模型參數(shù)不確定性
[0061] 對于特定的單個概念模型Mk而言,其具有確定的模型結(jié)構(gòu),預(yù)測分布的不確定性 只來自于模型參數(shù)。因此,概念模型M k的預(yù)測不確定性可表示為其預(yù)測分布的信息熵Η( Δ d,Mk),即公式(14)所示。
[0062] (3)各概念模型預(yù)測分布的合并過程
[0063] 將各概念模型的預(yù)測分布進(jìn)行權(quán)重加和將會導(dǎo)致各概念模型預(yù)測不確定性(BPH (A |d,Mk))的累加。同時,由于不同概念模型可能具有部分相似的模型結(jié)構(gòu),對應(yīng)的預(yù)測分 布也存在一定的相關(guān)性,相關(guān)的預(yù)測分布進(jìn)行累加勢必將產(chǎn)生重疊不確定性。因此,將BMA 預(yù)測分布的參數(shù)不確定性(U?)定義為各概念模型參數(shù)不確定性的加權(quán)和減去各概念模型 預(yù)測分布間的重疊不確定性(U?),即:
[0064]
k~l
[0065] 根據(jù)公式(17),U?可表示為:
[0066]
[0067]本實施例通過3個例子來對比分析信息熵法和方差法在描述隨機變量不確定性及 BMA預(yù)測不確定性分解上的區(qū)別和特征。
[0068] (1)離散分布的不確定性分析
[0069] 假設(shè)有兩個概念模型M(Mi,M2),p(P1,p 2)表示Μ的后驗概率,E(Ei,E2)表示概念模型 預(yù)測分布的均值,考慮兩種情況:(l)P(Pl = 0·5,p2 = 0·5)和E(El = 10·0,E2 = 20·0);(2)p(pl = 0.99,p2 = 0.01)和E(El=10.0,E2 = 100.0)。對于方差法,兩種情況的模型結(jié)構(gòu)不確定性 分別為UbmJ = 15.0,Ubm_2 = 80.19,UbmJ〈Ubm_2。對于信息熵法,兩種情況的模型結(jié)構(gòu)不確定性 分別為Ubm_i = 0.6931,Ubm_2 = 0.0560,UbmJ>Ubm_2。兩種方法具有相反的評價結(jié)論。
[0070]根據(jù)不確定性分析的目的,BMA方法目標(biāo)在于識別一組備選概念模型中的潛在可 能的模型,對其預(yù)測結(jié)果進(jìn)行權(quán)重平均。當(dāng)已知某概念模型后驗概率極小(如0.01)時,該模 型可以從BMA中排除,從而降低模型結(jié)構(gòu)(概念模型)不確定性,而當(dāng)不同模型具有相似大小 (如0.5)的后驗權(quán)重時,所有的模型結(jié)構(gòu)都是可能存在的,從而模型結(jié)構(gòu)不確定性最大。因 此,情況(2)的模型結(jié)構(gòu)不確定性要大于情況(1),信息熵方法對此進(jìn)行了準(zhǔn)確的評價。 [007?] (2)連續(xù)分布的不確定性分析
[0072] 假設(shè)預(yù)測變量△的概率分布為f( △),考慮兩種情況:(l)f( △)服從如下正態(tài)分布 類型,
[0073]
[0074] (2)f( Δ )服從雙峰(混合正態(tài))分布類型,
[0075]
[0076] 對于方差法,兩種情況f( Δ )的預(yù)測總體不確定性分別為= = 對 于信息熵法,兩種情況f ( Δ )的總體預(yù)測不確定性分別為山=2.8052,U2 = 2.1121,UOU2。兩 種方法具有相反的評價結(jié)論。
[0077]根據(jù)f( △)的概率分布在不同置信水平下的預(yù)測分布區(qū)間的寬度,可以判斷f( △) 不確定性的相對大小。在50%、75%和90%置信水平下,情況(1 )f( △)的預(yù)測區(qū)間寬度分別 為5.4、9.2和13.16,情況(2)汽&)的預(yù)測區(qū)間寬度分別為2.68、4.60和6.56。因此,可以判 斷情況(2)下的f( △)預(yù)測不確定性要小于情況(1),從而信息熵方法獲得了準(zhǔn)確的評價結(jié) 果。
[0078] (3)預(yù)測分布的不確定性分解
[0079] 假設(shè)概念模型的預(yù)測分布均為正態(tài)分布,分別為5(八)=沁&,〇2)彳2 (Α )=Ν2(-μ,σ2),μ為均值,σ2為方差,且σ2 = 1。模型后驗權(quán)重均為0.5,獲得的ΒΜΑ預(yù)測分布 為:
[0080] fBMA( Δ )=〇·5*Νι(μ,1)+0·5*Ν2(-μ,1) (23)
[0081] 利用方差法對ΒΜΑ預(yù)測分布進(jìn)行分解,獲得的模型參數(shù)(Uwm)與模型結(jié)構(gòu)不確定性 (Ubm)分別為U?=l,U bm=y2。如圖1所示,隨著μ的變化,U?保持為一個固定的常數(shù),而Ubm隨著 μ的增加而增加。圖2(a)所示為基于信息熵法計算得到的模型參數(shù)(U?)與模型結(jié)構(gòu)不確定 性(1^),1^保持為一個固定的常數(shù),而隨著μ的增加,U?先增加,然后逐漸收斂至一個穩(wěn)定 值。因此,方差法和信息熵法對BMA預(yù)測不確定性的分解有不同的評價結(jié)果。
[0082] 方程(23)所示為兩個正態(tài)概率分布的和,隨著μ的增加(從0-10),這兩個概率分布 空間逐漸遠(yuǎn)離,因此模型間mMhMs)預(yù)測分布的重疊不確定性U?應(yīng)逐漸減小至0。圖2(b)描 述了 U?隨μ的增加而逐漸減小至0的過程,以及模型參數(shù)不確定性U?逐漸增加至穩(wěn)定值。因 此,信息熵方法能夠更加合理的定量刻畫預(yù)測不確定性的分解,以及獲得更多的模型內(nèi)部 信息。
[0083]本發(fā)明針對傳統(tǒng)方差法在地下水?dāng)?shù)值模擬不確定性分析中的局限性,建立了基于 信息熵理論的不確定性定量分析方法。通過案例(1)分析可以看出,信息熵法能夠更加合理 的描述離散概率分布的不確定性,從而能夠更加合理的刻畫模型結(jié)構(gòu)不確定性。通過案例 (2)分析可以看出,信息熵方法能夠更加合理的描述雙峰概率分布類型的不確定性,從而能 夠?qū)υ擃愋偷牡叵滤A(yù)測分布不確定性進(jìn)行準(zhǔn)確的刻畫。通過案例(3)分析可以看出,信息 熵方法能夠更加合理的對地下水?dāng)?shù)值模擬預(yù)測不確定性進(jìn)行分解,且能獲得更多關(guān)于不同 模型預(yù)測分布之間的信息。
【主權(quán)項】
1. 一種基于信息熵的地下水?dāng)?shù)值模擬不確定性定量分析方法,其特征在于:包括以下 步驟: (1) 建立一組概念模型來代表研究區(qū)地下水系統(tǒng); (2) 對各概念模型進(jìn)行參數(shù)不確定性分析,獲得預(yù)測變量的概率分布,基于貝葉斯多模 型平均方法,對各概念模型的預(yù)測分布進(jìn)行權(quán)重平均,獲得考慮模型參數(shù)和結(jié)構(gòu)不確定性 的地下水綜合預(yù)測分布; (3) 根據(jù)信息熵理論,將預(yù)測變量概率分布的信息熵作為該變量的不確定性大??; (4) 根據(jù)貝葉斯模型平均方法的預(yù)測公式和信息熵理論,將地下水預(yù)測不確定性分解 為模型結(jié)構(gòu)、模型參數(shù)和各概念模型預(yù)測分布間的重疊不確定性。2. 根據(jù)權(quán)利要求1所述的基于信息熵的地下水?dāng)?shù)值模擬不確定性定量分析方法,其特 征在于:步驟(4)的模型參數(shù)不確定性為概念模型后驗權(quán)重的離散信息熵,模型參數(shù)不確定 性為概念模型預(yù)測分布的信息熵。3. 根據(jù)權(quán)利要求2所述的基于信息熵的地下水?dāng)?shù)值模擬不確定性定量分析方法,其特 征在于:步驟(4)中各概念模型預(yù)測分布的信息熵加權(quán)和減去各概念模型預(yù)測分布間的重 疊不確定性即為模型參數(shù)不確定性。
【文檔編號】G06Q10/04GK105975444SQ201610349745
【公開日】2016年9月28日
【申請日】2016年5月24日
【發(fā)明人】曾獻(xiàn)奎, 吳吉春, 王棟, 祝曉彬
【申請人】南京大學(xué)