專利名稱:一種精細(xì)尺度下的動態(tài)風(fēng)險及易損性預(yù)測方法
技術(shù)領(lǐng)域:
本發(fā)明一種精細(xì)尺度下的動態(tài)風(fēng)險及易損性預(yù)測方法,用于對突發(fā)性公共災(zāi)害的預(yù)測,屬于地球信息科學(xué)技術(shù)領(lǐng)域。
背景技術(shù):
突發(fā)性公共災(zāi)害事件的監(jiān)測預(yù)警在國家防災(zāi)減災(zāi)中占據(jù)著重要地位,準(zhǔn)確及時的預(yù)警將會大幅減少生命財產(chǎn)的損失,提高防災(zāi)減災(zāi)的效率。建立及時、準(zhǔn)確的監(jiān)測預(yù)警系統(tǒng)一直是國家防災(zāi)減災(zāi)的重點(diǎn);同時,由于突發(fā)公共災(zāi)害事件的突發(fā)性、隨機(jī)性、影響因素的多樣性及不確定性,準(zhǔn)確及時的預(yù)報是比較困難的,而風(fēng)險分析作為監(jiān)測預(yù)警中的關(guān)鍵技術(shù),其研究及相關(guān)技術(shù)的實現(xiàn)日趨重要。
當(dāng)前風(fēng)險分析技術(shù)主要是根據(jù)災(zāi)害的來源、發(fā)生的環(huán)境及承受者,將影響災(zāi)害風(fēng)險的因素劃分為致災(zāi)因子、孕災(zāi)環(huán)境及承災(zāi)體三方面,對這些方面的因子進(jìn)行聚類或者模糊綜合評判從而計算災(zāi)害風(fēng)險的水平,是一種脆性分析方法。如對洪水災(zāi)害,通過分析直接誘因既大暴雨、孕災(zāi)環(huán)境既自然地理條件及承災(zāi)體既人口分布及房屋布局等,綜合評判形成不同風(fēng)險級別分區(qū)(低、中、高)。而易損性主要考慮了承災(zāi)體本身的損失特性,是風(fēng)險分析的擴(kuò)展到承災(zāi)體上,技術(shù)基本上同風(fēng)險分析差異不大。
傳統(tǒng)的風(fēng)險分析及易損性分析方法存在著以下局限 (1)有的方法基于脆性(crisp)數(shù)值的分析方法,體現(xiàn)在風(fēng)險水平的低、中、高或者類似級別的絕對劃分,不確定性信息考慮不足(黃崇福,2001,自然災(zāi)害風(fēng)險分析,北京北京師范大學(xué)出版社;魏一鳴等,2002,洪水災(zāi)害風(fēng)險管理理論,北京科學(xué)出版社); (2)還有方法是基于中尺度或大尺度下的分析結(jié)果,缺乏精細(xì)尺度下的風(fēng)險概率及易損性估算,更難進(jìn)行精細(xì)尺度下的空間定位,預(yù)測結(jié)果定位偏差大(王艷艷,2002,不同尺度的洪澇災(zāi)害損失評估模式述評,水利發(fā)展研究,第2卷,第12期); (3)另外還有方法忽視災(zāi)害事件或者影響因子在空間上的相關(guān)性,但空間相關(guān)性常常對結(jié)果有著重要影響,且災(zāi)害事件作為地球表層事件,災(zāi)害事件或者誘發(fā)因子之間存在著一定的空間相關(guān)性(Li,L.,et al.2005,Typhoon insurance pricing with spatialdecision support tools,International Journal of Geographical Information Science,19(3)363-384;Tobler,W.R.,1979,Cellular Geography,Philosophy in Geography,DordrechtReidel); (4)再有的方法缺乏根據(jù)實時資料靈活地對風(fēng)險進(jìn)行動態(tài)概率推理的能力,實時預(yù)測功能比較缺欠(William,J.P.,and Arthur,A.,1982,Natural Hazard Risk Assessmentand Public Policy,New YorkSpringer-Verlag New York Inc.)。
隨著信息技術(shù)的發(fā)展,近年來日益發(fā)展的人工智能、數(shù)據(jù)挖掘及空間分析技術(shù)提供了更好的手段及新思路來探測日益增多的時空數(shù)據(jù),從而可采用比原來基于少量歷史數(shù)據(jù)的統(tǒng)計方法更有效的方法。人工智能方法是通過機(jī)器模擬人類的思考與推理,其分析結(jié)果更體現(xiàn)靈活性與客觀性,如基于概率的不確定性推理的貝葉斯網(wǎng)絡(luò);數(shù)據(jù)挖掘則是從海量數(shù)據(jù)中找到最優(yōu)解(模型、參數(shù)),可為構(gòu)造預(yù)測性能良好的貝葉斯網(wǎng)絡(luò)提供學(xué)習(xí)算法;空間數(shù)據(jù)挖掘則是針對空間分布的對象的數(shù)據(jù)挖掘,由于空間對象本身具有空間屬性(位置、空間相關(guān)性、拓?fù)潢P(guān)系及形狀等),空間數(shù)據(jù)挖掘則通過分析探索地物屬性在空間上的相關(guān)性或變異性,為學(xué)習(xí)、預(yù)測及推理提供空間信息。
發(fā)明內(nèi)容
本發(fā)明的技術(shù)解決問題克服現(xiàn)有針對現(xiàn)有的風(fēng)險綜合評判技術(shù)的不足,提供一種精細(xì)尺度下的動態(tài)風(fēng)險及易損性預(yù)測方法,該方法擴(kuò)展了訓(xùn)練數(shù)據(jù)的來源,提高分析的細(xì)節(jié)及精細(xì)的空間尺度定位功能,提高了預(yù)測的精度及效果,可進(jìn)行實時的動態(tài)的災(zāi)害風(fēng)險及易損性分析。
本發(fā)明通過以下的步驟得以實現(xiàn)一種精細(xì)尺度下的動態(tài)風(fēng)險及易損性預(yù)測方法,步驟如下 (1)相關(guān)數(shù)據(jù)的采集及預(yù)處理按致災(zāi)因子、孕災(zāi)環(huán)境及承災(zāi)體三個采集預(yù)測因子X及災(zāi)害損失變量y,并進(jìn)行預(yù)處理產(chǎn)生精細(xì)尺度下的訓(xùn)練樣本數(shù)據(jù)集;所述的致災(zāi)因子是指直接導(dǎo)致災(zāi)害的可測量因子變量,所述的孕災(zāi)環(huán)境指在致災(zāi)因子存在的前提下導(dǎo)致災(zāi)害損失發(fā)生的自然地理環(huán)境,所述的承災(zāi)體特性指各種主要以人為主的承受災(zāi)害的對象遭受災(zāi)害所帶來損失的性質(zhì); (2)采用融入空間相關(guān)性的核密度函數(shù)方法對步驟(1)的訓(xùn)練樣本數(shù)據(jù)集衍生出新的訓(xùn)練樣本數(shù)據(jù),以彌補(bǔ)調(diào)查數(shù)據(jù)不足,并補(bǔ)充完整精細(xì)尺度下的訓(xùn)練樣本數(shù)據(jù); (3)預(yù)測因子的特征選擇根據(jù)訓(xùn)練樣本數(shù)據(jù),采用三種方法衡量影響因子同目標(biāo)因子的相關(guān)性,即線性相關(guān)系數(shù)、基于熵的信息獲取率及粗糙集的屬性重要性,結(jié)合主成分分析選擇預(yù)測因子X; (4)對步驟(3)所選擇的預(yù)測因子集中的連續(xù)變量進(jìn)行離散化,采用模擬退火優(yōu)化算法搜索貝葉斯網(wǎng)絡(luò)模型,估計網(wǎng)絡(luò)的條件概率參數(shù); (5)利用生成的貝葉斯網(wǎng)絡(luò)模型進(jìn)行完全或不完全證據(jù)支持下的風(fēng)險及易損性概率預(yù)測; (6)在地圖上實時動態(tài)地定位所預(yù)測的風(fēng)險概率及易損性,識別區(qū)域上的風(fēng)險及潛在損失分布狀況,為救災(zāi)減災(zāi)的實施提供輔助決策支持信息。
所述步驟(1)中的預(yù)處理方法為對致災(zāi)因子、孕災(zāi)環(huán)境及承災(zāi)體特性數(shù)據(jù)經(jīng)預(yù)處理轉(zhuǎn)換成統(tǒng)一分辨率的柵格數(shù)據(jù)集,分不同的情況采用以下步驟 a.對矢量數(shù)據(jù)預(yù)處理方法 對于點(diǎn)數(shù)據(jù),采用k-最近鄰方法或者Kriging方法插值算法,將點(diǎn)數(shù)據(jù)轉(zhuǎn)換成柵格數(shù)據(jù);對于線數(shù)據(jù)采用數(shù)字微分分析法DDA法或Bresenham方法轉(zhuǎn)換成柵格數(shù)據(jù);對于面數(shù)據(jù)采用掃描法;轉(zhuǎn)換成統(tǒng)一分辨率的柵格數(shù)據(jù); b.對于柵格的預(yù)處理方法 對于柵格數(shù)據(jù),如果坐標(biāo)或目標(biāo)柵格數(shù)據(jù)不一致時,采用最近鄰法進(jìn)行重采樣,形成轉(zhuǎn)換成統(tǒng)一分辨率的柵格數(shù)據(jù); 將矢量數(shù)據(jù)和柵格再柵格化后即形成統(tǒng)一分辨率的柵格數(shù)據(jù)集。
所述步驟(2)采用了融入空間相關(guān)性的核函數(shù)方法衍生樣本點(diǎn)數(shù)據(jù),彌補(bǔ)調(diào)查數(shù)據(jù)及歷史資料的不足,補(bǔ)充完整精細(xì)尺度下的訓(xùn)練樣本數(shù)據(jù)的步驟為 a.調(diào)查確定災(zāi)害事件及其損失情況; b.采用正態(tài)核密度函數(shù)計算估計目標(biāo)變量的核函數(shù) 其中的影響寬度λ可隨災(zāi)害強(qiáng)度的不同設(shè)置不同值,d(z,Zi)為空間上任意一點(diǎn)z與調(diào)查數(shù)據(jù)點(diǎn)Zi間的歐氏距離,z可為災(zāi)害事件y或者因子變量x; c.由各觀察值點(diǎn)的核密度函數(shù)可推出空間任意一點(diǎn)的影響強(qiáng)度 其中,n為觀察值數(shù)據(jù)點(diǎn)數(shù),z為空間任意點(diǎn),Zi為相應(yīng)的觀察值點(diǎn)數(shù)值,Kλ(z,Zi)為核函數(shù)。
所述步驟(3)采用三種方法衡量影響因子同目標(biāo)因子的相關(guān)性具體如下 a.所述的線性相關(guān)性是采用統(tǒng)計學(xué)Pearson相關(guān)系數(shù)來衡量連續(xù)變量之間的線形相關(guān)性,但該方法忽略了變量之間可能存在的非線形關(guān)系及非連續(xù)變量相關(guān)關(guān)系; b.所述的基于信息熵的分類貢獻(xiàn)函數(shù),即Quinlan的Information Gain IG及Information Gain Ratio GR衡量輔助變量同目標(biāo)變量之間的關(guān)系,選擇對分類貢獻(xiàn)較大的變量,IG及GR的定義如下 IG(y,x)=H(y)-H(y|x) GR(y,x)=(H(x)-H(y|x))/H(x) H(y)是熵的定義,而H(y|x)是針對類別x的條件熵的定義; c.所述的采用粗糙集屬性重要性為通過計算輔助變量對目標(biāo)變量的分類能力來衡量二個變量的相關(guān)性,選擇重要性更大的特征變量 其中,X為因子變量集,xj是要計算屬性重要性的因子變量,γ(X,y)是粗糙集中目標(biāo)變量y對因子變量集X的依賴性; d.所述的采用主成分分析為選擇獨(dú)立性強(qiáng)的代表因子,刪除信息冗余因子。
所述步驟(4)對選擇的預(yù)測因子集中的連續(xù)變量進(jìn)行離散化,采用模擬退火優(yōu)化算法搜索貝葉斯網(wǎng)絡(luò)模型,估計網(wǎng)絡(luò)的條件概率參數(shù)的步驟如下 a.建立貝葉斯網(wǎng)絡(luò)模型框架對貝葉斯網(wǎng)絡(luò)B=(BS,BP),令目標(biāo)變量y為災(zāi)害事件或相關(guān)災(zāi)害損失事件,則y狀態(tài)空間定義為“災(zāi)害發(fā)生”與“災(zāi)害不發(fā)生”兩種狀況,或者“損失嚴(yán)重”與“損失不嚴(yán)重”兩種狀況,或者“損失最嚴(yán)重”、“損失嚴(yán)重”“損失一般”與“輕微損失或無損失”四種狀況;若已知一些證據(jù),即解釋變量因子集X中的一些因子,通過計算邊際概率而求得y的相應(yīng)狀態(tài)發(fā)生的后驗概率,亦稱信任函數(shù) 其中,為隨機(jī)變量集V上的聯(lián)合概率,xi既為影響因子集X中的隨機(jī)變量,yj表示目標(biāo)變量y取第j種狀態(tài)情況; b.采用優(yōu)化的離散化方法轉(zhuǎn)換連續(xù)類型數(shù)據(jù),作為因子變量的狀態(tài)空間值輸入貝葉斯網(wǎng)絡(luò)模型進(jìn)行計算,算法采用基于熵的衡量標(biāo)準(zhǔn) 其中,impurity(k,j,i)為當(dāng)從j到i的訓(xùn)練樣本被劃分成k個區(qū)間時的最小的測量值impurity,最優(yōu)的劃分區(qū)間k則是impurity(k,j,i),N為連續(xù)變量因子值的基,測量值impurity是每次劃分的平均類熵,其最小使得用于編碼離散化區(qū)間而進(jìn)行預(yù)測的字節(jié)數(shù)最?。? c.搜索最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu) 采用貝葉斯質(zhì)量記分函數(shù)作為標(biāo)準(zhǔn),搜索策略是通過模擬金屬的退火即硬化過程而找到網(wǎng)絡(luò)結(jié)構(gòu)的最優(yōu)解,退火過程從開始加熱金屬致其融化與金屬離子自由游動開始,溫度緩慢有序地降低直到金屬粒子在一個高結(jié)構(gòu)化的格網(wǎng)中成型;一個潛在的網(wǎng)絡(luò)相當(dāng)一個解,對應(yīng)一個同網(wǎng)絡(luò)質(zhì)量測量值有關(guān)的價值函數(shù),通過退火即溫度T的降低,搜索最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu); d.估計網(wǎng)絡(luò)參數(shù) 得到網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)后,采用基于Dirichlet分布的經(jīng)典算法,疊代地估計條件概率參數(shù)值; e.風(fēng)險概率及易損性預(yù)測 將所建立的貝葉斯網(wǎng)絡(luò)用于一定證據(jù)支持下風(fēng)險或易損性概率預(yù)測,采用適用于環(huán)路的信任傳遞算法即經(jīng)典的Pearl信息傳遞算法實現(xiàn),如所得到網(wǎng)絡(luò)是單連接樹,該算法則采用PolyTree的精確算法實現(xiàn)預(yù)測;而對包括環(huán)路的網(wǎng)絡(luò),該算法則采用為精度較高的近似算法實現(xiàn)預(yù)測。
所述(5)利用生成的貝葉斯網(wǎng)絡(luò)模型進(jìn)行完全或不完全證據(jù)支持下的風(fēng)險及易損性概率預(yù)測方法為估算中數(shù)據(jù)輸入為允許缺失數(shù)值的同分辨率及坐標(biāo)的多維柵格數(shù)據(jù),每柵格單元為一個預(yù)測對象,將每單元對應(yīng)屬性值輸入模型,通過估計精細(xì)尺度下既一定分辨率的各個柵格單元的風(fēng)險概率或易損性,從而估算區(qū)域上風(fēng)險概率。
本發(fā)明與現(xiàn)有技術(shù)相比的優(yōu)點(diǎn)在于本發(fā)明方法可融合多源、異構(gòu)的數(shù)據(jù)進(jìn)行風(fēng)險(易損性)概率預(yù)測估計,突破了傳統(tǒng)方法的局限,體現(xiàn)在以下幾方面 (1)本發(fā)明是建立在精細(xì)尺度下既一定分辨率的柵格單元上的風(fēng)險及易損性預(yù)測模型,特別是提出了在調(diào)查樣本數(shù)據(jù)稀少時,結(jié)合機(jī)理可采用融合了空間信息的核密度函數(shù)方法來衍生因子及目標(biāo)變量柵格數(shù)據(jù),彌補(bǔ)調(diào)查樣本缺乏的不足。核密度方法,可克服在進(jìn)行精細(xì)尺度分析時數(shù)據(jù)稀少而不能進(jìn)行的缺點(diǎn),有利于精細(xì)尺度下的風(fēng)險及易損性估算及預(yù)測,也克服了中或粗尺度下預(yù)測效果低,不能很好地進(jìn)行空間定位的缺陷。
(2)通過采用優(yōu)化的離散化方法離散化連續(xù)變量,使得本發(fā)明能融合不同數(shù)據(jù)類型(連續(xù)、離散及類別)采用貝葉斯網(wǎng)絡(luò)模型進(jìn)行風(fēng)險及易損性概率預(yù)測,提高了預(yù)測因子的信息含量,這是傳統(tǒng)風(fēng)險分析方法所不具備的。
(3)采用結(jié)構(gòu)靈活的貝葉斯網(wǎng)絡(luò)模型來建立預(yù)測因子同目標(biāo)變量之間的概率依賴關(guān)系,靈活多變的網(wǎng)絡(luò)拓?fù)溆兄谌谌氩煌瑏碓醇邦愋偷臄?shù)據(jù)進(jìn)行風(fēng)險概率的預(yù)測,為風(fēng)險分析提供是一種不確定性信息,而不是“脆”的風(fēng)險分級信息,體現(xiàn)在地圖上則是風(fēng)險概率的柵格圖像,提供了比傳統(tǒng)分析方法更客觀的軟信息。
(4)在網(wǎng)絡(luò)的預(yù)測因子及訓(xùn)練過程中融合了空間信息,而貝葉斯網(wǎng)絡(luò)靈活多變的網(wǎng)絡(luò)拓?fù)湟灿兄谕ㄟ^概率依賴關(guān)系融入因子變量之間復(fù)雜的空間相關(guān)關(guān)系,算法考慮了空間相關(guān)性及空間變異性的影響,這也是傳統(tǒng)方法所缺欠的。
(5)通過優(yōu)化的模擬退火搜索算法可學(xué)到跟數(shù)據(jù)背景適應(yīng)的預(yù)測模型,即使在不完備信息既“證據(jù)”情況下,也可通過環(huán)路Pearl的信息傳播算法估計風(fēng)險概率水平,比傳統(tǒng)方法有更強(qiáng)的概率估算及預(yù)測功能。
圖1為時間與災(zāi)害風(fēng)險之間的關(guān)系圖; 圖2為本發(fā)明方法流程圖; 圖3為本發(fā)明具體實施方式
中結(jié)合的典型研究案例地圖黑河流域地區(qū); 圖4為本發(fā)明方法從數(shù)據(jù)中搜索得到的優(yōu)化的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)圖; 圖5為三種方法,既本發(fā)明方法、
Bayes及邏輯斯特方法的交叉驗證結(jié)果的受試者特征(ROC)曲線的對比,其中本發(fā)明方法更靠近最優(yōu)分類點(diǎn),說明預(yù)測性能較好; 圖6為三種方法,既本發(fā)明方法、
Bayes及邏輯斯特方法的由2006年的數(shù)據(jù)預(yù)測2007年的災(zāi)害風(fēng)險結(jié)果的ROC曲線對比; 圖7為本發(fā)明提出的貝葉斯網(wǎng)絡(luò)模型預(yù)測的各柵格單元的風(fēng)險概率圖。
具體實施例方式 如圖1所示,為時間與災(zāi)害風(fēng)險之間的經(jīng)驗關(guān)系,說明了時間對減災(zāi)救災(zāi)的重要性,而本發(fā)明提出的方法通過預(yù)測與評估可適當(dāng)提高減災(zāi)效率。
一、如圖2所示,本發(fā)明方法的具體實現(xiàn)步驟為 1、數(shù)據(jù)集的采集及預(yù)處理,本發(fā)明通過融合精細(xì)尺度下多種類型的(包括三種連續(xù)、離散及類別)及多個來源的數(shù)據(jù)的空間數(shù)據(jù)集X進(jìn)行建模預(yù)測。這些數(shù)據(jù)經(jīng)過適當(dāng)?shù)念A(yù)處理及轉(zhuǎn)換,得到訓(xùn)練樣本及測試數(shù)據(jù)集。
所搜集的數(shù)據(jù)可根據(jù)災(zāi)害的原理劃分成三方面 (1)致災(zāi)因子,直接導(dǎo)致災(zāi)害的可測量因子變量,不同災(zāi)種有不同致災(zāi)因子,如洪水的致災(zāi)因子可為降雨,而臺風(fēng)的致災(zāi)因子則為風(fēng)速。
(2)孕災(zāi)環(huán)境,在致災(zāi)因子存在的前提下導(dǎo)致災(zāi)害損失發(fā)生的自然地理環(huán)境,如高程、坡度、地貌、植被、土地利用狀況等。
(3)承災(zāi)體屬性,指各種承受災(zāi)害的對象(主要以人為主)遭受災(zāi)害所帶來損失的性質(zhì),包括社會經(jīng)濟(jì)(如GDP)、收入、人口分布等。
這些不同來源的數(shù)據(jù)經(jīng)過處理轉(zhuǎn)換成統(tǒng)一柵格單元大小的柵格數(shù)據(jù)集。預(yù)處理涉及到以下幾方面 (1)數(shù)據(jù)的插補(bǔ)及缺失數(shù)據(jù)分析 (a)點(diǎn)數(shù)據(jù)需要轉(zhuǎn)換成柵格數(shù)據(jù),轉(zhuǎn)化考慮了空間相關(guān)性,采用k-最近鄰方法或Kriging方法插值算法; (b)而如多維數(shù)據(jù)有某些缺失項,采用融合其他域變量信息的期望最大化,插補(bǔ)后數(shù)據(jù)更符合實際數(shù)據(jù)分布。
(2)矢量柵格化 對于矢量柵格化,不同類型的矢量數(shù)據(jù)有不同處理方法 (a)點(diǎn)數(shù)據(jù)采用前面提到的插值算法,既k-最近鄰或者Kriging;線數(shù)據(jù)采用可采用DDA法(數(shù)字微分分析法)和Bresenham方法; (b)而對于面數(shù)據(jù)采用掃描法。
(3)柵格的再柵格化 對柵格的再柵格化,目的是形成同樣?xùn)鸥駟卧笮〉臄?shù)據(jù)集,也稱重采樣,既用原格網(wǎng)中的單元值填充新格網(wǎng)中的單元值,采用k-最近鄰方法。
2、采用融入空間相關(guān)性的核密度函數(shù)方法衍生訓(xùn)練樣本,補(bǔ)充完成精細(xì)尺度下的柵格數(shù)據(jù)集。根據(jù)空間自相關(guān)原理,既“越近越相關(guān)”,結(jié)合遙感影像、歷史記錄及調(diào)查資料,在樣本數(shù)據(jù)少,獲取昂貴情況下,可采用核函數(shù)法衍生樣本數(shù)據(jù),以彌補(bǔ)樣本數(shù)據(jù)的不足;具有以下步驟 (1)調(diào)查確定災(zāi)害事件及其損失情況,或者相關(guān)屬性的取值情況。
(2)采用核函數(shù)進(jìn)行估算,該方法依據(jù)空間相關(guān)性機(jī)理,認(rèn)為影響點(diǎn)或線,如泛濫的河流,對周邊的影響隨距離逐步遞減,采用正態(tài)核密度函數(shù) 其中的影響寬度λ可隨災(zāi)害強(qiáng)度的不同設(shè)置不同值,d(z,Zi)為空間上任意一點(diǎn)z與調(diào)查數(shù)據(jù)點(diǎn)Zi間的歐氏距離。z可為災(zāi)害事件y或者因子變量x當(dāng)z為災(zāi)害事件y時,d(y,Yi)表示為空間上任意一點(diǎn)的災(zāi)害事件的強(qiáng)度或損失y同空間上歷史或調(diào)查事件點(diǎn)的觀察值Yi間的歐氏距離,可以將災(zāi)害事件強(qiáng)度或損失劃分成不同的風(fēng)險影響級別(如低、中、高)而獲得不同級別風(fēng)險水平的樣本;當(dāng)z為影響因子x時,d(x,Xi)表示空間上任意一點(diǎn)該因子的強(qiáng)度x同空間上歷史或調(diào)查事件點(diǎn)的觀察值Xi間的歐氏距離,如離開河流的遠(yuǎn)近,靠近河流的更容易遭受損失,遠(yuǎn)離的遭受損失的概率就低。
(3)由各觀察值點(diǎn)的核密度函數(shù)可推出空間任意一點(diǎn)的影響強(qiáng)度 其中,n為觀察值數(shù)據(jù)點(diǎn)數(shù),z為空間任意點(diǎn),Zi為相應(yīng)的觀察值點(diǎn)數(shù)值,Kλ(z,Zi)為式(1)所確定的核函數(shù)。根據(jù)對影響強(qiáng)度Density(z)的分級,由此將柵格單元劃分成不同的風(fēng)險影響級別或水平的訓(xùn)練樣本。
核函數(shù)方法符合空間數(shù)據(jù)的基本性質(zhì)既空間相關(guān)性,可彌補(bǔ)采用遙感數(shù)據(jù)、歷史數(shù)據(jù)或?qū)嵉卣{(diào)查資料的不足,產(chǎn)生更全面的訓(xùn)練樣本數(shù)據(jù)。主要體現(xiàn)在兩方面就風(fēng)險影響因子而言,可在矢量柵格化中采用核密度方法衍生影響因子?xùn)鸥駡D(如河流、城鎮(zhèn)居民地);而就目標(biāo)變量(災(zāi)害事件而言),可采用核密度方法衍生出目標(biāo)變量的核心(如高、低二級,高為核心地帶)或者多級影響(如高、中、底三級)的空間柵格單元作為訓(xùn)練樣本。通過核函數(shù)方法,實現(xiàn)了采用少量樣本數(shù)據(jù)衍生精細(xì)尺度下的柵格訓(xùn)練樣本數(shù)據(jù)。
3、選擇影響因子集,估計影響因子與目標(biāo)因子之間的相關(guān)關(guān)系,選擇有強(qiáng)相關(guān)性的因子,既特征選擇。本發(fā)明采用了三種不同的方法分析影響因子同目標(biāo)因子的相關(guān)關(guān)系,采用了主成分分析提取獨(dú)立的變量,移除冗余信息。特征選擇的步驟為 (1)采用統(tǒng)計學(xué)中的相關(guān)系數(shù)來衡量連續(xù)變量之間的線形相關(guān)性,但該方法忽略了變量之間可能存在的非線形關(guān)系及非連續(xù)變量相關(guān)關(guān)系; (2)采用了基于信息熵的分類貢獻(xiàn)函數(shù),既Quinlan的Information Gain(IG)及Information Gain Ratio(GR),衡量輔助變量同目標(biāo)變量間關(guān)系,選擇對分類貢獻(xiàn)較大的變量(即IG或GR較大),IG及GR的定義如下 IG(y,x)=H(x)-H(y|x) (3) GR(y,x)=(H(x)-H(y|x))/H(x)(4) 其中,H(x)是熵的定義,而H(y|x)是針對類別y的條件熵的定義。
(3)采用粗糙集的屬性重要性概念,通過計算輔助變量對目標(biāo)變量的分類能力來衡量二個變量的相關(guān)性,選擇重要性更大的特征變量當(dāng)輔助變量對目標(biāo)(決策變量)屬性重要性強(qiáng)時,說明二者具有強(qiáng)相關(guān)性;而輔助變量對決策變量屬性重要性弱時,說明二者相關(guān)性弱。
其中,X為因子變量集,xi是要計算屬性重要性的因子變量,γ(X,y)是粗糙集中目標(biāo)變量y對因子變量集X的依賴性。
一般情況下,如果因子變量在三種方法中都較小或者有一種方法計算值為0,就應(yīng)該舍棄該因子變量。
(4)主成分分析提取獨(dú)立的信息量豐富的因子變量,有以下幾個步驟 (a)進(jìn)行主成分分析,采用方差極大(varimax)旋轉(zhuǎn)雙來突出每個主成分; (b)從第一主成分開始,選擇特征值大于1的主成分; (c)這些選出的特征值大于1的主成分中,其因子相應(yīng)的載荷(loading),如果loading最大的主成分其loading接近0.8(0.75-0.8),則選擇該因子變量代表該主成分;否則如果最大的loading小于0.7,則舍棄該主成分; (d)如果有1個因子的loading大于0.8,則選擇該因子代表該成分; (e)如果有多個因子的loading大于0.8,則選擇那些GR或者SA較大的且解譯性強(qiáng)的因子變量。
4、建立基于貝葉斯網(wǎng)絡(luò)的風(fēng)險概率的不確定性推理模型 建立災(zāi)害風(fēng)險及易損性評估的貝葉斯網(wǎng)絡(luò)模型,要經(jīng)過建立貝葉斯網(wǎng)絡(luò)模型框架及確定目標(biāo)函數(shù)狀態(tài)空間、連續(xù)變量離散化、網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)、參數(shù)的學(xué)習(xí)等步驟,按照以下順序進(jìn)行 (1)建立貝葉斯網(wǎng)絡(luò)模型框架,確定目標(biāo)函數(shù)的狀態(tài)空間。對一貝葉斯網(wǎng)絡(luò)B=(BS,BP),令隨機(jī)變量y為災(zāi)害事件或者相關(guān)的災(zāi)害損失事件(既目標(biāo)變量),則y的狀態(tài)空間可以定義為“災(zāi)害發(fā)生”與“災(zāi)害不發(fā)生”兩種狀態(tài),或者“損失嚴(yán)重”與“損失不嚴(yán)重”兩種狀態(tài),或者“損失最嚴(yán)重”、“損失嚴(yán)重”、“損失一般”與“輕微損失或無損失”四種狀態(tài),若已知了一些“證據(jù)”,既部分因子變量X的數(shù)值,以通過計算邊際概率而求得y的相應(yīng)狀態(tài)的發(fā)生(后驗)概率(也稱為信任函數(shù)) 其中,為隨機(jī)變量集V上的聯(lián)合概率,i既為影響因子變量集X中的隨機(jī)變量,yj表示目標(biāo)變量y取第j種狀態(tài)情況。
(2)采用了優(yōu)化的離散化方法來轉(zhuǎn)換連續(xù)數(shù)據(jù),獲取得到概率推理模型既貝葉斯網(wǎng)絡(luò)模型的連續(xù)變量的狀態(tài)空間,便于在提高網(wǎng)絡(luò)性能的同時融合連續(xù)數(shù)據(jù)與離散、類別數(shù)據(jù)一起進(jìn)行搜索、估算及預(yù)測。
優(yōu)化的離散化是在有訓(xùn)練樣本下的一種監(jiān)督離散化算法,它是以基于熵的測度條件下的求最優(yōu)離散化區(qū)間方法。離散化后的連續(xù)變量數(shù)據(jù)作為貝葉斯網(wǎng)絡(luò)隨機(jī)變量的狀態(tài)空間輸入,可對網(wǎng)絡(luò)的訓(xùn)練及預(yù)測性能有很大提高。該算法首先設(shè)置一個很大的可離散化區(qū)間數(shù)目,然后算法適應(yīng)性地訓(xùn)練得到離散化區(qū)間。算法的衡量標(biāo)準(zhǔn)(目標(biāo)函數(shù)) 其中,impurity(k,j,i)為當(dāng)從j到i的訓(xùn)練樣本被劃分成k個區(qū)間時的最小的測量值(impurity)。最優(yōu)的劃分區(qū)間k則是impurity(k,j,i),N為連續(xù)變量因子值的基。測量值(impurity)是每次劃分的平均類熵,其最小使得用于編碼離散化區(qū)間而進(jìn)行預(yù)測的字節(jié)數(shù)最小,滿足了信息論中的Oecam的最小描述長度(MDL)原則。本算法通過自回歸疊代而求得最優(yōu)解。
令S為柵格數(shù)據(jù)中獲取的樣本單元集,k為最大的離散化區(qū)間數(shù),x為要離散化的連續(xù)變量,T為離散化x的區(qū)間劃分值集,IT為初始的區(qū)間劃分值集,則本算法的主要步驟為 (a)根據(jù)屬性x的值排序S中的實例; (b)通過計算排序后的S中連續(xù)兩個不同的x值的乘積的平方根得到初始的區(qū)間劃分值,保存到IT中。
(c)令i=0,n=|IT|; (d)若n<=k,則T=IT,計算結(jié)束;否則繼續(xù); (e)令j=n到k,以-1作為步長,遞減循環(huán)進(jìn)行以下操作 (e.1)T0=T,minx為x中最小值,maxx為x中最大值; (e.2)newimpurity=GetImpurity(1,ITj,maxA,T0)+GetImpurity(k-1,minA,ITj,T0); (e.3)若j=n,則minImpurity=newimpurity;i=j(luò);T=T0; 否則,進(jìn)入以下步驟 (e.3.1)若newimpurity<minImpurity,則 minImpurity=new_impurity;i=j(luò);T=T0; (e.4)T←ITi; 算法中Getlmpurity(...)為根據(jù)式(7)所定義的函數(shù),該函數(shù)可適應(yīng)性地加入新的分離值到T中或修改T中的離散分離值。
(3)搜索最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu) 在將所有的連續(xù)型隨機(jī)變量轉(zhuǎn)換成離散變量后,既可進(jìn)行最優(yōu)的貝葉斯網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的搜索。本方法采用了貝葉斯質(zhì)量記分函數(shù)及通用的模擬退火算法搜索拓?fù)淇臻g而得到最優(yōu)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。
貝葉斯質(zhì)量記分函數(shù)用于衡量所得網(wǎng)絡(luò)是否滿足質(zhì)量最優(yōu),采用公式 其中,D訓(xùn)練樣本P(BS,D)為后驗概率,vi為隨機(jī)變量節(jié)點(diǎn)(X中因子變量或者目標(biāo)變量y),πi為節(jié)點(diǎn)vi的父節(jié)點(diǎn)集,ri為
的基,qi為
為有序的,xik為節(jié)點(diǎn)vi的第k個值,
為節(jié)點(diǎn)vi的父節(jié)點(diǎn)集的第j種組合,Nijk為vi=xik與的案例數(shù),而Nij為的案例數(shù)。
模擬退火的搜索策略是通過模擬金屬的退火即硬化過程而找到最優(yōu)解。退火過程從開始加熱金屬致其融化與金屬離子自由游動開始,溫度緩慢有序地降低直到金屬粒子在一個高結(jié)構(gòu)化的格網(wǎng)中成型。搜索一個優(yōu)化的BN,一個潛在的網(wǎng)絡(luò)相當(dāng)一個解,s∈S,S為溫度狀態(tài)集,s對應(yīng)了一個同網(wǎng)絡(luò)質(zhì)量測量值(式(6))有關(guān)的價值函數(shù)f(s),該函數(shù)即稱為“能量水平”。退火的過程即隨著溫度T的降低,算法疊代地從當(dāng)前解決方案s的鄰近的解(一般通過加或減去一條幅而得到)中選擇新解,r,當(dāng)f(r)<f(s)時,新解被接受,r取代s進(jìn)入下一輪循環(huán);否則,r將以概率exp((f(r)-f(s))/T)被接受(取代s)。
該算法的主要步驟 輸入T0-開始溫度;Tend-結(jié)束溫度;calc_temp為冷卻函數(shù)初始化s T←T0;k←0;sbest←s 重復(fù)以下步驟 從當(dāng)前解s的鄰近的解空間N(s)提取備選解,r; 如果exp((f(s)-f(r))/T)>random(0-1)則 s←r 如果f(s)>f(sbest),則sbest←s k←k+1 T←calc_temp(T,k) 直致T<Tend。
返回sbest為最優(yōu)解。
注f(s)為同質(zhì)量評估函數(shù)相關(guān)的當(dāng)前解s價值函數(shù);冷卻函數(shù)calc_temp可根據(jù)一定準(zhǔn)則設(shè)定。
(4)估計網(wǎng)絡(luò)參數(shù) 在訓(xùn)練得到網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)之后,需要估計網(wǎng)絡(luò)的參數(shù)。網(wǎng)絡(luò)參數(shù)的估計假定隨機(jī)變量共有τ種狀態(tài),每一種狀態(tài)用mi來表示,變量的狀態(tài)函數(shù)符合Dirichlet分布 第i種狀態(tài)的均值 變差 Dirichlet分布是beta分布的擴(kuò)展,其均值及變差與樣本數(shù)相關(guān)的性質(zhì)使得該分布很適合BN參數(shù)的估計。下面給出了簡要算法流程。
貝葉網(wǎng)絡(luò)參數(shù)的估計算法 每個隨機(jī)變量節(jié)點(diǎn),ui ui的每種父節(jié)點(diǎn)聯(lián)合狀態(tài),πi,分配一個針對ui的τ種狀態(tài)取值的Dirichlet分布D(α1,...,αi,...ατ) 對每個ui節(jié)點(diǎn)進(jìn)行以下操作 對所有隨機(jī)變量的聯(lián)合觀察值ui∈U進(jìn)行以下操作 (a)識別ui的第j種狀態(tài)的取值; (b)更新D(α1,...,αj,...ατ)至D(α1,...,αj+1,...ατ),其中父節(jié)點(diǎn)與訓(xùn)練實例的父節(jié)點(diǎn)相對應(yīng)。
(5)概率預(yù)測方法的選擇 當(dāng)貝葉斯網(wǎng)絡(luò)模型建立的時候,可以在所建立模型基礎(chǔ)上在一定證據(jù)支持下進(jìn)行風(fēng)險或易損性的概率推理。在推理方面本發(fā)明考慮了所得到網(wǎng)絡(luò)的多變性,采用了適用于環(huán)路的信任傳遞算法,既Pearl的信息傳遞算法實現(xiàn)。如所得到網(wǎng)絡(luò)是單連接樹,該算法采用PolyTree的精確算法實現(xiàn)預(yù)測;對包括環(huán)路的網(wǎng)絡(luò),該算法采用為精度較高的近似算法實現(xiàn)預(yù)測。
5、在完全或不完全證據(jù)支持條件下的風(fēng)險或易損性概率估算 當(dāng)建立了風(fēng)險或者易損性的貝葉斯推理模型之后,就可以在精細(xì)尺度下的完全或不完全證據(jù)支持之下進(jìn)行風(fēng)險或者易損性的概率估算。數(shù)據(jù)的輸入為允許缺失數(shù)值的具有相同分辨率及坐標(biāo)的多維柵格數(shù)據(jù),每個柵格單元為一個實施對象,將每個柵格單元對應(yīng)的屬性值輸入到模型之中,最后得到在整個區(qū)域上的概率風(fēng)險分布情況。根據(jù)貝葉斯?jié)M足的馬爾可夫性質(zhì),在證據(jù)支持下的概率估算有以下四種類型,分別視不同情況予以采用 (1)因果類型,既從原因到結(jié)果的概率估算,根據(jù)當(dāng)前情況推斷災(zāi)害事件產(chǎn)生及其損失情況的可能性; (2)診斷類型,由結(jié)果到原因的概率估算,根據(jù)損失情況推斷導(dǎo)致?lián)p失的原因; (3)因果間類型,一個結(jié)果多個原因,可根據(jù)結(jié)果及部分原因值推斷其他原因發(fā)生概率。
(4)混合類型,即以上三種類型推理的混合,一般所搜索得到的網(wǎng)絡(luò)結(jié)構(gòu)都有較為復(fù)雜的拓?fù)浣Y(jié)構(gòu),涉及到混合推理方式,通過采用Pearl的信息傳遞算法實現(xiàn)推理。
6.在地圖上實時動態(tài)地定位所預(yù)測的風(fēng)險概率及易損性,識別區(qū)域上的風(fēng)險及潛在損失分布狀況,為救災(zāi)減災(zāi)的實施提供輔助決策支持信息。
具體按照以下步驟進(jìn)行 (1)收集盡可能多的當(dāng)前解釋變量既預(yù)測因子在區(qū)域上的數(shù)值,如預(yù)測洪水災(zāi)害風(fēng)險,致災(zāi)因子可采集日降雨、日平均風(fēng)速及日最大風(fēng)速三個變量,孕災(zāi)環(huán)境可采集高程、坡度、坡向、地質(zhì)類型、植被指數(shù)(ndvi)、河流、道路7個變量,而承災(zāi)體特性可采集城鎮(zhèn)聚集地1個自變量,總共11個自變量。當(dāng)然,對一些變化緩慢的變量如高程可采用歷史數(shù)據(jù);而且數(shù)據(jù)不一定采集全面,因為貝葉斯網(wǎng)絡(luò)具有在缺值情況下的推理功能,即使只有一個自變量如日平均降雨,亦可預(yù)測災(zāi)害損失風(fēng)險水平的空間分布,這是貝葉斯網(wǎng)絡(luò)同其他模型相比的主要特點(diǎn)之一; (2)對所采集的數(shù)據(jù),參照前面第1節(jié)與第2節(jié)對數(shù)據(jù)進(jìn)行必要的預(yù)處理,如柵格矢量化,柵格的再柵格化等,生成同訓(xùn)練網(wǎng)絡(luò)相同的分辨率的預(yù)測因子數(shù)據(jù)(之所以要求分辨率相同是為了消除尺度不一致導(dǎo)致的誤差); (3)將每個柵格單元對應(yīng)的預(yù)測因子變量輸入網(wǎng)絡(luò),通過網(wǎng)絡(luò)的推理運(yùn)算得出不同風(fēng)險級別對應(yīng)的發(fā)生概率水平;、 (4)選定某一風(fēng)險水平(如“高風(fēng)險”或者“高損失”),得到各柵格單元的產(chǎn)生高風(fēng)險的概率的空間分布影像圖,即可對此影像矢量化,形成風(fēng)險水平矢量分布圖。
(5)根據(jù)以上產(chǎn)生的風(fēng)險概率分布圖,可準(zhǔn)確及時地了解當(dāng)前災(zāi)害損失在空間的分布情況,對于高風(fēng)險區(qū)域,可采取相應(yīng)的減災(zāi)措施及時施救,減少因施救不及時產(chǎn)生的損失后果,最大限度的減少損失。
(6)如某點(diǎn)預(yù)測不很準(zhǔn)確,可將相關(guān)的數(shù)據(jù)重新輸入網(wǎng)絡(luò),繼續(xù)對網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)訓(xùn)練,提高網(wǎng)絡(luò)的計算功能及結(jié)果精度。
二、下面以黑河流域的洪水災(zāi)害作為典型案例,再詳細(xì)闡述本發(fā)明的實施方式簡述如下 1、時空數(shù)據(jù)的采集與預(yù)處理 根據(jù)域知識及目標(biāo)變量采集相關(guān)的數(shù)據(jù),在此主要是采用黑河流域地區(qū)的洪水災(zāi)害作為實驗案例,因此本研究初步采集同洪水災(zāi)害相關(guān)的影響因子變量,從致災(zāi)因子、孕災(zāi)環(huán)境及承災(zāi)體屬性三方面進(jìn)行采集。
主要是搜集2006年7月份遭受洪水災(zāi)害前后的數(shù)據(jù)來建立模型的,在所采集的因子變量中,致災(zāi)因子包括日降雨、日平均風(fēng)速及日最大風(fēng)速,與孕災(zāi)環(huán)境相關(guān)的因素包括高程、坡度、坡向、地質(zhì)類型、植被指數(shù)(ndvi)、河流及道路,而承災(zāi)體相關(guān)的因素主要是城鎮(zhèn)聚集地數(shù)據(jù)??偣膊杉?1個影響因子。
對這些數(shù)據(jù)進(jìn)行插值、缺值分析以補(bǔ)充數(shù)據(jù)的完整性。將不同來源、格式、分辨率及類型(類別、離散、連續(xù))數(shù)據(jù)綜合到同樣分辨率及坐標(biāo)的多維柵格數(shù)據(jù)集中。具體而言,對因子變量日降雨、日平均風(fēng)速及日最大風(fēng)速變量由測站數(shù)據(jù)采用Kriging插值算法生成柵格,而地質(zhì)類型多邊形矢量數(shù)據(jù)采用掃描法生成柵格數(shù)據(jù),河流、道路、城鎮(zhèn)聚集地數(shù)據(jù)則采用核密度函數(shù)方法衍生柵格,其他的柵格數(shù)據(jù)則通過最近鄰“重采樣”轉(zhuǎn)化成統(tǒng)一分辨率及坐標(biāo)的數(shù)據(jù)集中。
2、采用核密度函數(shù)方法衍生訓(xùn)練樣本數(shù)據(jù) 采用了核密度函數(shù)方法來衍生訓(xùn)練樣本數(shù)據(jù),該算法考慮了空間距離的影響,選擇正態(tài)(高斯)密度函數(shù),既式(1);再由各觀察值點(diǎn)的核密度函數(shù)可推出空間任意一點(diǎn)的影響強(qiáng)度,既式(2)。
當(dāng)分析的變量因子為災(zāi)害或其損失強(qiáng)度y時,我們將災(zāi)害損失強(qiáng)度劃分為二類,既“強(qiáng)”與“弱”或者嚴(yán)重災(zāi)害“發(fā)生”與“不發(fā)生”;而在以下的貝葉斯網(wǎng)絡(luò)模型計算中通過計算“強(qiáng)”或者“發(fā)生”對應(yīng)的狀態(tài)概率值而求得相應(yīng)的風(fēng)險概率值,其中“強(qiáng)”或“發(fā)生”對應(yīng)了較強(qiáng)的核密度值,由此得到災(zāi)害事件或其損失強(qiáng)度的核密度衍生柵格數(shù)據(jù),作為“結(jié)果已知”的訓(xùn)練樣本。
當(dāng)分析的變量因子為影響因子變量時,采取類似的方法獲得衍生的屬性數(shù)據(jù)。此類因子包括河流、道路、城鎮(zhèn)聚集地數(shù)據(jù)三類數(shù)據(jù),其中河流及道路為線狀要素,采取核密度函數(shù)法按照離開道路的遠(yuǎn)近依次劃分為“難”、“中”、“易”三類,對應(yīng)了災(zāi)害發(fā)生時采取避免措施的難易;而河流則按照距離河流的遠(yuǎn)近將受洪水災(zāi)害影響級別劃分為“低”、“中”、“高”,對應(yīng)了受洪水災(zāi)害影響的高低,越靠近河流,影響越顯著;而城鎮(zhèn)聚集地為點(diǎn)狀數(shù)據(jù),按照距離遠(yuǎn)近劃分為“低”、“中”、“高”,可解譯為“越靠近城鎮(zhèn),災(zāi)害的影響越高”。
3、特征選擇 采用了三種方法來進(jìn)行特征選擇既Pearson的統(tǒng)計相關(guān)性系數(shù)、基于熵的GR、粗糙集中的屬性重要性數(shù)值,通過對比變量因子的這三項指標(biāo),保留值相對較大者,而刪除值較小或為0的因子變量;同時按照主成分分析提取獨(dú)立因子的方法,從備選因子中選擇較為獨(dú)立的影響因子。在本案例中,坡度的GR為0,且屬性重要性較小,在最后的預(yù)測變量集中去除了該變量而保留了其他10個較獨(dú)立的變量作為預(yù)測因子變量。
4、貝葉斯網(wǎng)絡(luò)建模,包括以下步驟 (1)建立貝葉斯網(wǎng)絡(luò)模型框架,確定目標(biāo)變量狀態(tài)空間。目標(biāo)變量y可表示災(zāi)害或其損失強(qiáng)度,可將損失強(qiáng)度劃分為二類,既“強(qiáng)”與“弱”或者嚴(yán)重災(zāi)害“發(fā)生”與“不發(fā)生”;而在貝葉斯網(wǎng)絡(luò)模型中通過計算“強(qiáng)”或者“發(fā)生”對應(yīng)的狀態(tài)概率值而求得相應(yīng)水平的風(fēng)險或易損性概率。
(2)采用優(yōu)化的離散化算法離散化連續(xù)變量 采用了基于熵的監(jiān)督的離散化算法來離散化連續(xù)的因子變量,為貝葉斯網(wǎng)絡(luò)B=(BS,BP)提供變量的狀態(tài)空間。離散化以公式(7)作為衡量標(biāo)準(zhǔn),設(shè)置20作為最大的離散區(qū)間數(shù),最后通過自回歸疊代找出各連續(xù)變量的離散狀態(tài)空間,這些變量包括日平均降雨、日平均風(fēng)速、日最大風(fēng)速、高程、坡度、植被指數(shù)。在離散化的變量中,日平均降雨被離散化成13個區(qū)間,日平均風(fēng)速被離散化成3個區(qū)間,日最大風(fēng)速被離散化成7個區(qū)間,高程被離散化成5個區(qū)間,坡度被離散化成5個區(qū)間,植被指數(shù)被離散化成7個區(qū)間。在離散化的變量中,每個變量所產(chǎn)生的離散區(qū)間數(shù)小于20,說明最大的離散區(qū)間數(shù)設(shè)置合理,最后將這些離散化的區(qū)間采用整數(shù)進(jìn)行標(biāo)記,便于下一步的處理。
(3)采用模擬退火的搜索策略搜索網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu) 采用了模擬退火策略從數(shù)據(jù)中按照預(yù)測誤差最低原則搜索網(wǎng)絡(luò)結(jié)構(gòu),使用了貝葉斯質(zhì)量計分法則。在使用該算法搜索優(yōu)化的網(wǎng)絡(luò)結(jié)構(gòu)中的相關(guān)參數(shù)的設(shè)置為初始溫度為10,每次疊代中溫度減少因子為0.99,最大疊代次數(shù)為1000,隨機(jī)數(shù)種子為1,網(wǎng)絡(luò)滿足馬爾可夫的條件獨(dú)立性。我們采用致災(zāi)因子、孕災(zāi)環(huán)境及承災(zāi)體特性三方面共10個離散因子變量采用本算法進(jìn)行運(yùn)算,得到了網(wǎng)絡(luò)結(jié)構(gòu)BS如圖4。
(4)對搜索得到的網(wǎng)絡(luò)結(jié)構(gòu)BS,在假定網(wǎng)絡(luò)節(jié)點(diǎn)的條件概率分布符合Dirichlet分布前提下進(jìn)行參數(shù)估計,得到條件概率參數(shù)估計值集BP。
(5)對訓(xùn)練得到的網(wǎng)絡(luò)進(jìn)行10次10倍交叉驗證,經(jīng)檢驗得到的估計精度對高風(fēng)險單元的真正率為0.867,假正率為0.19,命中率為0.689,ROC面積指數(shù)為0.917,平衡指數(shù)為0.836;而對低風(fēng)險單元的真正率為0.81,假正率為0.133,命中率為0.926,ROC面積指數(shù)為0.917,平衡指數(shù)為0.836??偟念A(yù)測精度為0.83,而Kappa統(tǒng)計量為0.6349。結(jié)果表明預(yù)測達(dá)到了一定的精度。
5、采用其他的風(fēng)險概率預(yù)測模型,既
Bayes及邏輯斯特模型,對連續(xù)型數(shù)據(jù)構(gòu)成的記錄數(shù)據(jù)表,建立相應(yīng)的
Bayes及邏輯斯特預(yù)測模型。同時對同樣的數(shù)據(jù)集,進(jìn)行10次10倍的交叉驗證,結(jié)果表明貝葉斯網(wǎng)絡(luò)模型行為較優(yōu),圖5顯示了驗證結(jié)果中的受試者特征曲線(英文為Receive Operating Characteristic curve,ROC),是一種綜合性地比較預(yù)測模型性能的方法,曲線越靠近左上角的完美分類點(diǎn)(0,1)(該點(diǎn)的假正率為0,真正率為1),則說明性能越優(yōu)。我們看到BN模型的ROC曲線相對于邏輯斯特高,與
Bayes有交叉,但大半在其上,說明其預(yù)測性能較優(yōu)。
6、針對同一地區(qū),采用三個不同的模型,采集2007年7月21號的因子變量數(shù)據(jù),其中包括了相應(yīng)的10個因子變量,用以上所建立的邏輯斯特回歸模型、
Bayes及所搜索得到的貝葉斯網(wǎng)絡(luò)模型進(jìn)行預(yù)測該年度7月份的洪水災(zāi)害風(fēng)險概率分布。
結(jié)果表明所得到的貝葉斯網(wǎng)絡(luò)模型具有較好的預(yù)測精度,所得結(jié)果比較如下對高風(fēng)險預(yù)測而言,邏輯斯特模型的真正率為0.007,假正率為0.002,命中率為0.625,ROC面積指數(shù)為0.813,平衡指數(shù)為0.294;
Bayes模型的真正率為0.329,假正率為0.043,命中率為0.766,ROC面積指數(shù)0.813,平衡指數(shù)為0.284;前面通過模擬退火算法所得到的貝葉斯網(wǎng)絡(luò)模型的真正率為0.421,假正率為0.102,命中率為0.638,ROC面積指數(shù)0.854,平衡指數(shù)為0.30。比較表明貝葉斯網(wǎng)絡(luò)模型的真正率、平衡指數(shù)及ROC面積都較高,說明其能識別更多的高風(fēng)險區(qū)域,體現(xiàn)更好的預(yù)測性能。
三個方法預(yù)測各柵格單元的ROC曲線如圖6,圖中可見本發(fā)明方法的ROC曲線靠近最優(yōu)分類點(diǎn)(0,1)更近,說明其預(yù)測性能更好。
圖7展現(xiàn)了本發(fā)明提出的貝葉斯網(wǎng)絡(luò)模型用于預(yù)測研究區(qū)域2007年7月的洪水災(zāi)害風(fēng)險概率估計結(jié)果,圖中柵格單元的分辨率為0.0118精度×0.0118緯度。風(fēng)險的級別從無風(fēng)險(圖中空白區(qū)域),到損失發(fā)生高概率值(圖中黑色區(qū)域),顏色越黑說明損失發(fā)生的概率越高。雖然即使是較好的貝葉斯網(wǎng)絡(luò)模型預(yù)測精度不高,但基本上正確識別了柵格單元中災(zāi)害發(fā)生或損失嚴(yán)重的地方(圖中顏色較深對應(yīng)的部分)。
總之,本發(fā)明采用精細(xì)尺度下既一定分辨率的柵格單元作為訓(xùn)練樣本,擴(kuò)展了訓(xùn)練數(shù)據(jù)的來源,提高了分析的細(xì)節(jié)及精細(xì)的空間尺度定位功能;在精細(xì)尺度下既基于一定分辨率的柵格的多維時空數(shù)據(jù)中量化影響因子同災(zāi)害損失風(fēng)險及易損性之間的關(guān)系,設(shè)計優(yōu)化的離散化方法離散化連續(xù)變量,采用模擬退火算法搜索優(yōu)化的網(wǎng)絡(luò)模型,并采用此模型進(jìn)行風(fēng)險概率及易損性預(yù)測,提高了風(fēng)險概率及易損性估算效果,并根據(jù)結(jié)果對風(fēng)險及易損性進(jìn)行精細(xì)的空間尺度定位,在應(yīng)用中結(jié)果可為防災(zāi)及減災(zāi)提供重要的輔助決策支持信息,對提高減災(zāi)救災(zāi)效果及國家建立智能化的突發(fā)公共事件應(yīng)急預(yù)警系統(tǒng)具有重要的理論意義及實用價值。
權(quán)利要求
1、一種精細(xì)尺度下的動態(tài)風(fēng)險及易損性預(yù)測方法,其特征在于步驟如下
(1)相關(guān)數(shù)據(jù)的采集及預(yù)處理按致災(zāi)因子、孕災(zāi)環(huán)境及承災(zāi)體三個采集預(yù)測因子X及災(zāi)害損失變量y,并進(jìn)行預(yù)處理產(chǎn)生精細(xì)尺度下的訓(xùn)練樣本數(shù)據(jù)集;所述的致災(zāi)因子是指直接導(dǎo)致災(zāi)害的可測量因子變量,所述的孕災(zāi)環(huán)境指在致災(zāi)因子存在的前提下導(dǎo)致災(zāi)害損失發(fā)生的自然地理環(huán)境,所述的承災(zāi)體特性指各種主要以人為主的承受災(zāi)害的對象遭受災(zāi)害所帶來損失的性質(zhì);
(2)采用融入空間相關(guān)性的核密度函數(shù)方法對步驟(1)的訓(xùn)練樣本數(shù)據(jù)集衍生出新的訓(xùn)練樣本數(shù)據(jù),以彌補(bǔ)調(diào)查數(shù)據(jù)不足,并補(bǔ)充完整精細(xì)尺度下的訓(xùn)練樣本數(shù)據(jù);
(3)預(yù)測因子的特征選擇根據(jù)訓(xùn)練樣本數(shù)據(jù),采用三種方法衡量影響因子同目標(biāo)因子的相關(guān)性,即線性相關(guān)系數(shù)、基于熵的信息獲取率及粗糙集的屬性重要性,結(jié)合主成分分析選擇預(yù)測因子X;
(4)對步驟(3)所選擇的預(yù)測因子集中的連續(xù)變量進(jìn)行離散化,采用模擬退火優(yōu)化算法搜索貝葉斯網(wǎng)絡(luò)模型,估計網(wǎng)絡(luò)的條件概率參數(shù);
(5)利用生成的貝葉斯網(wǎng)絡(luò)模型進(jìn)行完全或不完全證據(jù)支持下的風(fēng)險及易損性概率預(yù)測;
(6)在地圖上實時動態(tài)地定位所預(yù)測的風(fēng)險概率及易損性,識別區(qū)域上的風(fēng)險及潛在損失分布狀況,為救災(zāi)減災(zāi)的實施提供輔助決策支持信息。
2、根據(jù)權(quán)利要求1所述的精細(xì)尺度下的動態(tài)風(fēng)險及易損性預(yù)測方法,其特征在于所述步驟(1)中的預(yù)處理方法為對致災(zāi)因子、孕災(zāi)環(huán)境及承災(zāi)體特性數(shù)據(jù)經(jīng)預(yù)處理轉(zhuǎn)換成統(tǒng)一分辨率的柵格數(shù)據(jù)集,分不同的情況采用以下步驟
a.對矢量數(shù)據(jù)預(yù)處理方法
對于點(diǎn)數(shù)據(jù),采用k-最近鄰方法或者Kriging方法插值算法,將點(diǎn)數(shù)據(jù)轉(zhuǎn)換成柵格數(shù)據(jù);對于線數(shù)據(jù)采用數(shù)字微分分析法DDA法或Bresenham方法轉(zhuǎn)換成柵格數(shù)據(jù);對于面數(shù)據(jù)采用掃描法;轉(zhuǎn)換成統(tǒng)一分辨率的柵格數(shù)據(jù);
b.對于柵格的預(yù)處理方法
對于柵格數(shù)據(jù),如果坐標(biāo)或目標(biāo)柵格數(shù)據(jù)不一致時,采用最近鄰法進(jìn)行重采樣,形成轉(zhuǎn)換成統(tǒng)一分辨率的柵格數(shù)據(jù);
將矢量數(shù)據(jù)和柵格再柵格化后即形成統(tǒng)一分辨率的柵格數(shù)據(jù)集。
3、根據(jù)權(quán)利要求1所述的精細(xì)尺度下的動態(tài)風(fēng)險及易損性預(yù)測方法,其特征在于所述步驟(2)采用了融入空間相關(guān)性的核函數(shù)方法衍生樣本點(diǎn)數(shù)據(jù),彌補(bǔ)調(diào)查數(shù)據(jù)及歷史資料的不足,補(bǔ)充完整精細(xì)尺度下的訓(xùn)練樣本數(shù)據(jù)的步驟為
a.調(diào)查確定災(zāi)害事件及其損失情況;
b.采用正態(tài)核密度函數(shù)計算估計目標(biāo)變量的核函數(shù)
其中的影響寬度λ可隨災(zāi)害強(qiáng)度的不同設(shè)置不同值,d(z,Zi)為空間上任意一點(diǎn)z與調(diào)查數(shù)據(jù)點(diǎn)Zi間的歐氏距離,z可為災(zāi)害事件y或者因子變量x;
c.由各觀察值點(diǎn)的核密度函數(shù)可推出空間任意一點(diǎn)的影響強(qiáng)度
其中,n為觀察值數(shù)據(jù)點(diǎn)數(shù),z為空間任意點(diǎn),Zi為相應(yīng)的觀察值點(diǎn)數(shù)值,Kλ(z,Zi)為核函數(shù)。
4、根據(jù)權(quán)利要求1所述精細(xì)尺度下的動態(tài)風(fēng)險及易損性預(yù)測方法,其特征在于所述步驟(3)采用三種方法衡量影響因子同目標(biāo)因子的相關(guān)性具體如下
a.所述的線性相關(guān)性是采用統(tǒng)計學(xué)Pearson相關(guān)系數(shù)來衡量連續(xù)變量之間的線形相關(guān)性,但該方法忽略了變量之間可能存在的非線形關(guān)系及非連續(xù)變量相關(guān)關(guān)系;
b.所述的基于信息熵的分類貢獻(xiàn)函數(shù),即Quinlan的Information Gain IG及Information Gain Ratio GR衡量輔助變量同目標(biāo)變量之間的關(guān)系,選擇對分類貢獻(xiàn)較大的變量,IG及GR的定義如下
IG(y,x)=H(y)-H(y|x)
GR(y,x)=(H(x)-H(y|x))/H(x)
H(y)是熵的定義,而H(y|x)是針對類別x的條件熵的定義;
c.所述的采用粗糙集屬性重要性為通過計算輔助變量對目標(biāo)變量的分類能力來衡量二個變量的相關(guān)性,選擇重要性更大的特征變量
其中,X為因子變量集,xj是要計算屬性重要性的因子變量,γ(X,y)是粗糙集中目標(biāo)變量y對因子變量集X的依賴性;
d.所述的采用主成分分析為選擇獨(dú)立性強(qiáng)的代表因子,刪除信息冗余因子。
5、根據(jù)權(quán)利要求1所述的精細(xì)尺度下的動態(tài)風(fēng)險及易損性預(yù)測方法,其特征在于所述步驟(4)對選擇的預(yù)測因子集中的連續(xù)變量進(jìn)行離散化,采用模擬退火優(yōu)化算法搜索貝葉斯網(wǎng)絡(luò)模型,估計網(wǎng)絡(luò)的條件概率參數(shù)的步驟如下
a.建立貝葉斯網(wǎng)絡(luò)模型框架對貝葉斯網(wǎng)絡(luò)B=(BS,BP),令目標(biāo)變量y為災(zāi)害事件或相關(guān)災(zāi)害損失事件,則y狀態(tài)空間定義為“災(zāi)害發(fā)生”與“災(zāi)害不發(fā)生”兩種狀況,或者“損失嚴(yán)重”與“損失不嚴(yán)重”兩種狀況,或者“損失最嚴(yán)重”、“損失嚴(yán)重”“損失一般”與“輕微損失或無損失”四種狀況;若已知一些證據(jù),即解釋變量因子集X中的一些因子,通過計算邊際概率而求得y的相應(yīng)狀態(tài)發(fā)生的后驗概率,亦稱信任函數(shù)
其中,為隨機(jī)變量集V上的聯(lián)合概率,xi既為影響因子集X中的隨機(jī)變量,yj表示目標(biāo)變量y取第j種狀態(tài)情況;
b.采用優(yōu)化的離散化方法轉(zhuǎn)換連續(xù)類型數(shù)據(jù),作為因子變量的狀態(tài)空間值輸入貝葉斯網(wǎng)絡(luò)模型進(jìn)行計算,算法采用基于熵的衡量標(biāo)準(zhǔn)
其中,impurity(k,j,i)為當(dāng)從j到i的訓(xùn)練樣本被劃分成k個區(qū)間時的最小的測量值impurity,最優(yōu)的劃分區(qū)間k則是impurity(k,j,i),N為連續(xù)變量因子值的基,測量值impurity是每次劃分的平均類熵,其最小使得用于編碼離散化區(qū)間而進(jìn)行預(yù)測的字節(jié)數(shù)最?。?br>
c.搜索最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)
采用貝葉斯質(zhì)量記分函數(shù)作為標(biāo)準(zhǔn),搜索策略是通過模擬金屬的退火即硬化過程而找到網(wǎng)絡(luò)結(jié)構(gòu)的最優(yōu)解,退火過程從開始加熱金屬致其融化與金屬離子自由游動開始,溫度緩慢有序地降低直到金屬粒子在一個高結(jié)構(gòu)化的格網(wǎng)中成型;一個潛在的網(wǎng)絡(luò)相當(dāng)一個解,對應(yīng)一個同網(wǎng)絡(luò)質(zhì)量測量值有關(guān)的價值函數(shù),通過退火即溫度T的降低,搜索最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu);
d.估計網(wǎng)絡(luò)參數(shù)
得到網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)后,采用基于Dirichlet分布的經(jīng)典算法,疊代地估計條件概率參數(shù)值;
e.風(fēng)險概率及易損性預(yù)測
將所建立的貝葉斯網(wǎng)絡(luò)用于一定證據(jù)支持下風(fēng)險或易損性概率預(yù)測,采用適用于環(huán)路的信任傳遞算法即經(jīng)典的Pearl信息傳遞算法實現(xiàn),如所得到網(wǎng)絡(luò)是單連接樹,該算法則采用PolyTree的精確算法實現(xiàn)預(yù)測;而對包括環(huán)路的網(wǎng)絡(luò),該算法則采用為精度較高的近似算法實現(xiàn)預(yù)測。
6、根據(jù)權(quán)利要求1所述的精細(xì)尺度下的動態(tài)風(fēng)險及易損性計算方法,其特征在于所述(5)利用生成的貝葉斯網(wǎng)絡(luò)模型進(jìn)行完全或不完全證據(jù)支持下的風(fēng)險及易損性概率預(yù)測方法為估算中數(shù)據(jù)輸入為允許缺失數(shù)值的同分辨率及坐標(biāo)的多維柵格數(shù)據(jù),每柵格單元為一個預(yù)測對象,將每單元對應(yīng)屬性值輸入模型,通過估計精細(xì)尺度下既一定分辨率的各個柵格單元的風(fēng)險概率或易損性,從而估算區(qū)域上風(fēng)險概率。
全文摘要
一種精細(xì)尺度下的動態(tài)風(fēng)險及易損性預(yù)測方法,屬于地球信息科學(xué)領(lǐng)域。主要特點(diǎn)在精細(xì)尺度下即一定分辨率的柵格格式基礎(chǔ)上從多源異構(gòu)的時空數(shù)據(jù)搜索優(yōu)化的貝葉斯網(wǎng)絡(luò),結(jié)合域知識改進(jìn)網(wǎng)絡(luò),由此進(jìn)行災(zāi)害風(fēng)險及易損性的不確定性估算即概率估算。本發(fā)明提出用核密度方法來根據(jù)樣本衍生柵格訓(xùn)練樣本;提出優(yōu)化離散化方法離散化連續(xù)變量以便為網(wǎng)絡(luò)提供離散的狀態(tài)空間輸入;采用模擬退火優(yōu)化算法搜索優(yōu)化的網(wǎng)絡(luò)結(jié)構(gòu);采用精確推理結(jié)合近似推理方法預(yù)測風(fēng)險及易損性概率。本發(fā)明提出的方法可在精細(xì)的空間尺度下實時定位災(zāi)害風(fēng)險及易損性位置,估計其風(fēng)險概率的空間分布,對提高減災(zāi)救災(zāi)效果及國家建立智能化的突發(fā)公共事件應(yīng)急預(yù)警系統(tǒng)具有重要的理論意義及實用價值。
文檔編號G06N5/04GK101354757SQ20081022205
公開日2009年1月28日 申請日期2008年9月8日 優(yōu)先權(quán)日2008年9月8日
發(fā)明者李連發(fā), 梁金龍 申請人:中國科學(xué)院地理科學(xué)與資源研究所