本發(fā)明涉及自然災害的監(jiān)測領域,尤其是關于山體滑坡風險的監(jiān)測,具體是一種用于評價滑坡風險的因子選取方法及裝置。
背景技術:
:滑坡風險性監(jiān)測是滑坡災害評估的核心內容之一?,F(xiàn)階段,研究人員建立了概念、物理、概率統(tǒng)計模型,在預測滑坡危險范圍、評估滑坡災害損失、評價滑坡防治工程等方面發(fā)揮著重要作用。自20世紀60年代以來,遙感技術(rs)、地理信息系統(tǒng)(gis)和全球定位系統(tǒng)(gps)得到不斷發(fā)展(簡稱3s技術),由于其可對各種空間信息和環(huán)境信息實現(xiàn)宏觀、快速、準確、可靠的收集、處理與更新,已為滑坡災害的識別及評估提供豐富的數據支持。由于大量空間數據的獲取,概率統(tǒng)計模型已在滑坡風險性評估中得到廣泛應用,主要包括邏輯回歸、層次分析法、概率模型、頻率比率等概率統(tǒng)計模型,以及支持向量機、隨機森林、人工神經網絡等更為復雜的數據挖掘方法。3s技術獲取的豐富數據源結合概率統(tǒng)計模型,已進一步推進滑坡風險性評價工作向快速、宏觀、自動化方向快速發(fā)展。然而,在大量數據源中,客觀地選取更有價值的空間數據,可以對快速、精確評估滑坡風險性提供技術支撐,因此,用于評估滑坡風險的因子選取非常重要。針對滑坡因子的選取,一些學者表示選取積極的因子,有助于改善滑坡風險性評價的預測精度。目前國內外有許多團體和個人基于統(tǒng)計分析,來確定各因子在滑坡風險性評價中的重要性,然而,基于一個有效的算法自動選取滑坡風險性評價中最有效的因子,依然是一項困難的任務。技術實現(xiàn)要素:本發(fā)明的一個目的是提供一種用于評價滑坡風險的因子選取方法,包括:因子編號步驟:將測試數據中的多個參數作為因子進行編號;初始種群生成步驟:根據因子編號步驟中因子的個數總量,設置初始種群的個體數量及每個個體包含的因子個數,按照因子的編號隨機生成初始種群;初始種群適應度評價步驟:評價初始種群中每個個體的適應度,按照適應度進行升序或降序排列;初始種群改良步驟:對初始種群進行交叉或/和變異操作,得到改良種群;改良種群適應度評價步驟:評價改良種群中每個個體的適應度,按照適應度進行升序或降序排列;評價因子選取步驟:如果改良次數達到最大次數,則把改良種群中適應度最好的個體所包含的因子作為評價滑坡風險的最終選取因子。根據本發(fā)明的實施例,所述適應度按如下計算:步驟21:獲得測試數據基于邏輯回歸模型得到的pl;步驟21-1:選取一部分測試數據作為訓練樣本,代入回歸模型其中,選取的一部分測試數據中的參數數據作為解釋變量x1、x2...xn,是否滑坡的值作為pl來進行模型訓練,得到回歸模型中x前的系數b1、b2...bn;步驟21-2:將剩余的另一部分測試數據作為驗證樣本,剩余的另一部分測試數據中的參數數據作為解釋變量x1、x2...xn代入回歸模型,通過計算得到每個驗證樣本對應的滑坡預測值pl;步驟22:以每個驗證樣本對應的滑坡預測值作為閾值,計算tpr和fpr;其中tpr=tp/(tp+fn),fpr=fp/(tn+fp);其中tp表示預測為滑坡、實際滑坡的次數;其中fp表示預測為滑坡、實際未滑坡的次數;其中tn表示預測未滑坡、實際未滑坡的次數;其中fn表示預測未滑坡、實際滑坡的次數;步驟23:以所有點(fpr,tpr)組成的曲線為roc曲線,計算roc曲線與坐標軸形成的面積作為適應度。根據本發(fā)明的實施例,所述交叉操作為選取相鄰個體進行交叉操作。進一步優(yōu)化地,如果相鄰2個個體隨機選取的交叉位置,任意1個個體經交叉后出現(xiàn)因子重復,則交叉失敗,即交叉操作不予執(zhí)行。根據本發(fā)明的實施例,所述變異操作為對因子隨機調整;對種群中適應度較大的部分個體的因子進行弱變異,因子變異個數設置為n,對種群中剩余的另一部分個體的因子進行強變異,變異因子個數為m,m>n。進一步優(yōu)化地,如果個體隨機選取的變異位置,經變異后與已有因子重復,則變異失敗,即變異操作不予執(zhí)行。本發(fā)明的另一個目的是提供一種用于評價滑坡風險的因子選取裝置,包括:因子編號模塊:用于將測試數據中的多個參數作為因子進行編號;初始種群生成模塊:用于根據因子的個數總量,設置初始種群的個體數量及每個個體包含的因子個數,按照因子的編號隨機生成初始種群;初始種群適應度評價模塊:用于評價初始種群中每個個體的適應度,按照適應度進行升序或降序排列;初始種群改良模塊:用于對初始種群進行至少一次交叉或/和變異操作,得到改良種群;改良種群適應度評價模塊:用于評價改良種群中每個個體的適應度,按照適應度進行升序或降序排列;評價因子選取模塊:用于在改良次數達到最大次數時,把改良種群中適應度最好的個體所包含的因子作為評價滑坡風險的最終選取因子。與現(xiàn)有技術相比,本發(fā)明的有益效果:應用本發(fā)明方法選取的因子,在進行滑坡風險評價時,可以提高滑坡風險預測的準確度,在復雜地形中預測具有非常好的學習適應能力。附圖說明:圖1為用于評價滑坡風險的因子選取方法的流程圖。圖2為適應度的表示示意圖。圖3為交叉操作的示意圖。圖4為變異操作的示意圖。具體實施方式下面結合試驗例及具體實施方式對本發(fā)明作進一步的詳細描述。但不應將此理解為本發(fā)明上述主題的范圍僅限于以下的實施例,凡基于本
發(fā)明內容所實現(xiàn)的技術均屬于本發(fā)明的范圍。在進行滑坡風險的評價之前,需要測試獲得相關參數,并作為因子進行編號。通過測試收集得到如下參數:地形(高程、坡度、坡向、曲率、徑流量指數、地形濕度指數、起伏度)、地貌(土地利用類型、植被覆蓋度)、巖性、地震烈度(地震峰值加速度)及緩沖區(qū)分析(距離河流、距離道路、距離斷層)等數據進行編號處理。將這些參數作為因子進行編號:比如x1表示高程、x2表示植被覆蓋度、x3表示坡度、x4表示曲率、x5表示徑流量指數、x6表示地形濕度指數、x7表示起伏度、x8表示土地利用類型、x9表示坡向、x10表示巖性、x11表示地震峰值加速度、x12表示距離河流、x13表示距離道路、x14表示距離斷層。測試所得到的參數不同,則選取的因子有所不同。比如下表就是測得的樣本及對應因子編號。表1:因子編號及獲得的測試數據在上述基礎上,按照以下步驟來選取評價滑坡風險的因子:步驟一:根據因子的個數總量設置初始種群的個體數量popsize,每個個體包含的因子個數設置為chsize,按照因子編號隨機生成初始種群。比如popsize等于4,chsize等于4,代表隨機生成的初始種群中,包含4個個體(組合方式1-4),每個個體由4個因子構成,比如隨機生成的初始種群為表2:表2為初始種群:初始種群因子因子因子因子組合方式11345組合方式22345組合方式31245組合方式41234步驟二,依次評價初始種群中每個個體的適應度,按照適應度進行升序或降序排列。步驟21:獲得各個驗證數據對應的邏輯回歸模型得到的pl;在表1的基礎上,選取一部分(比如任選6個)作為訓練樣本,代入回歸模型其中表1中是否滑坡點(0/1)作為pl值,一系列已知因子數據(坡度、高程、植被覆蓋、坡面曲率、徑流量指數等)作為回歸模型中的解釋變量x(即x1、x2...xn),來進行模型訓練,得到公式(1)中x前的系數b(即b1、b2...bn)。需要說明的是,如表1所示的測試數據包含了所有因子對應的數據,但是在評價每個個體的適應度時,只選取該個體包含的因子,然后通過公式(1)來計算x前的系數b,例如針對于組合方式1,包含編號分別為1、3、4、5的因子,則只選取編號分別為1、3、4、5的因子對應的數據,而編號為2的因子對應的數據則不使用。然后剩余的另一部分樣本數據(比如剩余4個)用于驗證模型,即代入已知的因子數據(高程、坡度、曲率、徑流量指數)作為解釋變量x,通過計算得到pl值(滑坡預測值)。比如驗證組數據y=[0,1,0,1],其中0代表未滑坡(negative),1代表滑坡(positive),其對應的邏輯回歸模型得到的scores(pl)為[0.1,0.4,0.35,0.8],scores即樣本屬于滑坡類別的概率。然后針對scores,將數據排序,如下表3:表3步驟22:以每個驗證對應的預測值作為閾值(截斷值),計算tpr和fpr;接著將截斷點一次取score值,即0.1,0.35,0.4,0.8,來計算tpr和fpr的結果。當截斷點為0.1時,說明只要score>=0.1,它的預測類別就是滑坡。此時,因為4個樣本的score都大于0.1,所以,所有樣本的預測類別都為滑坡,因此有tp=2,fp=2,tn=0,fn=0,因此有:tpr=tp/(tp+fn)=1,fpr=fp/(tn+fp)=1;其中tp表示預測為滑坡、實際滑坡的次數;其中fp表示預測為滑坡、實際未滑坡的次數;其中tn表示預測未滑坡、實際未滑坡的次數;其中fn表示預測未滑坡、實際滑坡的次數。當截斷點為0.35時,它的預測類型就是滑坡。此時,因為4個樣本的score有3個大于等于0.35。所以,所有樣本的預測類有3個為滑坡(2個預測正確,1個預測錯誤);1個樣本被預測為未滑坡(預測正確),因此有tp=2,fp=1,tn=1,fn=0,因此有:tpr=tp/(tp+fn)=1,fpr=fp/(tn+fp)=0.5當截斷點為0.4時,說明只要score>=0.4,它的預測類別就是滑坡。此時,因為4個樣本的score有2個大于等于0.4。所以,所有樣本的預測類有2個為滑坡(1個預測正確,1個預測錯誤);2個樣本被預測為未滑坡(1個預測正確,1個預測錯誤),因此有tp=1,fp=1,tn=1,fn=1,因此有:tpr=tp/(tp+fn)=0.5,fpr=fp/(tn+fp)=0.5當截斷點為0.8時,說明只要score>=0.8,它的預測類別就是滑坡。所以,所有樣本的預測類有1個為滑坡(1個預測正確);3個樣本被預測為未滑坡(2個預測正確,1個預測錯誤),因此有tp=1,fp=0,tn=0,fn=1,因此有:tpr=tp/(tp+fn)=0.5,fpr=fp/(tn+fp)=0步驟23:以所有點(fpr,tpr)組成的曲線為roc曲線,計算roc曲線下方面積作為適應度,即roc曲線與坐標軸形成的面積作為適應度。此時,獲得4個(fpr,tpr)坐標,4個(fpr,tpr)坐標形成的曲線為roc曲線,如圖2中的黑色粗實線所示,auc即為roc曲線下與坐標軸構成的面積。auc取值范圍[0,1]定義為適應度,其值越大,說明模型的預測精度越高,個體的適應度越強。上述例子只是一個計算適應度的具體示例,在實際中,樣本盡可能多可以得到更準確的結果。表4為初始種群和其適應度的一個例子:初始種群因子因子因子因子適應度組合方式113450.9組合方式223450.7組合方式312450.8組合方式412340.95按照適應度降序排列可以得到新的表4:初始種群因子因子因子因子適應度組合方式412340.95組合方式113450.9組合方式312450.8組合方式223450.7步驟三:對初始種群中個體的因子進行交叉操作。由于初始種群在步驟二中已經完成適應度降序排列,故相鄰個體的適應度最為相近,因此選取相鄰個體進行交叉操作(第1行與第2行、第3行與第4行……,序號越大,適應度越弱,預測精度越差)。同時注意,交叉操作是有條件的,如果相鄰2個個體隨機選取的交叉位置,任意1個個體經交叉后出現(xiàn)因子重復,則交叉失敗,即交叉不予執(zhí)行。如圖3所示,圖3中的上面的兩行數據隨機選取的交叉位置,可以進行交叉,而下面兩行數據選取的交叉位置,不能進行交叉,原因在于下面的兩行數據,經過交叉后,個體會出現(xiàn)兩個相同的因子10,代表某個滑坡因子在模型訓練中,重復使用,對模型的精度提高沒有意義,反而會造成數據的冗余。步驟四:對種群中個體的因子進行變異操作,即對因子隨機調整。由于初始種群在步驟二已經完成適應度降序排列,則適應度較強的個體所對應的因子應該是更優(yōu)質的,而適應度較弱的個體所對應的因子還需要得到顯著改善,故選擇對初始種群中適應度較強的部分個體的因子進行弱變異(因子變異個數設置為1,即調整因子個數為1),對初始種群中剩下的另一部分個體的因子進行強變異(變異因子個數設置為2,即調整因子個數為1)。同時注意,變異操作是有條件的,如果個體隨機選取的變異位置,經變異后與已有因子重復,則變異失敗,即變異不予執(zhí)行,如圖4所示,變異失敗的兩行數據(第二行中編號為13的因子變異為編號為5的因子和第四行中編號7的因子變異為編號1的因子、編號10的因子變異為編號2的因子)分別是由于經過變異后,因子5和因子1已存在,所以變異不執(zhí)行。此處需要說明的是,弱變異和強變異是一個相對概念,弱變異是指變異因子個數較少,強變異是指變異因子個數較多,例如本實施例中的弱變異設置為變異因子個數為1,強變異設置為變異因子個數為2,但并非局限于如此設置,例如,弱變異設置為變異因子個數為n,強變異設置為變異因子個數為m,m>n。需要說明的是,步驟三和步驟四是對初始種群中的個體進行改良,沒有執(zhí)行順序的先后之分,可以交換,也可以只采用其中一種方式(步驟三或步驟四)對初始種群中的個體進行改良。如果先進行交叉操作,再進行變異操作,那么變異操作是以交叉操作后得到的種群為基礎進行變異操作;如果先進行變異操作,再進行交叉操作,那么交叉操作是以變異操作后得到的種群為基礎進行交叉操作。步驟五:按照步驟二中同樣的方法,評價改良種群中每個個體的適應度,與步驟二不同在于,步驟二是對初始種群個體進行適應度評價,而步驟五是對進化后的種群(改良種群)再次進行適應度評價,如下表5所示,這時經過一次交叉、變異后的新種群的適應度會發(fā)生變化,且可能會出現(xiàn)更優(yōu)個體,比如組合方式2的因子1、3、4、5,其適應度為0.97,代表采用4個因子:高程、坡度、曲率、徑流量指數,可得到最高的滑坡預測準確性。改良種群及其適應度如表5所示:改良種群因子因子因子因子適應度組合方式112450.8組合方式213450.97組合方式312350.7組合方式412340.85步驟六:根據maxiter判斷迭代是否結束,若未結束,則返回步驟三進行種群進化,循環(huán)執(zhí)行步驟三至步驟五,若結束,則輸出最優(yōu)個體的因子及其對應的適應度,即將種群中適應度最好的個體所包含的因子作為評價滑坡分析的因子。其中maxiter表示最大迭代次數。該最好個體的因子即為用于評價滑坡風險的因子。相應地,本實施例中還提供了一種用于評價滑坡風險的因子選取裝置,包括:因子編號模塊:用于將測試數據中的多個參數作為因子進行編號;初始種群生成模塊:用于根據因子的個數總量,設置初始種群的個體數量及每個個體包含的因子個數,按照因子的編號隨機生成初始種群;初始種群適應度評價模塊:用于評價初始種群中每個個體的適應度,按照適應度進行升序或降序排列;初始種群改良模塊:用于對初始種群進行至少一次交叉或/和變異操作,得到改良種群;改良種群適應度評價模塊:用于評價改良種群中每個個體的適應度,按照適應度進行升序或降序排列;評價因子選取模塊:用于在改良次數達到最大次數時,把改良種群中適應度最好的個體所包含的因子作為評價滑坡風險的最終選取因子。其中,初始種群適應度評價模塊和改良種群適應度評價模塊,采用上述方法實施例中所述方式進行適應度計算,改良種群適應度評價模塊執(zhí)行的交叉操作和變異操作如上述方法實施例中描述,為避免冗余,在此不做細述。本發(fā)明并不局限于前述的具體實施方式。本發(fā)明擴展到任何在本說明書中披露的新特征或任何新的組合,以及披露的任一新的方法或過程的步驟或任何新的組合。當前第1頁12