本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域,特別是地理信息的知識挖掘領(lǐng)域,涉及一種基于遺傳算法的logistic回歸城市用地動態(tài)模擬方法。
背景技術(shù):
城市用地動態(tài)模擬是指利用數(shù)據(jù)挖掘等方法來定量模擬當(dāng)前城市的各種用地類型之間的轉(zhuǎn)化和分布等情況,以及預(yù)測未來城市的各種用地類型的轉(zhuǎn)化、分布以及城市的形態(tài)格局。
在數(shù)據(jù)挖掘領(lǐng)域,尤其是在地理信息挖掘領(lǐng)域,如城市用地動態(tài)模擬應(yīng)用中,目前為止,在構(gòu)建模型的方法中主要有一些基于傳統(tǒng)數(shù)理方法的層次分析、主成分分析以及馬爾科夫鏈等;而當(dāng)前使用更多的建模方法主要是基于機(jī)器學(xué)習(xí)和人工智能的一些算法,logistic回歸便是機(jī)器學(xué)習(xí)中一種經(jīng)典的分類方法。
logistic回歸為概率型非線性回歸模型,是研究二分類觀察結(jié)果與一些影響因素之間關(guān)系的一種多變量分析方法。通常的問題是,研究某些因素條件下某個(gè)結(jié)果是否發(fā)生。利用logistic回歸進(jìn)行分類的主要思想是:根據(jù)現(xiàn)有數(shù)據(jù)對分類邊界線建立回歸公式,以此進(jìn)行分類。這里的“回歸”一詞源于最佳擬合,表示要找到最佳擬合參數(shù)集,而最佳擬合參數(shù)集的尋找需要通過最優(yōu)化算法訓(xùn)練樣本數(shù)據(jù)獲得。logistic回歸模型的sigmoid函數(shù)公式如下:
f(y)=1/(1+e^(-y))
其中y=w1x1+…+wnxn,x1,x2…,xn是每個(gè)樣本的n個(gè)特征,w1,w2,…,wn是一組權(quán)值,即各個(gè)特征的回歸系數(shù)。sigmoid函數(shù)的定義域?yàn)?-∞,+∞),值域?yàn)?0,1)。顯而易見,logistic回歸適合對兩類目標(biāo)進(jìn)行分類,并且logistic回歸最關(guān)鍵的問題就是求得w0,w1,…,wn這組權(quán)值。
基本的logistic回歸的參數(shù)估計(jì)(求取回歸系數(shù))的方法一般為極大似然估計(jì)或最小二乘法等。在中小規(guī)模數(shù)據(jù)量和屬性數(shù)較少的情況下,該方法能取到較好的分類效果和效率,但當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)?;?qū)傩詳?shù)較多時(shí),泛化誤差上升明顯,分類效果不佳,從而導(dǎo)致城市用地動態(tài)模擬應(yīng)用中的模擬精度不佳。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明的目的在于提供一種基于遺傳算法的logistic回歸城市用地動態(tài)模擬方法,該方法將基本的logistic回歸與改進(jìn)的遺傳算法相結(jié)合,將改進(jìn)的遺傳算法作為基本的logistic回歸的參數(shù)估計(jì)方法。
為達(dá)到上述目的,本發(fā)明提供如下技術(shù)方案:
一種基于遺傳算法的logistic回歸城市用地動態(tài)模擬方法,在該方法中,將遺傳算法迭代得到的權(quán)重組合集(因?yàn)檫z傳算法產(chǎn)生了多個(gè)染色體,每個(gè)染色體解碼后就得到一個(gè)權(quán)重組合,因此也就有多個(gè)權(quán)重組合)作為logistic回歸的回歸系數(shù),分別將樣本數(shù)據(jù)集應(yīng)用到各組權(quán)重組合上,得到各個(gè)權(quán)重組合的分類精度,并以此作為遺傳算法適應(yīng)度函數(shù)的依據(jù),進(jìn)而通過遺傳算法的不斷迭代得到一個(gè)最佳的權(quán)重組合,即logistic回歸的最終的回歸系數(shù),并用于對完整數(shù)據(jù)集進(jìn)行分類。
進(jìn)一步的,該方法具體包括以下步驟:
s1:讀取樣本數(shù)據(jù),設(shè)置遺傳算法的初始種群大小、迭代次數(shù)或迭代停止條件、自適應(yīng)的交叉率以及變異率控制參數(shù);
s2:對遺傳算法的解進(jìn)行實(shí)數(shù)編碼,并通過隨機(jī)方法生成初始種群;
s3:設(shè)計(jì)遺傳算法的遺傳算子,三個(gè)遺傳算子分別設(shè)計(jì)為比例選擇算子、兩點(diǎn)交叉算子和單點(diǎn)變異算子;
s4:開始遺傳算法的迭代,解碼得到已經(jīng)產(chǎn)生的所有地理驅(qū)動因子的權(quán)值組合集,即logistic回歸的多組回歸系數(shù);
s5:在遺傳算法的每次迭代結(jié)果中,將多組回歸系數(shù)分別應(yīng)用于logistic回歸模型中并計(jì)算樣本數(shù)據(jù)的分類精度,以此反饋遺傳算法當(dāng)代種群中的個(gè)體適應(yīng)度;
s6:當(dāng)遺傳算法停止迭代條件得到滿足時(shí),輸出logistic回歸模型的最佳回歸系數(shù);至此,模型已經(jīng)訓(xùn)練完成;
s7:最后,將該模型應(yīng)用到完整數(shù)據(jù)集上,對目標(biāo)年的城市用地動態(tài)變化進(jìn)行模擬。
本發(fā)明的有益效果在于:本發(fā)明提供的方法比基本logistic回歸的參數(shù)估計(jì)方法得到的回歸系數(shù)更加接近“最佳擬合參數(shù)”,從而使得分類精度得到明顯提高,使得其在城市用地動態(tài)模擬應(yīng)用中的模擬精度得到明顯提高。
附圖說明
為了使本發(fā)明的目的、技術(shù)方案和有益效果更加清楚,本發(fā)明提供如下附圖進(jìn)行說明:
圖1為本發(fā)明所述方法的流程示意圖。
具體實(shí)施方式
下面將結(jié)合附圖,對本發(fā)明的優(yōu)選實(shí)施例進(jìn)行詳細(xì)的描述。
本發(fā)明針對基本logistic回歸中存在的問題,將遺傳算法迭代得到的權(quán)重組合集(因?yàn)檫z傳算法產(chǎn)生了多個(gè)染色體,每個(gè)染色體解碼后就得到一個(gè)權(quán)重組合,因此也就有多個(gè)權(quán)重組合)作為logistic回歸的回歸系數(shù),分別將樣本數(shù)據(jù)集應(yīng)用到各組權(quán)重組合上,得到各個(gè)權(quán)重組合的分類精度,并以此作為遺傳算法適應(yīng)度函數(shù)的依據(jù),進(jìn)而通過遺傳算法的不斷迭代得到一個(gè)最佳的權(quán)重組合,即logistic回歸的最終的回歸系數(shù),并用于對完整數(shù)據(jù)集進(jìn)行分類。
圖1為本發(fā)明所述的基于遺傳算法的logistic回歸城市用地動態(tài)模擬方法的流程示意圖,如圖所示,本發(fā)明所述的方法包括以下步驟:
s1:讀取樣本數(shù)據(jù),設(shè)置遺傳算法的初始種群大小、迭代次數(shù)或迭代停止條件、自適應(yīng)的交叉率以及變異率控制參數(shù);
s2:對遺傳算法的解進(jìn)行實(shí)數(shù)編碼,并通過隨機(jī)方法生成初始種群;
s3:設(shè)計(jì)遺傳算法的遺傳算子,三個(gè)遺傳算子分別設(shè)計(jì)為比例選擇算子、兩點(diǎn)交叉算子和單點(diǎn)變異算子;
s4:開始遺傳算法的迭代,解碼得到已經(jīng)產(chǎn)生的所有地理驅(qū)動因子的權(quán)值組合集,即logistic回歸的多組回歸系數(shù);
s5:在遺傳算法的每次迭代結(jié)果中,將多組回歸系數(shù)分別應(yīng)用于logistic回歸模型中并計(jì)算樣本數(shù)據(jù)的分類精度,以此反饋遺傳算法當(dāng)代種群中的個(gè)體適應(yīng)度;
s6:當(dāng)遺傳算法停止迭代條件得到滿足時(shí),輸出logistic回歸模型的最佳回歸系數(shù);至此,模型已經(jīng)訓(xùn)練完成;
s7:最后,將該模型應(yīng)用到完整數(shù)據(jù)集上,對目標(biāo)年的城市用地動態(tài)變化進(jìn)行模擬。
本方法比基本logistic回歸的參數(shù)估計(jì)方法得到的回歸系數(shù)更加接近“最佳擬合參數(shù)”,從而使得分類精度得到明顯提高,使得其在城市用地動態(tài)模擬應(yīng)用中的模擬精度得到明顯提高。
最后說明的是,以上優(yōu)選實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非限制,盡管通過上述優(yōu)選實(shí)施例已經(jīng)對本發(fā)明進(jìn)行了詳細(xì)的描述,但本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,可以在形式上和細(xì)節(jié)上對其作出各種各樣的改變,而不偏離本發(fā)明權(quán)利要求書所限定的范圍。