本發(fā)明涉及數(shù)據(jù)分析技術(shù)領(lǐng)域,尤其涉及一種基于支持向量機的信貸防偽方法。
背景技術(shù):
實踐中,貸款詐騙案屢屢發(fā)生,給銀行造成了巨大的損失,貸款詐騙大多源于銀行的不良放貸,發(fā)生貸款詐騙只是銀行不良貸款的終極表現(xiàn),而更多的問題是商業(yè)銀行業(yè)務(wù)集中反映為貸款質(zhì)量差,不良貸款比率居高不下。目前,幾大國有銀行這一比例平均高達兩位數(shù),嚴重影響了商業(yè)銀行的正常運行,給銀行和人民財產(chǎn)造成重大損失。
隨著我國市場經(jīng)濟的不斷發(fā)展和市場經(jīng)濟體制的不斷深入,尤其是經(jīng)濟體制轉(zhuǎn)軌、社會經(jīng)濟活動的擴張,及現(xiàn)代金融體制的形成,所要求的規(guī)范建立過程中必然伴隨大量的失范現(xiàn)象,貸款詐騙行為的大量出現(xiàn)就是一個較為典型的例子,貸款詐騙犯罪嚴重擾亂了正常的金融秩序,同時還破壞了社會主義市場經(jīng)濟基礎(chǔ)之一的社會信用機制。
信用詐騙分類問題可以看成是一個三類的分類問題,即正常、信用詐騙及疑似信用詐騙。相比于正常及信用欺詐,可疑性欺詐行為往往更加值得研究,因為,這一部分信用問題有可能成為真正的信用欺詐。
針對這類問題,傳統(tǒng)多類支持向量機使用一對一、一對其他以及dagsvm方法來對多類問題進行分類。其中,一對一和一對其他方法的泛化誤差是無界的。并且,一對一和一對其它方法所需構(gòu)造的子分類器的數(shù)量關(guān)于類別數(shù)k成超線性增長,共k(k-1)個,在測試階段,必須計算所有的子判別函數(shù)預測結(jié)果,然后使用投票方法獲得最終分類結(jié)果。這種方法不直觀、不利用專家對問題的理解。另外,一對一方法中每個子分類器必須對數(shù)據(jù)進行規(guī)范化,這導致還有一個最明顯的缺點就是,每個子分類器必須都要非常仔細地調(diào)整,如果某個子分類器不規(guī)范化,則整個分類系統(tǒng)將趨于過學習。dagsvm方法解決了不可分區(qū)域問題,而且不一定要計算所有的子分類判決函數(shù),但各個子分類器在有向無環(huán)圖中的位置也會對分類系統(tǒng)產(chǎn)生較大的影響。由于信用詐騙數(shù)據(jù)的特殊性,這些方法構(gòu)建出來的模型不易于理解、且性能不夠理想,不適用于信用詐騙樣例的分類。因此需要設(shè)計針對于信用詐騙數(shù)據(jù)集的分類方法。
技術(shù)實現(xiàn)要素:
本發(fā)明為了解決現(xiàn)有技術(shù)問題,構(gòu)建新的支持向量機模型,設(shè)計一種基于支持向量機的信貸防偽方法,該方法保證有效預測疑似信用詐騙樣例的同時,準確地預測正常和信用詐騙樣例。
本發(fā)明提供一種基于支持向量機的信貸防偽方法,包括:
步驟1,建立信用貸款變量的信息描述表;獲取訓練樣本,根據(jù)所述信息描述表對訓練樣本進行處理,建立訓練樣本信息表;
步驟2,建立目標函數(shù),并利用所述的目標函數(shù)將支持向量機分類策略和支持向量機回歸策略合并,所述的目標函數(shù)為:
其中:
yi(w·xj)≥1-ξj,j=l+1,l,l+m+n,
(w·xi)-yi≤1+ξi,i=1,l,l,
ξj≥0,j=l+1,l,l+m+n,
其中,w是超平面的參數(shù),l是訓練樣本表中疑似信貸詐騙樣本的數(shù)目,m和n分別是訓練樣本表中信用詐騙樣本和正常樣本的數(shù)目,c1是疑似信貸詐騙錯誤分類時的懲罰權(quán)重,c2是信用詐騙樣例或正常樣例錯誤分類時的懲罰權(quán)重;
步驟3,使用10折交叉驗證確定參數(shù)c1和c2的取值:隨機平均劃分訓練數(shù)據(jù)集為10折,對于每一折,其它折用于訓練模型,該折用于測試訓練到的模型的性能;平均每一折的結(jié)果得到模型最終的優(yōu)泛化性能;設(shè)置c1和c2取值范圍分別為[0.1,0.2,0.3,...,1.0];對于具有最優(yōu)泛化性能模型對應(yīng)的c1和c2取值,
步驟4,設(shè)置
其中w(k)為第k次迭代w的值,
其中p(k)=w(k+1)-w(k),
步驟5,利用步驟1的信息描述表處理預測樣本x’,計算支持向量機的輸出函數(shù)y=wx’+b,進而模型預測與預測樣本x’關(guān)聯(lián)的類標號為:
優(yōu)選的,在步驟1中,所述的信息描述表將信用貸款變量的類型分為類別、數(shù)值、二元或離散。
優(yōu)選的,在步驟5中,所述的預測樣本x’可利用:
進行非線性化后代入支持向量機的輸出函數(shù)。
優(yōu)選的,步驟1中獲得的訓練樣本和步驟5中的預測樣本x’中的樣本的缺失屬性值,可利用其他樣本已知的同屬性值求平均值后填充。
與相關(guān)技術(shù)相比,本發(fā)明提供的基于支持向量機的信貸防偽方法能夠有效地分析樣本是否屬于疑似信用詐騙,并且能在預測正常和信用詐騙樣例上保持高準確率。
附圖說明
圖1為本發(fā)明提供的基于支持向量機的信貸防偽方法詐騙樣例線性分類示意圖;
圖2為本發(fā)明提供的基于支持向量機的信貸防偽方法詐騙樣例非線性分類示意圖。
具體實施方式
以下將參考附圖并結(jié)合實施例來詳細說明本發(fā)明。
一種基于支持向量機的信貸防偽方法,包括:
步驟1,建立信用貸款變量的信息描述表;獲取訓練樣本,根據(jù)所述信息描述表對訓練樣本進行處理,建立訓練樣本信息表。
信息描述表見表1。訓練樣本信息表見表2。
表1:信息描述表
表1中,建立信用貸款變量的信息描述表,將信用貸款變量的類型分為類別、數(shù)值、二元、離散。
表2:訓練樣本信息表
表2中,取數(shù)據(jù)集中的前4項作為獲取的訓練樣本x,根據(jù)所述的信息描述表對訓練樣本x進行處理。訓練樣本中的樣本的缺失屬性值,利用其他樣本已知的同屬性值求平均值后填充,如表2中第七行salary的值,數(shù)據(jù)項第2項是其第1、3、4項的salary的值的平均值。
步驟2,建立目標函數(shù),并利用所述的目標函數(shù)將支持向量機分類和支持向量機回歸合并,所述的目標函數(shù)為:
yi(w·xj)≥1-ξj,j=l+1,l,l+m+n,
(w·xi)-yi≤1+ξi,i=1,l,l,
ξj≥0,j=l+1,l,l+m+n,
其中,w是超平面的參數(shù),l是訓練樣本表中疑似信用詐騙樣本的數(shù)目,m和n分別是訓練樣本表中信用詐騙樣本和正常樣本的數(shù)目,c1是疑似信用詐騙錯誤分類時的懲罰權(quán)重,c2是信用詐騙樣例或正常樣例錯誤分類時的懲罰權(quán)重。
步驟3,使用10折交叉驗證確定參數(shù)c1和c2的取值:隨機平均劃分訓練數(shù)據(jù)集為10折,對于每一折,其它折用于訓練模型,該折用于測試訓練到的模型的性能;平均每一折的結(jié)果得到模型最終的優(yōu)泛化性能;設(shè)置c1和c2取值范圍分別為[0.1,0.2,0.3,...,1.0];對于具有最優(yōu)泛化性能模型對應(yīng)的c1和c2取值,
步驟4,設(shè)置
其中w(k)為第k次迭代w的值,
其中p(k)=w(k+1)-w(k),
步驟5,利用步驟1的信息描述表處理預測樣本x’,計算支持向量機的輸出函數(shù)y=wx’+b,進而模型預測與預測樣本x’關(guān)聯(lián)的類標號為:
訓練一個支持向量機模型,使得正常樣例落在分離段的一側(cè),如圖1“+”所示;信用詐騙樣例落在分離段的另一測,如圖1“○”所示;而疑似信用詐騙樣例落在分離段的內(nèi)部,如圖1
分別映射正常、疑似和信用詐騙樣例的類標號為+1、0和-1。為了方便操作,規(guī)范化支持向量到超平面(圖1中的虛線)的距離為1。
另外,步驟5中的預測樣本x’可利用:
步驟5中的預測樣本x’中的樣本的缺失屬性值,可利用其他樣本已知的同屬性值求平均值后填充。
實驗結(jié)果:使用準確率(accuracy)和召回率(recall)作為評價指標評,使用一對一支持向量機作為比較對象。準確率定義為正確分類的比率,召回率定義為疑似信用詐騙樣例中被正確分類的比率。結(jié)果見表3所示。
表3:實驗結(jié)果表
表3中,線性支持向量機的輸出函數(shù)svm-3c-linear和非線性支持向量機的輸出函數(shù)svm-3c-nonlinear是本發(fā)明方法中分別支持線性和非線性的方法,svm-linear和svm-nonlinear分別表示一對一的線性支持向量機和非線性支持向量機。
以上所述僅為本發(fā)明的實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運用在其它相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護范圍內(nèi)。