本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種p2p網(wǎng)貸借款人信用風險評估的裝置。
背景技術(shù):
近年來,隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,p2p網(wǎng)貸迸發(fā)出強大的活力,愈來愈受到國內(nèi)外市場的關(guān)注和認可。p2p網(wǎng)絡借貸指以有資質(zhì)的互聯(lián)網(wǎng)第三方平臺作為中介,借款人發(fā)放借款標,投資人通過競標向借款人放貸的行為。在平臺審核之后,借款人可發(fā)布其融資需求信息,包含數(shù)額、借款利率、還款期限、還款方式、借款用途及保證還款的形式等,投資人根據(jù)借款人發(fā)布信息,做出投資決策,這一模式為很多無法從銀行及其他信貸機構(gòu)獲得貸款支持的小微企業(yè)主、個人消費者提供了一條新的融資渠道。它的社會價值主要體現(xiàn)在滿足個人資金需求、發(fā)展個人信用體系和提高社會閑散資金利用率三個方面。p2p網(wǎng)貸最大的優(yōu)勢是填補了傳統(tǒng)金融的大空白。傳統(tǒng)金融產(chǎn)品,無論是銀行理財、基金、股票、還是信托,他們服務的對象都不包括小微企業(yè)和普通的小市民,起點也高。而p2p平臺的出現(xiàn),填補了這一空白,p2p主要服務于小微企業(yè)的小額融資,主要的投資人也多為普通的市民、上班族,大大激活了國人的投資熱情,豐富了人們投資理財?shù)倪x擇。
然而由于市場經(jīng)濟中存在著大量的信息不對稱現(xiàn)象,使得信用風險成為了社會中的主要矛盾。p2p網(wǎng)貸本質(zhì)上是一種信用貸款,而投資人往往不能夠全面了解借款人的信用情況,往往會容易產(chǎn)生借款人違約的道德風險問題。一方面,目前p2p網(wǎng)貸借款人信用風險指標體系缺乏相對統(tǒng)一的標準;另一方面,作為風控核心的風險評估模型處于初級階段,現(xiàn)有的風險評估模型預測準確率不高,并不能真實有效地反映借款者的信用水平。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種p2p網(wǎng)貸借款人信用風險評估的裝置,能夠提高風險評估的預測準確度。
本發(fā)明為解決上述技術(shù)問題采用以下技術(shù)方案:
一種p2p網(wǎng)貸借款人信用風險評估的裝置,所述裝置包括:
數(shù)據(jù)采集模塊,用于采集評估p2p網(wǎng)貸借款人信用風險的原始數(shù)據(jù);
指標體系構(gòu)建模塊,用于建立p2p網(wǎng)貸借款人信用風險評估指標體系;
數(shù)據(jù)處理模塊,用于結(jié)合構(gòu)建的p2p網(wǎng)貸借款人信用風險評估指標體系,將采集到的原始數(shù)據(jù)進行缺失值處理、離群值處理和數(shù)據(jù)歸一化處理;
評估模型構(gòu)建模塊,用于通過機器學習算法構(gòu)建p2p網(wǎng)貸借款人信用風險評估模型;
評估模型應用模塊,用于利用構(gòu)建的p2p網(wǎng)貸借款人信用風險評估模型對p2p網(wǎng)貸借款人信用風險進行量化以及評估。
進一步地,所述數(shù)據(jù)處理模塊用于對原始數(shù)據(jù)進行數(shù)據(jù)泛化、缺失值處理、標準化處理、離群值處理和分層抽樣處理。
進一步地,所述數(shù)據(jù)處理模塊包括:
數(shù)據(jù)泛化單元,用于將數(shù)據(jù)集從第一概念層抽象到第二概念層,在抽象過程中包括數(shù)據(jù)字符轉(zhuǎn)換和數(shù)據(jù)離散化的操作;其中,數(shù)據(jù)離散化包括把連續(xù)型數(shù)據(jù)切分為若干段,以區(qū)分自變量和目標變量。
進一步地,所述數(shù)據(jù)處理模塊包括:
缺失值處理單元,用于刪除缺失值,其中,所述缺失值的樣本比例低于指定閾值并且所述缺失值在樣本中隨機出現(xiàn);通過變量間關(guān)系預測缺失數(shù)據(jù),并利用蒙特卡羅隨機模擬方法生成多個完整數(shù)據(jù)集,再對各個所述完整數(shù)據(jù)集分別進行分析,并對分析結(jié)果進行匯總處理。
進一步地,所述數(shù)據(jù)處理模塊包括:
標準化處理單元,用于將數(shù)據(jù)按比例縮放,使其固定在一個特定區(qū)域并對數(shù)據(jù)標準化;其中,所述標準化包括將數(shù)據(jù)映射至起始值和終止值分別為0和1的區(qū)間中或者利用對數(shù)運算對所述數(shù)據(jù)進行處理。
進一步地,所述數(shù)據(jù)處理模塊包括:
離群值處理單元,用于通過箱式圖來對數(shù)據(jù)點進行判斷,當數(shù)據(jù)點與箱體下四分位數(shù)或上四分位數(shù)之間的距離超出距離閾值時,或者當數(shù)據(jù)點超過箱體圖最大值時,將該數(shù)據(jù)點確定為離群值。
進一步地,所述數(shù)據(jù)處理模塊包括:
分層抽樣單元,用于在建立借款人信用風險評估模型之前,從數(shù)據(jù)集中分別抽取出訓練集與測試集,其中,所述訓練集用于構(gòu)造模型,所述測試集用于評價模型。
進一步地,所述評估模型構(gòu)建模塊包括:
尋優(yōu)模型構(gòu)建單元,用于利用混沌布谷鳥算法ccs對xgboost算法進行參數(shù)尋優(yōu),以構(gòu)建ccs-xgboost模型;
模型訓練單元,用于通過歷史交易數(shù)據(jù)對所述ccs-xgboost模型進行訓練,并把訓練后的ccs-xgboost模型作為p2p網(wǎng)貸借款人信用風險的評估模型。
進一步地,所述評估模型應用模塊包括:
數(shù)據(jù)輸入單元,用于用于把新數(shù)據(jù)輸入到經(jīng)過訓練的ccs-xgboost模型中,以輸出p2p網(wǎng)貸借款人信用風險預測評估結(jié)果。
本發(fā)明采用以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:
一方面,針對目前p2p網(wǎng)貸借款人信用風險指標體系缺乏相對統(tǒng)一的標準的問題,本發(fā)明結(jié)合p2p網(wǎng)貸所特有的性質(zhì),構(gòu)建了p2p網(wǎng)貸借款人信用風險評估指標體系,為后續(xù)借款人信用風險評估模型的研究奠定了基礎(chǔ)。另一方面,針對現(xiàn)有的風險評估模型預測準確率不高,并不能真實有效地反映借款者的信用水平的問題,本發(fā)明進一步地構(gòu)建了ccs-xgboost模型作為p2p網(wǎng)貸借款人信用風險的評估模型,提高了預測準確率與泛化性能。
附圖說明
圖1是構(gòu)建p2p網(wǎng)貸借款人信用風險評估指標體系流程圖;
圖2是p2p網(wǎng)貸借款人數(shù)據(jù)預處理流程圖;
圖3是p2p網(wǎng)貸借款人數(shù)據(jù)平衡化算法流程圖;
圖4是基于ccs算法的xgboost優(yōu)化流程圖;
圖5是p2p網(wǎng)貸借款人信用風險評估流程圖。
具體實施方式
下面結(jié)合附圖對本發(fā)明的技術(shù)方案做進一步的詳細說明:
本發(fā)明提供一種p2p網(wǎng)貸借款人信用風險評估的裝置,所述裝置包括:
數(shù)據(jù)采集模塊,用于采集評估p2p網(wǎng)貸借款人信用風險的原始數(shù)據(jù);
指標體系構(gòu)建模塊,用于建立p2p網(wǎng)貸借款人信用風險評估指標體系;
數(shù)據(jù)處理模塊,用于結(jié)合構(gòu)建的p2p網(wǎng)貸借款人信用風險評估指標體系,將采集到的原始數(shù)據(jù)進行缺失值處理、離群值處理和數(shù)據(jù)歸一化處理;
評估模型構(gòu)建模塊,用于通過機器學習算法構(gòu)建p2p網(wǎng)貸借款人信用風險評估模型;
評估模型應用模塊,用于利用構(gòu)建的p2p網(wǎng)貸借款人信用風險評估模型對p2p網(wǎng)貸借款人信用風險進行量化以及評估。
在本實施方式中,所述數(shù)據(jù)處理模塊用于對原始數(shù)據(jù)進行數(shù)據(jù)泛化、缺失值處理、標準化處理、離群值處理和分層抽樣處理。
在本實施方式中,所述數(shù)據(jù)處理模塊包括:
數(shù)據(jù)泛化單元,用于將數(shù)據(jù)集從第一概念層抽象到第二概念層,在抽象過程中包括數(shù)據(jù)字符轉(zhuǎn)換和數(shù)據(jù)離散化的操作;其中,數(shù)據(jù)離散化包括把連續(xù)型數(shù)據(jù)切分為若干段,以區(qū)分自變量和目標變量。
在本實施方式中,所述數(shù)據(jù)處理模塊包括:
缺失值處理單元,用于刪除缺失值,其中,所述缺失值的樣本比例低于指定閾值并且所述缺失值在樣本中隨機出現(xiàn);通過變量間關(guān)系預測缺失數(shù)據(jù),并利用蒙特卡羅隨機模擬方法生成多個完整數(shù)據(jù)集,再對各個所述完整數(shù)據(jù)集分別進行分析,并對分析結(jié)果進行匯總處理。
在本實施方式中,所述數(shù)據(jù)處理模塊包括:
標準化處理單元,用于將數(shù)據(jù)按比例縮放,使其固定在一個特定區(qū)域并對數(shù)據(jù)標準化;其中,所述標準化包括將數(shù)據(jù)映射至起始值和終止值分別為0和1的區(qū)間中或者利用對數(shù)運算對所述數(shù)據(jù)進行處理。
在本實施方式中,所述數(shù)據(jù)處理模塊包括:
離群值處理單元,用于通過箱式圖來對數(shù)據(jù)點進行判斷,當數(shù)據(jù)點與箱體下四分位數(shù)或上四分位數(shù)之間的距離超出距離閾值時,或者當數(shù)據(jù)點超過箱體圖最大值時,將該數(shù)據(jù)點確定為離群值。
在本實施方式中,所述數(shù)據(jù)處理模塊包括:
分層抽樣單元,用于在建立借款人信用風險評估模型之前,從數(shù)據(jù)集中分別抽取出訓練集與測試集,其中,所述訓練集用于構(gòu)造模型,所述測試集用于評價模型。
在本實施方式中,所述評估模型構(gòu)建模塊包括:
尋優(yōu)模型構(gòu)建單元,用于利用混沌布谷鳥算法ccs對xgboost算法進行參數(shù)尋優(yōu),以構(gòu)建ccs-xgboost模型;
模型訓練單元,用于通過歷史交易數(shù)據(jù)對所述ccs-xgboost模型進行訓練,并把訓練后的ccs-xgboost模型作為p2p網(wǎng)貸借款人信用風險的評估模型。
在本實施方式中,所述評估模型應用模塊包括:
數(shù)據(jù)輸入單元,用于用于把新數(shù)據(jù)輸入到經(jīng)過訓練的ccs-xgboost模型中,以輸出p2p網(wǎng)貸借款人信用風險預測評估結(jié)果。
具體地,如圖1所示,本發(fā)明構(gòu)建p2p網(wǎng)貸借款人信用風險指標體系,主要是為了p2p網(wǎng)貸平臺能夠在借款人借貸的過程中,為風控人員提供貸前、貸中、貸后提供決策支持信息。本發(fā)明主要通過對知名p2p平臺所采用的借款人信用指標進行研究和分析,并參照商業(yè)銀行個人貸款所采用信用評價指標,結(jié)合以往的信用評價指標體系的研究成果和方法,綜合考量,建立科學合理的p2p網(wǎng)貸借款人信用風險評估指標體系。
p2p網(wǎng)貸平臺所采用的借款人信用風險指標很大程度上類似于于商業(yè)銀行的個人信用風險指標。然而,傳統(tǒng)金融機構(gòu)與互聯(lián)網(wǎng)金融存在著本質(zhì)的差別,所以p2p網(wǎng)貸借款人指標體系不僅需要借鑒商業(yè)銀行的個人指標體系,更要融入社交元素、網(wǎng)絡交易記錄、第三方征信等這些指標,這樣才能全面覆蓋借款人信用指標,有效地反應借款人的真實信用水平。本發(fā)明所構(gòu)建的p2p網(wǎng)貸借款人信用風險評估初選指標具體如下:
1.基本信息
借款人的基本信息能夠反映借款人自身的特征信息,借款人基本信息是p2p網(wǎng)貸平臺最容易了解的信息,能夠從側(cè)面反映借款人的實際還款能力。主要包括借款人的年齡、性別、婚姻狀況、教育程度、房產(chǎn)情況、工作年限、社交人脈資源等。
2.償還能力信息
借款人的償還能力信息能夠明確地判斷借款人的償還能力,是借款人信用風險評估體系中比較重要的指標。主要包括借款人平均月收入、月償還額、月償還額占月收入比重等。
3.個人征信信息
借款人的個人征信信息主要是借款人在征信報告中反映兩年來的信用行為記錄,能在一定程度上反映借款人的道德素質(zhì)和對所借款項的償還意愿。主要包括借款人當前是否有違約債務、過去2年逾期次數(shù)、過去2年最大逾期天數(shù)、循環(huán)貸款使用額度、過去6個月內(nèi)征信記錄被查詢次數(shù)、信用卡使用年限等。
4.公開信息
借款人的公開信息著重考察借款人的遵紀守法狀況,也能從一定程度上也能夠反映借款人的還款意愿。主要包括不良公開記錄次數(shù)(訴訟記錄、互聯(lián)網(wǎng)交易毀約記錄、社交污點等)等,支付寶提供的芝麻評分也可作為一項參照依據(jù)。
5.貸款產(chǎn)品特征信息
貸款產(chǎn)品特征信息是借款人向p2p網(wǎng)貸平臺所申請的貸款品種,這些指標是影響借款人貸款違約的信用風險的重要指標。主要包括貸款利率、貸款期限、貸款金額等。
如圖2所示,p2p網(wǎng)貸交易記錄具有噪聲和離群點多、特征維度高等特點,只有經(jīng)過有效合理地數(shù)據(jù)預處理過程,才能夠使得模型分析有更好地決策作用,而且也節(jié)約了大量的時間和處理成本。
其中,數(shù)據(jù)泛化是將數(shù)據(jù)轉(zhuǎn)換成一種適合數(shù)據(jù)挖掘的形式,用簡潔概要的方式描述數(shù)據(jù),是將數(shù)據(jù)集從較低的概念層抽象到較高的概念層的過程。主要有數(shù)據(jù)字符轉(zhuǎn)換,數(shù)據(jù)離散化等。數(shù)據(jù)字符轉(zhuǎn)換目的是為了后續(xù)建模導入數(shù)據(jù)方便,同時分析更直觀。離散化指把連續(xù)型數(shù)據(jù)切分為若干“段”,使得自變量和目標變量之間的關(guān)系變得清晰化。主要有等距、等頻、優(yōu)化離散等方法。
如果數(shù)據(jù)分析建立在有缺失值的情況下結(jié)果往往是不可靠的,這就要求在數(shù)據(jù)預處理過程中要考慮缺失值處理的問題。常用的缺失值處理方法有三種:(1)直接刪除缺失值,但前提是缺失樣本的比例較少且是隨機出現(xiàn)的,這樣刪除缺失值后對分析結(jié)果影響不大;(2)替換缺失值,處理簡單且不會減少樣本信息,但當缺失值不是隨機出現(xiàn)時會產(chǎn)生偏差;(3)多重插補法,通過變量間關(guān)系來預測缺失數(shù)據(jù),利用蒙特卡羅隨機模擬方法生成多個完整數(shù)據(jù)集,再對這些數(shù)據(jù)集分別進行分析,最后對這些分析結(jié)果進行匯總處理。
通過將數(shù)據(jù)按比例縮放,使其固定在一個特定區(qū)域,對數(shù)據(jù)標準化,便于數(shù)據(jù)挖掘過程。通常標準化包括(0,1)標準化以及l(fā)og標準化,具體計算如下:
第一、采用最小-最大規(guī)范化方法對初始數(shù)據(jù)進行線性變換處理,處理之后的數(shù)據(jù)都在[0,1]區(qū)間內(nèi),公式如下:
其中,xij為數(shù)據(jù)第i個指標的第j個樣本的原屬性值,
第二、log函數(shù)標準化,采用以10為底的log函數(shù)進行轉(zhuǎn)換從而實現(xiàn)數(shù)據(jù)的歸一化,歸一化之后的數(shù)據(jù)同樣在[0,1]區(qū)間內(nèi),公式如下:
其中,xij為數(shù)據(jù)第i個指標的第j個樣本的原屬性值,
然而,標準化后數(shù)據(jù)的離群值依舊存在,故需對離群值進一步處理。
離群值檢測,也被稱為異常值檢測,目的是檢測出特征明顯不同于其它數(shù)據(jù)的觀測值。離群值可以通過統(tǒng)計軟件r作觀察值的箱式圖來判斷,如果數(shù)據(jù)點距離箱體下四分數(shù)或上四分位數(shù)處過大,甚至當數(shù)據(jù)點超過箱體圖最大值以上,則可視該數(shù)據(jù)點為離群值。
在建立借款人信用風險評估模型之前,需要分別從數(shù)據(jù)集中抽取出訓練集與測試集,前者用于構(gòu)造模型,后者用于評價模型。數(shù)據(jù)抽樣要盡量選用科學合理的抽樣方法,常見的抽樣方法包括隨機抽樣、分層抽樣及整群抽樣。
如圖3所示,假設某個數(shù)據(jù)集有兩類數(shù)據(jù),若兩類數(shù)據(jù)的樣本量相似且邊界清晰,則稱它為平衡數(shù)據(jù)集。非平衡數(shù)據(jù)集就是正類(少數(shù)類)樣本量遠遠少于負類(多數(shù)類)樣本量,非平衡數(shù)據(jù)分類問題在日常生活和生產(chǎn)過程中很常見,如惡意欠費識別、衛(wèi)星圖像檢測、交易欺詐偵破、醫(yī)療病例診斷、網(wǎng)絡入侵監(jiān)測等。通常情況下,只對少數(shù)類樣本的分類更感興趣,如在文本挖掘中,可能只對文本中的某個主題感興趣,而這個主題在整個文件集中可能只占很小的部分;在金融欺詐交易中,往往只對產(chǎn)生嚴重后果的欺詐交易感興趣。因此,對非平衡數(shù)據(jù)集中少數(shù)類樣本的正確分類要比對多數(shù)類樣本分類準確的意義更具有實際應用價值,需要更加關(guān)注對非平衡數(shù)據(jù)集的分類研究。
而p2p網(wǎng)貸借款人數(shù)據(jù)則屬于典型非平衡數(shù)據(jù)集,在平衡化處理中本發(fā)明采用km-smote算法。smote是一種基于重采樣技術(shù)的新采樣算法,通過增加少數(shù)類樣本的數(shù)目來使數(shù)據(jù)集達到平衡,并且在一定程度上緩解了傳統(tǒng)過抽樣容易出現(xiàn)的過擬合問題。smote算法原理:對一非平衡數(shù)據(jù)集t的每一個少數(shù)類樣本x,尋找其k個最近鄰樣本,且這k個最近鄰樣本均屬于少數(shù)類樣本。設置少數(shù)類樣本的采用倍率為n,從k個最近鄰樣本中隨機選取n個樣本。在這n個樣本與少數(shù)類樣本之間的直線內(nèi)進行隨機插值,得到n個插值樣本pi,這樣對于每一個少數(shù)類樣本均產(chǎn)生了n個合成樣本。少數(shù)類樣本就被擴充了n倍。
smote算法插值公式如下:
pi=x+rand(0,1)*(yi-x),i=1,2,…,n
其中x是非平衡數(shù)據(jù)內(nèi)的少數(shù)類樣本,pi是x與第yi個最近鄰的矢量差,rand(0,1)是(0,1)之間的隨機數(shù)。
smote算法采樣倍率n由數(shù)據(jù)集的非平衡性決定,即多數(shù)類樣本與少數(shù)類樣本之間的非平衡程度,計算公式如下:
n=round(il)
k-means算法是由hartigan提出的一種基于距離劃分的聚類算法。其基本思想是:首先在數(shù)據(jù)集內(nèi)任意選擇k個樣本作為初始聚類中心,這樣就將數(shù)據(jù)樣本分成k個簇,再計算每個數(shù)據(jù)樣本到初始聚類中心的歐氏距離,依次將各數(shù)據(jù)樣本劃分到與之最近的簇內(nèi);計算每個簇的數(shù)據(jù)樣本的均值,若不符合聚類目標準則,則繼續(xù)執(zhí)行上述聚類過程,直至簇內(nèi)的數(shù)據(jù)樣本相似度高,而簇間數(shù)據(jù)樣本相似度低。k-means算法快速、簡單且適合處理大批量數(shù)據(jù)的特性,已被廣泛應用于數(shù)據(jù)挖掘領(lǐng)域中。
設有n個數(shù)據(jù)樣本x={x1,x2,…,xn}∈rd,其中xj=(xj1,xj2,…,xjd)t為d維向量。具體步驟如下:
步驟1:隨機選取k個樣本數(shù)據(jù),作為k個初始聚類中心,聚類中心集合為c={c1,c2,…,ck}t;ci的計算公式如下:
其中ci表示第i個簇的中心位置,i=1,2,…,k,ni是ci中樣本數(shù)據(jù)的個數(shù),xj代表屬于ci所屬簇內(nèi)的樣本數(shù)據(jù)。
步驟2:計算其余數(shù)據(jù)樣本到每一個簇內(nèi)中心ci的歐氏距離,再將各個數(shù)據(jù)樣本劃分到距離ci最小的簇中。d(xj,ci)表示樣本數(shù)據(jù)xj與聚類中心ci之間的歐式距離,計算公式如下:
步驟3:根據(jù)公式(3-2)重新計算各個簇中k個聚類中心值;
步驟4:若滿足使目標函數(shù)公式(3-4)最小或保持不變,則迭代過程結(jié)束,k-means聚類操作完成。最小化目標函數(shù)公式如下:
其中,si是第i個類別中樣本的簇集合,ci是si內(nèi)所有樣本xj的聚類中心點。
由于smote算法在少數(shù)類樣本合成擴充過程中,插值規(guī)則設置較簡單且插值隨機性較大,過采樣就容易造成模糊數(shù)據(jù)樣本的正負邊界;同時也忽略了少數(shù)類數(shù)據(jù)的分布情況,這樣往往使得分類不能夠取得良好的效果。k-means算法可以有效彌補smote算法所存在缺陷,并且提高非平衡數(shù)據(jù)的分類準確率。因此,本發(fā)明運用k-means算法與smote算法結(jié)合,構(gòu)成km-smote算法,來合成新的少數(shù)類樣本數(shù)據(jù)。
km-smote算法核心思想:首先通過對少數(shù)類樣本數(shù)據(jù)進行k-means聚類操作,對少數(shù)類樣本數(shù)據(jù)進行了劃分,形成k個聚類,且分布均勻。選取每個聚類的簇心,即簇內(nèi)的中心點。接著以每一個簇心與之簇內(nèi)的少數(shù)類樣本為直線,利用修正后smote過采樣插值公式在其間進行隨機插值,合成少數(shù)類樣本數(shù)據(jù)。
km-smote算法的核心包括少數(shù)類樣本的邊界點確定、危險點判定、插值公式修正三個部分:
1.邊界點確定
對少數(shù)類樣本數(shù)據(jù),求得其k個近鄰,判斷k個近鄰是否存在多數(shù)類樣本數(shù)據(jù),若存在,則將該少數(shù)類樣本點記為邊界少數(shù)類樣本點,并計入邊界數(shù)據(jù)樣本點集合中。
2.危險點判定
對少數(shù)類樣本數(shù)據(jù)k-means聚類后,判斷每個簇內(nèi)的數(shù)據(jù)樣本中邊界樣本數(shù)據(jù)點個數(shù),若大于一個,則需要對該簇ci,進行再一次判定。若該聚類簇心ui到邊界少數(shù)類樣本x的歐氏距離dp比ui到少數(shù)類樣本x對應的k近鄰中屬于多數(shù)類近鄰點之間的歐氏距離dq小,且x的k個近鄰均為多數(shù)類,則稱少數(shù)類樣本x類危險點,需剔除,再次計算該聚類簇心,直至不存在危險點。
3.修正插值公式
(1)計算少數(shù)類樣本數(shù)據(jù)聚類后的簇心ci到簇內(nèi)每一個數(shù)據(jù)點的歐氏距離d,即d={d1,d2,d3…},取其中的最大歐氏距離dmax。
(2)計算簇心到少數(shù)類數(shù)據(jù)樣本數(shù)據(jù)點x的歐氏距離dx,并計算與dmax與dx的比值hij,并取整h=[hij]。
(3)則新的插值公式為:
xnew=ui+rand(0,h)*(x-ui),i=1,2,…,k
其中xnew為新的插值樣本點,ui為簇心,x是以ui為簇心的簇的一個少數(shù)類樣本數(shù)據(jù)點,rand(0,h)是[0,h]之間的某一隨機數(shù)。
km-smote算法的具體步驟如下:
step1:求得所有少數(shù)類數(shù)據(jù)的k個近鄰,判斷出少數(shù)類樣本數(shù)據(jù)的邊界點,并將其歸入邊界點集合中。
step2:利用k-means算法對少數(shù)類樣本數(shù)據(jù)進行聚類,分為k個聚類,記錄每一個聚類的簇心ui={u1,u2,…,uk}。
step3:利用危險點判定方法,判斷是否存在少數(shù)類樣本點為危險點,若存在則剔除該少數(shù)類樣本點,重新計算簇心,直至不存在危險點。
step4:利用上述修正的插值公式,合成新的少數(shù)類樣本點。
step5:由于采樣倍率設置原因,插值后若少數(shù)類樣本比多數(shù)類樣本多,則需要剔除少數(shù)類樣本合成過程中可能產(chǎn)生過擬合的數(shù)據(jù),直至非平衡數(shù)據(jù)內(nèi)多數(shù)類樣本與少數(shù)類樣本達到相對均衡。
如圖4所示,xgboost算法是在gradientboostingdecisiontree基礎(chǔ)上發(fā)展起來的,全名是extremegradientboosting,它以其出色分類性能和魯棒性在模式識別問題上得到了較為廣泛的使用。在同等情況下,xgboost算法比同類算法快10倍以上,xgboost能利用cpu多線程并行加速樹的構(gòu)建,支持yarn,mpi等多個平臺,實現(xiàn)分布式運算,可進一步提高訓練速度。它的基本原理與gbdt算法相似,但它比傳統(tǒng)的gbdt算法,更進步的地方在于:傳統(tǒng)的gbdt只利用了一階的導數(shù)信息,而xgboost對損失函數(shù)進行二階的泰勒展開,求得模型的最優(yōu)解的效率更高。
大多數(shù)機器學習算法的參數(shù)選擇對分類效果有很大的影響而參數(shù)的選擇實際上是一個優(yōu)化過程,因此優(yōu)化算法被應用于機器學習算法的參數(shù)選擇上。比如,遺傳算法(geneticalgorithm,ga)和粒子群算法(particleswarmoptimization,pso)曾應用于svm參數(shù)的優(yōu)化。但是,遺傳算法具有搜索速度慢和參數(shù)依賴等問題。粒子群算法在處理復雜的多峰搜索問題時容易產(chǎn)生早熟收斂和局部尋優(yōu)能力較差的缺陷。布谷鳥搜索算法(cuckoosearch,cs)具有控制參數(shù)少、搜索路徑優(yōu)、全局搜索能力強等優(yōu)點,效果明顯勝于pso、ga等算法。雖然布谷鳥算法相對于其他一些傳統(tǒng)搜索算法有著算法簡單,操作參數(shù)少,易于實現(xiàn)的優(yōu)點,但其也存在著容易陷入局部最優(yōu),搜索速度慢的缺點。當算法進行n次迭代后,鳥窩的最優(yōu)位置不發(fā)生變化時,就可以認為算法出現(xiàn)早熟現(xiàn)象?;煦?chaos)是一種非線性系統(tǒng)中普遍存在的現(xiàn)象,混沌變量的變化在一定的范圍內(nèi)具有遍歷性、隨機性和規(guī)律性。將混沌變量引入到cs算法中,即混沌布谷鳥算法(ccs),可以有效避免陷入局部最優(yōu),提高搜索速度和精確度。
在xgboost集成學習框架中,參數(shù)收縮步長(shrinkage)和子節(jié)點中最小的樣本權(quán)重閥值(min_child_weight),直接影響著xgboost算法分類的表現(xiàn)性能:過大的shrinkage將導致算法無法收斂,過小的shrinkage將導致算法過擬合。min_child_weight是子節(jié)點中最小的樣本權(quán)重和閥值,如果一個葉子節(jié)點的樣本權(quán)重和小于min_child_weight則拆分過程結(jié)束。過小的min_child_weight將導致算法過擬合,過大的min_child_weigh會導致算法對線性不可分數(shù)據(jù)的分類性能。為提高參數(shù)尋優(yōu)效果和加快參數(shù)尋優(yōu)速度,避免傳統(tǒng)參數(shù)尋優(yōu)中用到的機械枚舉尋優(yōu)法帶來的投機性、隨機性和計算量大等弊端,同時為了避免ga算法、pso算法和模擬退火算法(simulateannealarithmetic,saa)局部尋優(yōu)能力差等劣勢,鑒于ccs算法在參數(shù)優(yōu)化方面的良好表現(xiàn),本發(fā)明應用ccs算法對xgboost中的(shrinkage,min_child_weight)參數(shù)尋優(yōu)。首先,以模型分類準確率作為適應度函數(shù),設定shrinkage和min_child_weight的初始值(即初始反應物)。然后,利用ccs算法優(yōu)化參數(shù)shrinkage和min_child_weight,隨后利用訓練子集訓練xgboost,同時利用測試子集測xgboost模型,計算分類精度。最后分類精度為依據(jù)判斷shrinkage和min_child_weight是否符合終止條件。若符合條件,則輸出最佳參數(shù)shrinkage和min_child_weight,若不符合,則繼續(xù)使用ccs算法優(yōu)化,直到符合終止條件為止。
如圖5所示,將用來評估p2p網(wǎng)貸借款人信用風險的最原始數(shù)據(jù)通過數(shù)據(jù)采集模塊采集到評估裝置中,采集p2p借款人基本數(shù)據(jù)、客戶信用數(shù)據(jù)、客戶償還能力數(shù)據(jù),采集p2p平臺真實交易歷史數(shù)據(jù)。在綜合多方面考慮的基礎(chǔ)上建立有效合理的p2p網(wǎng)貸借款人信用風險評估指標體系,p2p網(wǎng)貸借款人信用風險評估初選指標有借款人基本信息、償還能力信息、個人征信信息、公開信息和貸款產(chǎn)品特征信息。結(jié)合構(gòu)建的p2p網(wǎng)貸借款人信用風險評估指標體系將采集到的原始數(shù)據(jù)進行缺失值處理、離群值處理和數(shù)據(jù)歸一化等轉(zhuǎn)化處理。通過優(yōu)化、集成理論以及機器學習算法構(gòu)建p2p網(wǎng)貸借款人信用風險評估模型,利用混沌布谷鳥算法(ccs)對xgboost算法進行參數(shù)尋優(yōu)從而構(gòu)建ccs-xgboost模型,通過歷史交易數(shù)據(jù)有監(jiān)督的訓練評估模型,把訓練后的ccs-xgboost模型作為p2p網(wǎng)貸借款人信用風險的評估模型。應用構(gòu)建的p2p網(wǎng)貸借款人信用風險評估模型對p2p網(wǎng)貸借款人信用風險進行量化、自動化評估。把新數(shù)據(jù)輸入到ccs-xgboost評估模型中,模型自動輸出p2p網(wǎng)貸借款人信用風險預測評估結(jié)果,從而對p2p網(wǎng)貸借款人信用風險進行量化、自動化評估。
上面結(jié)合附圖對本發(fā)明的實施方式作了詳細說明,但是本發(fā)明并不限于上述實施方式,在本領(lǐng)域普通技術(shù)人員所具備的知識范圍內(nèi),還可以在不脫離本發(fā)明宗旨的前提下做出各種變化。