本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別涉及一種個(gè)人信用風(fēng)險(xiǎn)評(píng)估方法及系統(tǒng)。
背景技術(shù):
伴隨著我國經(jīng)濟(jì)轉(zhuǎn)型對(duì)刺激消費(fèi)、擴(kuò)大內(nèi)需、調(diào)整經(jīng)濟(jì)發(fā)展結(jié)構(gòu)的迫切需求,以及居民收入和消費(fèi)能力的提升,我國消費(fèi)信貸市場取得了快速的發(fā)展。然而在p2p(個(gè)人對(duì)個(gè)人)在線信貸中投資人承受著巨大的信用風(fēng)險(xiǎn)。其一,多數(shù)p2p在線信貸在借貸過程中都沒有抵押,借款人一旦毀約,會(huì)導(dǎo)致投資方遭受巨大的損失;其二,投資人對(duì)借款人的信息認(rèn)知來自于p2p在線信貸平臺(tái),存在信息不對(duì)稱的因素。所以,借款人的信用風(fēng)險(xiǎn)評(píng)估是p2p在線信貸中至關(guān)重要的一個(gè)環(huán)節(jié),其嚴(yán)重影響著一個(gè)平臺(tái)的生命周期。因此,一個(gè)穩(wěn)定、高效的信用風(fēng)險(xiǎn)評(píng)估體系顯得尤為重要。
目前,國際上通用的信用評(píng)估要素主要為“5c”、“5p”和“l(fā)app”,主流商業(yè)銀行將客戶的數(shù)據(jù)通過一些評(píng)分體系,如美國的fico評(píng)分系統(tǒng),對(duì)用戶數(shù)據(jù)進(jìn)行分析,量化用戶的信用評(píng)估指標(biāo),最后根據(jù)不同的權(quán)重進(jìn)行加權(quán)得到信用評(píng)分。p2p在線信貸由于對(duì)用戶提供的信息要求并不嚴(yán)格,一般只擁有其基本資產(chǎn)信息、學(xué)歷、年齡、身份等信息,然后通過第三方的認(rèn)證平臺(tái)對(duì)借款人進(jìn)行信息認(rèn)證,然后評(píng)定借款人的信用等級(jí),供投資人進(jìn)行參考。
由于從p2p在線信貸平臺(tái)獲得的數(shù)據(jù)樣本是有限的、非均衡的,所以,利用現(xiàn)有的在線信貸風(fēng)險(xiǎn)評(píng)估系統(tǒng)對(duì)p2p信貸用戶進(jìn)行分類,其精度較低,難以實(shí)現(xiàn)個(gè)人信用風(fēng)險(xiǎn)的準(zhǔn)確評(píng)估。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供了一種個(gè)人信用風(fēng)險(xiǎn)評(píng)估方法,包括以下步驟:
s100、獲取p2p有效客戶的數(shù)據(jù)將其作為原始數(shù)據(jù)集;
s200、采用bootstrap法(自助法)從所述原始數(shù)據(jù)集中有放回地隨機(jī)抽取n個(gè)樣本數(shù)據(jù)集,并建n棵分類樹;
s300、將抽取的n個(gè)樣本數(shù)據(jù)集放到相應(yīng)的分類樹中,每棵分類樹輸出一個(gè)結(jié)果,根據(jù)所有的分類樹的數(shù)據(jù)結(jié)果生成隨機(jī)森林;
s400、利用所述隨機(jī)森林對(duì)p2p客戶數(shù)據(jù)進(jìn)行判別和分類,并根據(jù)判別和分類結(jié)果對(duì)所述p2p客戶的個(gè)人信用風(fēng)險(xiǎn)進(jìn)行評(píng)估。
其中,步驟s300中,將抽取的n個(gè)樣本數(shù)據(jù)集放到相應(yīng)的分類樹中,每棵分類樹輸出一個(gè)結(jié)果,根據(jù)所有的分類樹的數(shù)據(jù)結(jié)果生成隨機(jī)森林,包括以下步驟:
s310、對(duì)每個(gè)節(jié)點(diǎn)隨機(jī)選擇m個(gè)評(píng)價(jià)指標(biāo)作為待選特征集,m為整數(shù);
s320、在所述待選特征集中選擇m(m<m)個(gè)評(píng)價(jià)指標(biāo)計(jì)算其分裂值φ(α):
φ(α)=β1ginidivide(s)-β2giniratio(a)
其中,ginidivide(s)為:
s1,s2為樣本集s分隔成的兩個(gè)子集;
gini(s1)為cart算法劃分度量:
giniratio(a)為改進(jìn)的c4.5算法中的信息增益率:
s330、比較每個(gè)評(píng)價(jià)指標(biāo)的分裂值φ(α),將分裂值φ(α)最小的評(píng)價(jià)指標(biāo)作為節(jié)點(diǎn)分裂特征,并在待選特征集中刪除該評(píng)價(jià)指標(biāo);
s340、檢查節(jié)點(diǎn)的分支所覆蓋的樣本是否屬于同一類;如不屬于同一類,則根據(jù)該分裂特征將其分為兩個(gè)子集,在兩個(gè)子集中分別依次執(zhí)行步驟s310至s340;如屬于同一類,則生成子節(jié)點(diǎn),輸出分類結(jié)果。
基于同一發(fā)明構(gòu)思,本發(fā)明還提供一種個(gè)人信用風(fēng)險(xiǎn)評(píng)估系統(tǒng),包括原始數(shù)據(jù)獲取模塊、數(shù)據(jù)抽取模塊、隨機(jī)森林生成模塊以及分類模塊;
所述原始數(shù)據(jù)獲取模塊,用于獲取p2p有效客戶的數(shù)據(jù)將其作為原始數(shù)據(jù)集;
所述數(shù)據(jù)抽取模塊,用于采用bootstrap法從所述原始數(shù)據(jù)集中有放回地隨機(jī)抽取n個(gè)樣本數(shù)據(jù)集,并建n棵分類樹;
所述隨機(jī)森林生成模塊,用于將抽取的n個(gè)樣本數(shù)據(jù)集放到相應(yīng)的分類樹中,每棵分類樹輸出一個(gè)結(jié)果,根據(jù)所有的分類樹的數(shù)據(jù)結(jié)果生成隨機(jī)森林;
所述分類模塊,用于利用所述隨機(jī)森林對(duì)p2p客戶數(shù)據(jù)進(jìn)行判別和分類,并根據(jù)判別和分類結(jié)果對(duì)所述p2p客戶的個(gè)人信用風(fēng)險(xiǎn)進(jìn)行評(píng)估。
作為一種可實(shí)施方式,所述隨機(jī)森林生成模塊包括選取單元、計(jì)算單元、比較單元以及檢查單元;
所述選取單元,用于對(duì)每個(gè)節(jié)點(diǎn)隨機(jī)選擇m個(gè)評(píng)價(jià)指標(biāo)作為待選特征集,m為整數(shù);
所述計(jì)算單元,用于在所述待選特征集中選擇m(m<m)個(gè)評(píng)價(jià)指標(biāo)計(jì)算其分裂值φ(α):
φ(α)=β1ginidivide(s)-β2giniratio(a)
其中,ginidivide(s)為:
s1,s2為樣本集s分隔成的兩個(gè)子集;
gini(s1)為cart算法劃分度量:
giniratio(a)為改進(jìn)的c4.5算法中的信息增益率:
所述比較單元,用于比較每個(gè)評(píng)價(jià)指標(biāo)的分裂值φ(α),將分裂值φ(α)最小的評(píng)價(jià)指標(biāo)作為節(jié)點(diǎn)分裂特征,并在待選特征集中刪除該評(píng)價(jià)指標(biāo);
所述檢查單元,用于檢查節(jié)點(diǎn)的分支所覆蓋的樣本是否屬于同一類;如不屬于同一類,則根據(jù)該分裂特征將其分為兩個(gè)子集,在兩個(gè)子集中分別依次執(zhí)行選取單元、計(jì)算單元、比較單元的動(dòng)作;如屬于同一類,則生成子節(jié)點(diǎn),輸出分類結(jié)果。
本發(fā)明相比于現(xiàn)有技術(shù)的有益效果在于:
本發(fā)明提供的個(gè)人信用風(fēng)險(xiǎn)評(píng)估方法及系統(tǒng),通過獲取p2p有效客戶的數(shù)據(jù)將其作為原始數(shù)據(jù)集,采用bootstrap法從原始數(shù)據(jù)集中有放回地隨機(jī)抽取n個(gè)樣本數(shù)據(jù)集,并建n棵分類樹,進(jìn)而將抽取的n個(gè)樣本數(shù)據(jù)集放到相應(yīng)的分類樹中,每棵分類樹輸出一個(gè)結(jié)果,根據(jù)所有的分類樹的數(shù)據(jù)結(jié)果生成隨機(jī)森林,最后利用隨機(jī)森林對(duì)p2p客戶數(shù)據(jù)進(jìn)行判別和分類,并根據(jù)判別和分類結(jié)果對(duì)p2p客戶的個(gè)人信用風(fēng)險(xiǎn)進(jìn)行評(píng)估。本發(fā)明通過改進(jìn)的隨機(jī)森林法能夠大大提高用戶分類的準(zhǔn)確度。
附圖說明
圖1為本發(fā)明一實(shí)施例提供的個(gè)人信用風(fēng)險(xiǎn)評(píng)估方法的流程示意圖;
圖2為圖1所示的個(gè)人信用風(fēng)險(xiǎn)評(píng)估方法的原理示意圖;
圖3為圖1所示的個(gè)人信用風(fēng)險(xiǎn)評(píng)估方法中的步驟s300的一實(shí)施方式的流程示意圖;
圖4為本發(fā)明另一實(shí)施例提供的個(gè)人信用風(fēng)險(xiǎn)評(píng)估系統(tǒng)的原理示意圖。
具體實(shí)施方式
以下結(jié)合附圖,對(duì)本發(fā)明上述的和另外的技術(shù)特征和優(yōu)點(diǎn)進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明的部分實(shí)施例,而不是全部實(shí)施例。
隨機(jī)森林算法具有極高的準(zhǔn)確率、以及對(duì)非均衡樣本和噪聲良好的容忍度,所以本發(fā)明將隨機(jī)森林方法引入p2p在線信貸風(fēng)險(xiǎn)評(píng)估中。隨機(jī)森林方法建模思想是利用bootstrap方法從原始的樣本集中隨機(jī)抽取獲得多個(gè)子樣本集,對(duì)每個(gè)子樣本集進(jìn)行決策樹建模,然后根據(jù)投票法對(duì)多棵決策樹的預(yù)測結(jié)果進(jìn)行投票來確定隨機(jī)森林的預(yù)測結(jié)果。
請(qǐng)參閱圖1和圖2,本發(fā)明一實(shí)施例提供的個(gè)人信用風(fēng)險(xiǎn)評(píng)估方法,本發(fā)明提供了一種個(gè)人信用風(fēng)險(xiǎn)評(píng)估方法,包括以下步驟:
s100、獲取p2p有效客戶的數(shù)據(jù)將其作為原始數(shù)據(jù)集;
s200、采用自助法從原始數(shù)據(jù)集中有放回地隨機(jī)抽取n個(gè)樣本數(shù)據(jù)集,并建n棵分類樹;
s300、將抽取的n個(gè)樣本數(shù)據(jù)集放到相應(yīng)的分類樹中,每棵分類樹輸出一個(gè)結(jié)果,根據(jù)所有的分類樹的數(shù)據(jù)結(jié)果生成隨機(jī)森林;
s400、利用隨機(jī)森林對(duì)p2p客戶數(shù)據(jù)進(jìn)行判別和分類,并根據(jù)判別和分類結(jié)果對(duì)p2p客戶的個(gè)人信用風(fēng)險(xiǎn)進(jìn)行評(píng)估。
作為一種可實(shí)施方式,步驟s300中,將抽取的n個(gè)樣本數(shù)據(jù)集放到相應(yīng)的分類樹中,每棵分類樹輸出一個(gè)結(jié)果,根據(jù)所有的分類樹的數(shù)據(jù)結(jié)果生成隨機(jī)森林,包括以下步驟:
s310、對(duì)每個(gè)節(jié)點(diǎn)隨機(jī)選擇m個(gè)評(píng)價(jià)指標(biāo)作為待選特征集,m為整數(shù);
s320、在待選特征集中選擇m(m<m)個(gè)評(píng)價(jià)指標(biāo)計(jì)算其分裂值φ(α):
φ(α)=β1ginidivide(s)-β2giniratio(a)
其中,ginidivide(s)為:
s1,s2為樣本集s分隔成的兩個(gè)子集;
gini(s1)為cart算法劃分度量:
giniratio(a)為改進(jìn)的c4.5算法中的信息增益率:
s330、比較每個(gè)評(píng)價(jià)指標(biāo)的分裂值φ(α),將分裂值φ(α)最小的評(píng)價(jià)指標(biāo)作為節(jié)點(diǎn)分裂特征,并在待選特征集中刪除該評(píng)價(jià)指標(biāo);
s340、檢查節(jié)點(diǎn)的分支所覆蓋的樣本是否屬于同一類;如不屬于同一類,則根據(jù)該分裂特征將其分為a、b兩個(gè)子集,在a、b兩個(gè)子集中分別依次執(zhí)行步驟s310至s340;如屬于同一類,則生成子節(jié)點(diǎn),輸出分類結(jié)果。
參見圖3,本發(fā)明另一實(shí)施例提供的個(gè)人信用風(fēng)險(xiǎn)評(píng)估方法,步驟s300中的將抽取的n個(gè)樣本數(shù)據(jù)集放到相應(yīng)的分類樹中,每棵分類樹輸出一個(gè)結(jié)果,可以通過以下步驟實(shí)現(xiàn):
s301、隨機(jī)選擇m個(gè)評(píng)價(jià)指標(biāo)得到待選特征集;
s302、在待選特征集中選擇n個(gè)評(píng)價(jià)指標(biāo)并計(jì)算其分裂值;
s303、將分裂值最小的評(píng)價(jià)指標(biāo)作為節(jié)點(diǎn)分裂特征;
s304、在待選特征集中刪除該評(píng)價(jià)指標(biāo);
s305、判斷節(jié)點(diǎn)的分支所覆蓋的樣本是否屬于同一類,若否,則返回步驟s302;
s306、若是,則生成子節(jié)點(diǎn),輸出分類結(jié)果。
基于同一發(fā)明構(gòu)思,本發(fā)明還提供一種個(gè)人信用風(fēng)險(xiǎn)評(píng)估系統(tǒng),該系統(tǒng)與上述方法的原理相同,系統(tǒng)的實(shí)施可參照上述方法實(shí)現(xiàn),重復(fù)之處不再冗述。
參見圖4,本發(fā)明提供的個(gè)人信用風(fēng)險(xiǎn)評(píng)估系統(tǒng)包括原始數(shù)據(jù)獲取模塊100、數(shù)據(jù)抽取模塊200、隨機(jī)森林生成模塊300以及分類模塊400。其中,原始數(shù)據(jù)獲取模塊100用于獲取p2p有效客戶的數(shù)據(jù)將其作為原始數(shù)據(jù)集;數(shù)據(jù)抽取模塊200用于采用bootstrap法從原始數(shù)據(jù)集中有放回地隨機(jī)抽取n個(gè)樣本數(shù)據(jù)集,并建n棵分類樹;隨機(jī)森林生成模塊300用于將抽取的n個(gè)樣本數(shù)據(jù)集放到相應(yīng)的分類樹中,每棵分類樹輸出一個(gè)結(jié)果,根據(jù)所有的分類樹的數(shù)據(jù)結(jié)果生成隨機(jī)森林;分類模塊400用于利用隨機(jī)森林對(duì)p2p客戶數(shù)據(jù)進(jìn)行判別和分類,并根據(jù)判別和分類結(jié)果對(duì)p2p客戶的個(gè)人信用風(fēng)險(xiǎn)進(jìn)行評(píng)估。
作為一種可實(shí)施方式,隨機(jī)森林生成模塊300包括選取單元、計(jì)算單元、比較單元以及檢查單元。其中:
選取單元用于對(duì)每個(gè)節(jié)點(diǎn)隨機(jī)選擇m個(gè)評(píng)價(jià)指標(biāo)作為待選特征集,m為整數(shù)。
計(jì)算單元用于在待選特征集中選擇m(m<m)個(gè)評(píng)價(jià)指標(biāo)計(jì)算其分裂值φ(α):
φ(α)=β1ginidivide(s)-β2giniratio(a)
其中,ginidivide(s)為:
s1,s2為樣本集s分隔成的兩個(gè)子集;
gini(s1)為cart算法劃分度量:
giniratio(a)為改進(jìn)的c4.5算法中的信息增益率:
比較單元用于比較每個(gè)評(píng)價(jià)指標(biāo)的分裂值φ(α),將分裂值φ(α)最小的評(píng)價(jià)指標(biāo)作為節(jié)點(diǎn)分裂特征,并在待選特征集中刪除該評(píng)價(jià)指標(biāo)。
檢查單元用于檢查節(jié)點(diǎn)的分支所覆蓋的樣本是否屬于同一類;如不屬于同一類,則根據(jù)該分裂特征將其分為兩個(gè)子集,在兩個(gè)子集中分別依次執(zhí)行選取單元、計(jì)算單元、比較單元的動(dòng)作;如屬于同一類,則生成子節(jié)點(diǎn),輸出分類結(jié)果。
本發(fā)明提供的個(gè)人信用風(fēng)險(xiǎn)評(píng)估方法及系統(tǒng),通過獲取p2p有效客戶的數(shù)據(jù)將其作為原始數(shù)據(jù)集,采用bootstrap法從所述原始數(shù)據(jù)集中有放回地隨機(jī)抽取n個(gè)樣本數(shù)據(jù)集,并建n棵分類樹,進(jìn)而將抽取的n個(gè)樣本數(shù)據(jù)集放到相應(yīng)的分類樹中,每棵分類樹輸出一個(gè)結(jié)果,根據(jù)所有的分類樹的數(shù)據(jù)結(jié)果生成隨機(jī)森林,最后利用所述隨機(jī)森林對(duì)p2p客戶數(shù)據(jù)進(jìn)行判別和分類,并根據(jù)判別和分類結(jié)果對(duì)所述p2p客戶的個(gè)人信用風(fēng)險(xiǎn)進(jìn)行評(píng)估。本發(fā)明通過改進(jìn)的隨機(jī)森林法能夠大大提高用戶分類的準(zhǔn)確度。
以上所述的具體實(shí)施例,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步的詳細(xì)說明,應(yīng)當(dāng)理解,以上所述僅為本發(fā)明的具體實(shí)施例而已,并不用于限定本發(fā)明的保護(hù)范圍。特別指出,對(duì)于本領(lǐng)域技術(shù)人員來說,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。