本發(fā)明涉及技術(shù)領(lǐng)域互聯(lián)網(wǎng)金融信用技術(shù)領(lǐng)域,特別涉及一種個(gè)人信用得分優(yōu)化評(píng)價(jià)方法。
背景技術(shù):
目前,國內(nèi)外在個(gè)人信用得分評(píng)價(jià)上所采用的方法主要分為三大類:第一類是基于統(tǒng)計(jì)學(xué)模型的信用得分評(píng)價(jià)方法,如線性回歸法、logistic回歸方法和probit回歸方法等回歸模型以及基于k-近鄰判別分析方法和貝葉斯概率模型的非參數(shù)信用得分評(píng)價(jià)方法;第二類是非統(tǒng)計(jì)學(xué)模型的信用得分評(píng)價(jià)方法,如神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、遺傳算法和決策樹等一系列人工智能算法;第三類是組合信用得分評(píng)價(jià)方法,該類模型利用多個(gè)信用得分評(píng)價(jià)模型,并根據(jù)各個(gè)算法的優(yōu)缺點(diǎn)進(jìn)行有機(jī)融合,可以獲得比上述兩類方法中的單個(gè)模型更好的計(jì)算效果,對(duì)于以上三類個(gè)人信用得分優(yōu)化評(píng)價(jià)方法,都存在著各自的缺陷。
基于統(tǒng)計(jì)學(xué)模型的信用得分評(píng)價(jià)方法存在模型構(gòu)建過程復(fù)雜,易于過度擬合,計(jì)算復(fù)雜度高等缺點(diǎn),不適合當(dāng)前面向大規(guī)模征信數(shù)據(jù)的個(gè)人信用得分評(píng)價(jià)應(yīng)用;
基于非統(tǒng)計(jì)學(xué)模型的信用得分評(píng)價(jià)方法存在著評(píng)價(jià)結(jié)果易受噪聲數(shù)據(jù)干擾而出現(xiàn)不穩(wěn)定,以及評(píng)價(jià)過程不清晰而導(dǎo)致模型可解釋性差等缺陷;
在組合評(píng)價(jià)方法中,由于logistic回歸模型存在不能夠很好解決多重共線性的問題,甚至由于計(jì)算過多變量而導(dǎo)致模型復(fù)雜度的增加,從而降低了模型評(píng)價(jià)結(jié)果的準(zhǔn)確性;同時(shí),在信用得分評(píng)價(jià)過程中,logistic回歸模型無法根據(jù)實(shí)際情況動(dòng)態(tài)調(diào)整“好”、“壞”客戶錯(cuò)判所帶來的損失-收益比。因此,在具體應(yīng)用過程中也受到了一定的限制;最后,在面向當(dāng)前基于大規(guī)模征信數(shù)據(jù)的個(gè)人信用得分評(píng)價(jià)應(yīng)用中,logistic回歸模型因其計(jì)算復(fù)雜度高,在處理大數(shù)據(jù)時(shí),其執(zhí)行效率無法滿足需求。
技術(shù)實(shí)現(xiàn)要素:
為解決現(xiàn)有技術(shù)中個(gè)人信用得分評(píng)價(jià)過程中容易受噪聲數(shù)據(jù)干擾;利用統(tǒng)計(jì)學(xué)中模型構(gòu)建過程復(fù)雜;使用組合評(píng)價(jià)方法中計(jì)算過多導(dǎo)致模型更加復(fù)雜等技術(shù)問題,本發(fā)明提出一種計(jì)算復(fù)雜度低、容易建模的個(gè)人信用得分優(yōu)化評(píng)價(jià)方法來實(shí)現(xiàn)。
一種個(gè)人信用得分優(yōu)化評(píng)價(jià)方法,包括以下步驟:
根據(jù)歷史個(gè)人信用數(shù)據(jù),將征信覆蓋范圍內(nèi)的客戶進(jìn)行信用標(biāo)簽標(biāo)定;
根據(jù)信用標(biāo)簽標(biāo)定結(jié)果,對(duì)信用指標(biāo)進(jìn)行篩選,獲得評(píng)價(jià)使用的高質(zhì)量征信數(shù)據(jù);
根據(jù)篩選的結(jié)果對(duì)個(gè)人信用得分進(jìn)行評(píng)價(jià),具體計(jì)算步驟如下:構(gòu)造決策樹并對(duì)構(gòu)造好的決策樹進(jìn)行剪枝,精簡決策樹模型,防止決策樹在構(gòu)造過程中過度擬合;采用boosting推進(jìn),進(jìn)一步提高決策樹的準(zhǔn)確性;構(gòu)造成本矩陣與代價(jià)敏感樹,能降低生成的決策樹模型發(fā)生高成本誤判的概率;對(duì)決策樹進(jìn)行修剪及交叉驗(yàn)證,進(jìn)一步提高決策樹的精確度;輸入待評(píng)價(jià)數(shù)據(jù),輸出評(píng)價(jià)結(jié)果:利用構(gòu)建完成的決策樹模型,在決策樹中輸入待評(píng)價(jià)使用的征信數(shù)據(jù),經(jīng)過訓(xùn)練獲得最終的個(gè)人信用評(píng)價(jià)結(jié)果。
作為一種可實(shí)施方式,所述對(duì)信用指標(biāo)進(jìn)行篩選的具體步驟如下:
設(shè)定個(gè)人信用得分評(píng)價(jià)指標(biāo)構(gòu)成的高維數(shù)據(jù)矩陣x={x1,x2,…,xn}和標(biāo)簽標(biāo)定的信用得分因變量y,在此,y=1或者y=0;
通過高維數(shù)據(jù)矩陣x={x1,x2,…,xn}和標(biāo)簽標(biāo)定的信用得分因變量y來構(gòu)建回歸模型,設(shè)定回歸系數(shù)向量β=(β1,β2,…,βn),則回歸模型表示為
將公式(1)的似然函數(shù)進(jìn)行對(duì)數(shù)化處理,處理后得到:
公式(2)中,α是回歸模型
可以推出變量選擇的目標(biāo)函數(shù)為:
公式(3)中
作為一種可實(shí)施方式,所述構(gòu)造決策樹并對(duì)構(gòu)造好的決策樹進(jìn)行剪枝具體操作為:
將給定樣本集合作為決策樹的根節(jié)點(diǎn),計(jì)算根節(jié)點(diǎn)中樣本集合的每個(gè)特征屬性的信息增益比率;
選取信息增益比率最高的屬性作為當(dāng)前節(jié)點(diǎn)的分裂屬性,將被選取的分裂屬性標(biāo)示當(dāng)前節(jié)點(diǎn);
對(duì)選取的分離屬性的每個(gè)數(shù)值創(chuàng)建一個(gè)分支,并據(jù)此將給定樣本劃分成若干個(gè)子集,為每個(gè)子集創(chuàng)建一個(gè)新的節(jié)點(diǎn)。
作為一種可實(shí)施方式,針對(duì)得到的每個(gè)新節(jié)點(diǎn),重復(fù)以上步驟,直到最后所有的節(jié)點(diǎn)符合以下三種條件中的一個(gè)則停止創(chuàng)建新分支。
作為一種可實(shí)施方式,所述三種條件包括:
節(jié)點(diǎn)的樣本集合中所有的樣本都屬于同一類;
節(jié)點(diǎn)的樣本集合中所有的屬性都已經(jīng)處理完畢,沒有剩余屬性可以用來進(jìn)一步劃分樣本;
節(jié)點(diǎn)的樣本集合中所有樣本的剩余屬性取值完全相同,但所屬類別卻不同。
作為一種可實(shí)施方式,所述采用boosting算法進(jìn)行推進(jìn)的具體過程為:
a、設(shè)定構(gòu)建好決策樹的個(gè)數(shù)為t,t表示第t次訓(xùn)練,當(dāng)t=1,
b、計(jì)算
c、為樣本集合s的每個(gè)樣本賦予歸一化的權(quán)重值
d、計(jì)算第t個(gè)決策樹對(duì)樣本的錯(cuò)誤率
e、計(jì)算權(quán)重值的調(diào)整因子δt,δt=εt/1-εt;
若樣本被正確分類,則
若t=t,則訓(xùn)練過程結(jié)束;否則,令t=t+l,轉(zhuǎn)至步驟b進(jìn)行下一個(gè)循環(huán);
f、最終得到復(fù)合決策樹
作為一種可實(shí)施方式,決策樹的修剪及交叉驗(yàn)證操作步驟具體如下:
將所有訓(xùn)練數(shù)據(jù)平均分成k份,每次使用其中一份作為測試樣本,其余k-1份數(shù)據(jù)作為學(xué)習(xí)樣本;
選擇平均分類精度最高的決策樹作為需要使用的決策樹。
本發(fā)明相比于現(xiàn)有技術(shù)的有益效果在于:
本發(fā)明所提供的方法能夠充分算法與決策樹模型的優(yōu)點(diǎn),可以優(yōu)化整個(gè)面向大規(guī)模征信數(shù)據(jù)的個(gè)人信用得分計(jì)算過程,加速算法的執(zhí)行速度,提升計(jì)算結(jié)果的有效性,增強(qiáng)計(jì)算過程的可解釋性,通過adaptivelasso算法可以約簡評(píng)價(jià)維度、降低計(jì)算復(fù)雜度、提升c5.0算法的執(zhí)行效率;利用決策樹模型進(jìn)行個(gè)人信用得分進(jìn)行計(jì)算,模型具有良好的解釋性,計(jì)算過程清晰,計(jì)算結(jié)果的過程溯源能力優(yōu)良,計(jì)算結(jié)果穩(wěn)定,并且決策樹模型自帶的算法加速功能也可以進(jìn)一步提升算法執(zhí)行效率,適合模型大規(guī)模征信數(shù)據(jù)的個(gè)人信用得分計(jì)算應(yīng)用;決策樹模型可以動(dòng)態(tài)確定因錯(cuò)誤評(píng)價(jià)而帶來的損失-收益比例,使得模型計(jì)算結(jié)果更貼合實(shí)際,應(yīng)用能力更強(qiáng)。
附圖說明
圖1為本發(fā)明的整體流程示意圖;
圖2為本發(fā)明的根據(jù)篩選的結(jié)果對(duì)個(gè)人信用得分進(jìn)行計(jì)算的具體流程示意圖;
圖3為本發(fā)明的構(gòu)造決策樹并對(duì)構(gòu)造好的決策樹進(jìn)行剪枝具體流程示意圖;
圖4為本發(fā)明基于adaptivelasso算法的評(píng)價(jià)變量篩選及系數(shù)確定過程示意圖;
圖5為本發(fā)明基于adaptivelasso算法的λ值確定過程示意圖;
圖6是原始決策樹模型;
圖7是本發(fā)明基于adaptivelasso算法優(yōu)化的決策樹模型。
具體實(shí)施方式
以下結(jié)合附圖,對(duì)本發(fā)明上述的和另外的技術(shù)特征和優(yōu)點(diǎn)進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明的部分實(shí)施例,而不是全部實(shí)施例。
請參閱以下實(shí)施例。
一種個(gè)人信用得分優(yōu)化評(píng)價(jià)方法,包括以下步驟:
s1、根據(jù)歷史個(gè)人信用數(shù)據(jù),將征信覆蓋范圍內(nèi)的客戶進(jìn)行信用標(biāo)簽標(biāo)定;
s2、根據(jù)信用標(biāo)簽標(biāo)定結(jié)果,對(duì)信用指標(biāo)進(jìn)行篩選,獲得評(píng)價(jià)使用的征信數(shù)據(jù);
s3、根據(jù)篩選的結(jié)果對(duì)個(gè)人信用得分進(jìn)行計(jì)算,具體計(jì)算步驟如下:s31、構(gòu)造決策樹并對(duì)構(gòu)造好的決策樹進(jìn)行剪枝,精簡決策樹模型,防止決策樹在構(gòu)造過程中過度擬合;s32、采用boosting推進(jìn),進(jìn)一步提高決策樹的準(zhǔn)確性;s33、構(gòu)造成本矩陣與代價(jià)敏感樹,能降低生成的決策樹模型發(fā)生高成本誤判的概率;s34、對(duì)決策樹進(jìn)行修剪及交叉驗(yàn)證,進(jìn)一步提高決策樹的精確度;s35、輸入待評(píng)價(jià)數(shù)據(jù),輸出評(píng)價(jià)結(jié)果:利用構(gòu)建完成的決策樹模型,在決策樹中輸入待計(jì)算的信用得分?jǐn)?shù)據(jù),經(jīng)過訓(xùn)練獲得最終的個(gè)人信用得分結(jié)果。
在s1中,本發(fā)明是根據(jù)歷史個(gè)人信用評(píng)價(jià)數(shù)據(jù),如個(gè)人的基本狀況(年齡、職業(yè)、教育水平、工作年限等),個(gè)人經(jīng)濟(jì)情況(個(gè)人及家庭的平均收入水平),以及個(gè)人信用狀況(有無不良?xì)v史信用記錄),以及最后金融機(jī)構(gòu)的最終授信結(jié)果,將所有征信覆蓋范圍內(nèi)的客戶群體分為“好”客戶和“壞”客戶兩類,為后續(xù)的數(shù)據(jù)訓(xùn)練和信用評(píng)價(jià)規(guī)則的建立提供依據(jù)。
在s2中,是采用adaptivelasso算法對(duì)對(duì)信用指標(biāo)進(jìn)行篩選,篩選的具體步驟如下:
設(shè)定個(gè)人信用得分計(jì)算指標(biāo)構(gòu)成的高維數(shù)據(jù)矩陣x={x1,x2,…,xn}和標(biāo)簽標(biāo)定的信用得分因變量y,在此,y=1或者y=0;
通過高維數(shù)據(jù)矩陣x={x1,x2,…,xn}和標(biāo)簽標(biāo)定的信用得分因變量y來構(gòu)建回歸模型,設(shè)定回歸系數(shù)向量β=(β1,β2,…,βn),則回歸模型表示為
將公式(1)的似然函數(shù)進(jìn)行對(duì)數(shù)化處理,處理后得到:
公式(2)中,由式公式(2)可得
可以推出變量選擇的目標(biāo)函數(shù)為:
公式(3)中
調(diào)和因子λ的大小關(guān)系到在變量選擇過程中能否將一些自變量的系數(shù)壓縮為0,而權(quán)向量ωj反映了自變量對(duì)模型重要性體現(xiàn)在懲罰函數(shù)中所占的比重,該變量越重要,其在懲罰函數(shù)中的權(quán)重將越小,也就越難將其系數(shù)壓縮為0,相反的該變量在模型中起到的作用越小,它的懲罰函數(shù)中的權(quán)重越大,意味著該變量的系數(shù)越容易被壓縮為0。
本發(fā)明使用德國某銀行的征信數(shù)據(jù)
(http://archive.ics.uci.edu/ml/datasets/statlog+%28german+credit+data%29)對(duì)所提出的個(gè)人信用得分計(jì)算方法進(jìn)行驗(yàn)證和比較,該數(shù)據(jù)共有1000條征信記錄,包含25維,其中前24維是個(gè)人信用評(píng)價(jià)變量,第25維是“好”客戶和“壞”客戶的標(biāo)定維。圖2、3給出了基于adaptivelasso算法的個(gè)人信用得分計(jì)算變量篩選,以及算法中各參數(shù)確定過程。
在s31中、所述構(gòu)造決策樹并對(duì)構(gòu)造好的決策樹進(jìn)行剪枝具體操作為:
s311、將給定樣本集合作為決策樹的根節(jié)點(diǎn),計(jì)算根節(jié)點(diǎn)中樣本集合的每個(gè)特征屬性的信息增益比率;
s312、選取信息增益比率最高的屬性作為當(dāng)前節(jié)點(diǎn)的分裂屬性,將被選取的分裂屬性標(biāo)示當(dāng)前節(jié)點(diǎn);
s313、對(duì)選取的分離屬性的每個(gè)數(shù)值創(chuàng)建一個(gè)分支,并據(jù)此將給定樣本劃分成若干個(gè)子集,為每個(gè)子集創(chuàng)建一個(gè)新的節(jié)點(diǎn)。
針對(duì)得到的每個(gè)新節(jié)點(diǎn),重復(fù)以上步驟,直到最后所有的節(jié)點(diǎn)符合以下三種條件中的一個(gè)則停止創(chuàng)建新分支。在此,所述三種條件包括:
節(jié)點(diǎn)的樣本集合中所有的樣本都屬于同一類;
節(jié)點(diǎn)的樣本集合中所有的屬性都已經(jīng)處理完畢,沒有剩余屬性可以用來進(jìn)一步劃分樣本;
節(jié)點(diǎn)的樣本集合中所有樣本的剩余屬性取值完全相同,但所屬類別卻不同。
針對(duì)得到的每個(gè)新節(jié)點(diǎn),重復(fù)以上步驟,直到最后所有的節(jié)點(diǎn)符合以下三種條件中的一個(gè)則停止創(chuàng)建新分支,三種條件包括節(jié)點(diǎn)的樣本集合中所有的樣本都屬于同一類;節(jié)點(diǎn)的樣本集合中所有的屬性都已經(jīng)處理完畢,沒有剩余屬性可以用來進(jìn)一步劃分樣本;節(jié)點(diǎn)的樣本集合中所有樣本的剩余屬性取值完全相同,但所屬類別卻不同。
所述采用boosting算法進(jìn)行推進(jìn)的具體過程為:
a、設(shè)定構(gòu)建好決策樹的個(gè)數(shù)為t,t表示第t次訓(xùn)練,當(dāng)t=1,
b、計(jì)算
c、為樣本集合s的每個(gè)樣本賦予歸一化的權(quán)重值
d、計(jì)算第t個(gè)決策樹對(duì)樣本的錯(cuò)誤率
e、計(jì)算權(quán)重值的調(diào)整因子δt,δt=εt/1-εt;
若樣本被正確分類,則
若t=t,則訓(xùn)練過程結(jié)束;否則,令t=t+l,轉(zhuǎn)至步驟b進(jìn)行下一個(gè)循環(huán);
f、最終得到復(fù)合決策樹
也就是說,當(dāng)利用決策樹模型對(duì)某個(gè)測試樣本進(jìn)行分類時(shí),先利用ct(1≤t≤t)分別對(duì)該樣本進(jìn)行分類,一共得到t個(gè)分類結(jié)果。然后根據(jù)每個(gè)ct的權(quán)重值統(tǒng)計(jì)每種類別的得數(shù),以得數(shù)最高的類別作為整個(gè)模型的分類結(jié)果。
在步驟s33中,構(gòu)造成本矩陣與代價(jià)敏感樹,能降低生成的決策樹模型發(fā)生高成本誤判的概率。誤判成本值是對(duì)某一種誤判(分類錯(cuò)誤)所產(chǎn)生后果嚴(yán)重性的反映,值越高,說明誤判的后果越嚴(yán)重,這種錯(cuò)誤在模型的構(gòu)建過程中應(yīng)得到重視以減少該類誤判,從本質(zhì)上說,誤判成本是應(yīng)用于特定結(jié)果的權(quán)重,這些權(quán)重可化為模型中的因子,并能在實(shí)際上更改評(píng)價(jià)結(jié)果(作為避免高成本錯(cuò)誤的一種方式),將不同的誤判成本值以矩陣的形式展現(xiàn)出來,則形成了成本矩陣,成本矩陣顯示了預(yù)測類別與實(shí)際類別每種可能組合的成本。決策樹允許用戶在成本矩陣中對(duì)每一種誤判設(shè)定成本值,然后根據(jù)這些成本值以最小化期望誤判成本總和為目標(biāo)生成決策樹,從而有效的降低了生成的決策樹模型發(fā)生高成本誤判的概率。
在步驟s34中,決策樹的修剪及交叉驗(yàn)證操作步驟具體如下:
將所有訓(xùn)練數(shù)據(jù)平均分成k份,每次使用其中一份作為測試樣本,其余k-1份數(shù)據(jù)作為學(xué)習(xí)樣本;
選擇平均分類精度最高的決策樹作為需要使用的決策樹。
選擇出了平均分類精度最高的決策樹進(jìn)行訓(xùn)練。
由圖4、5可以看出,基于adaptivelasso優(yōu)化后的決策樹模型只保留了最重要的指標(biāo)變量,使得整個(gè)模型構(gòu)建過程、數(shù)據(jù)訓(xùn)練過程和信用得分計(jì)算過程變得更為簡潔,提升了整個(gè)計(jì)算流程的執(zhí)行效率。
如表1和表2所示,本發(fā)明所提的adaptivelasso-c5.0方法相比于lasso-logistic回歸模型和adaptivelasso-logistic回歸模型在“好”、“壞”客戶的判斷準(zhǔn)確率的對(duì)比。
表1三個(gè)模型對(duì)樣本的計(jì)算結(jié)果(人數(shù))
表2三個(gè)模型對(duì)樣本的計(jì)算結(jié)果(比例)
從表1和表2可以看到,本發(fā)明所提的adaptivelasso-c5.0方法相比于lasso-logistic回歸模型和adaptivelasso-logistic回歸模型在“好”、“壞”客戶的判斷準(zhǔn)確率上更高,平均正確比例也更高,從而證明了adaptivelasso優(yōu)化決策樹方法在個(gè)人信用得分評(píng)價(jià)上的有效性和可靠性。
以上所述的具體實(shí)施例,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步的詳細(xì)說明,應(yīng)當(dāng)理解,以上所述僅為本發(fā)明的具體實(shí)施例而已,并不用于限定本發(fā)明的保護(hù)范圍。特別指出,對(duì)于本領(lǐng)域技術(shù)人員來說,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。