本發(fā)明涉及基于計(jì)算機(jī)技術(shù)的風(fēng)險(xiǎn)評(píng)估技術(shù)領(lǐng)域,具體涉及一種風(fēng)險(xiǎn)評(píng)估方法和系統(tǒng)。
背景技術(shù):
風(fēng)險(xiǎn)評(píng)估是對(duì)信息所面臨的威脅、存在的弱點(diǎn)、造成的影響等所帶來(lái)風(fēng)險(xiǎn)的可能性的評(píng)估。常用的風(fēng)險(xiǎn)評(píng)估方法有模型法和專家法兩種。
模型法是指利用邏輯回歸、決策樹(shù)、隨機(jī)森林等機(jī)器學(xué)習(xí)方法構(gòu)建風(fēng)險(xiǎn)評(píng)估模型,基于模型結(jié)果進(jìn)行風(fēng)險(xiǎn)評(píng)估的方法。實(shí)踐發(fā)現(xiàn),有些弱變量可能在業(yè)務(wù)上非常有意義,但是,模型法中,弱變量不能入選模型,導(dǎo)致模型法不能反映某些變量的作用,難以反映業(yè)務(wù)發(fā)展的未來(lái)趨勢(shì)。
專家法是指根據(jù)專家意見(jiàn),確定評(píng)估的考量因素,進(jìn)行風(fēng)險(xiǎn)評(píng)估的方法。專家法可以解決弱變量無(wú)法入選模型的問(wèn)題,但是,專家法是一種有較大的主觀性的方法,沒(méi)有充分挖掘和利用數(shù)據(jù)的價(jià)值。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供一種風(fēng)險(xiǎn)評(píng)估方法,通過(guò)挖掘有價(jià)值的弱變量加入風(fēng)險(xiǎn)評(píng)估模型,使風(fēng)險(xiǎn)評(píng)估的考量因素更全面,解釋性和穩(wěn)定性更強(qiáng),有助于提高風(fēng)險(xiǎn)評(píng)估的準(zhǔn)確性,并保證風(fēng)險(xiǎn)評(píng)估的客觀性。
本發(fā)明第一方面提供一種風(fēng)險(xiǎn)評(píng)估方法,包括:根據(jù)數(shù)據(jù)源與目標(biāo)變量的相關(guān)性和/或數(shù)據(jù)源與用戶信息的相關(guān)性,進(jìn)行變量分組,得到至少一個(gè)第一類變量組和至少一個(gè)第二類變量組;針對(duì)所述至少一個(gè)第二類變量組分別構(gòu)建風(fēng)險(xiǎn)評(píng)估模型,得到每個(gè)第二類變量組的風(fēng)險(xiǎn)評(píng)估模型的模型結(jié)果;將每個(gè)第二類變量組的模型結(jié)果作為一個(gè)變量,與所述至少一個(gè)第一類變量組中的全部全量合并,組成第三類變量組;針對(duì)所述第三類變量組構(gòu)建風(fēng)險(xiǎn)評(píng)估綜合模型。
本發(fā)明第二方面提供一種風(fēng)險(xiǎn)評(píng)估系統(tǒng),包括:預(yù)處理模塊,用于根據(jù)數(shù)據(jù)源與目標(biāo)變量的相關(guān)性和/或數(shù)據(jù)源與用戶信息的相關(guān)性,進(jìn)行變量分組, 得到至少一個(gè)第一類變量組和至少一個(gè)第二類變量組;第一構(gòu)建模塊,用于針對(duì)所述至少一個(gè)第二類變量組分別構(gòu)建風(fēng)險(xiǎn)評(píng)估模型,得到每個(gè)第二類變量組的風(fēng)險(xiǎn)評(píng)估模型的模型結(jié)果;變量組合模塊,用于將每個(gè)第二類變量組的模型結(jié)果分別作為一個(gè)變量,與所述至少一個(gè)第一類變量組中的全部全量合并,組成第三類變量組;第二構(gòu)建模塊,用于針對(duì)所述第三類變量組構(gòu)建風(fēng)險(xiǎn)評(píng)估綜合模型。
由上可見(jiàn),在本發(fā)明的一些可行的實(shí)施方式中,采用對(duì)變量分組,得到兩類變量組,針對(duì)其中第二類變量組中的每個(gè)變量組分別構(gòu)建風(fēng)險(xiǎn)評(píng)估模型,將該類的每個(gè)變量組的模型結(jié)果作為一個(gè)變量,與第一類變量組中的變量合并,組成第三類變量組,最后針對(duì)該第三類變量組構(gòu)建風(fēng)險(xiǎn)評(píng)估綜合模型的技術(shù)方案,取得了以下技術(shù)效果:
該方法充分的挖掘和利用了第二類變量組的數(shù)據(jù)價(jià)值,各個(gè)第二類變量組中的各個(gè)變量反映在最終構(gòu)建的綜合模型中,從而使風(fēng)險(xiǎn)評(píng)估考量因素更全面,解釋性更強(qiáng),模型穩(wěn)定性更強(qiáng),模型結(jié)果盡量客觀和準(zhǔn)確,應(yīng)用中也更具魯棒性,有助于提高風(fēng)險(xiǎn)評(píng)估效果,有助于反映業(yè)務(wù)發(fā)展的未來(lái)趨勢(shì)。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
圖1是本發(fā)明一個(gè)實(shí)施例提供的一種風(fēng)險(xiǎn)評(píng)估方法的流程示意圖;
圖2是采用傳統(tǒng)模型方法構(gòu)建模型的過(guò)程示意圖;
圖3是采用本發(fā)明實(shí)施例風(fēng)險(xiǎn)評(píng)估方法構(gòu)建模型的過(guò)程示意圖;
圖4是本發(fā)明一個(gè)實(shí)施例提供的一種風(fēng)險(xiǎn)評(píng)估系統(tǒng)的結(jié)構(gòu)示意圖;
圖5是本發(fā)明一個(gè)實(shí)施例提供的一種計(jì)算機(jī)設(shè)備的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。
本發(fā)明實(shí)施例技術(shù)方案涉及基于計(jì)算機(jī)系統(tǒng)的風(fēng)險(xiǎn)評(píng)估方法。下面首先對(duì)風(fēng)險(xiǎn)評(píng)估方法涉及到的一些術(shù)語(yǔ)進(jìn)行簡(jiǎn)單說(shuō)明。
貫穿本說(shuō)明書(shū),術(shù)語(yǔ)“風(fēng)險(xiǎn)評(píng)分卡”是指:一種風(fēng)險(xiǎn)評(píng)估模型,例如用于評(píng)估用戶信用風(fēng)險(xiǎn)高低的風(fēng)險(xiǎn)評(píng)估模型,通常有監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)(如果有拒絕推斷的話)兩種。監(jiān)督目標(biāo)(即目標(biāo)變量)通常是用戶在一段時(shí)間內(nèi)是否違約,比如用戶在發(fā)放貸款后6個(gè)月內(nèi)是否發(fā)生90天以上逾期。構(gòu)建風(fēng)險(xiǎn)評(píng)分卡的方法通常分為兩類:模型法和專家法。
術(shù)語(yǔ)“弱變量”是指:在統(tǒng)計(jì)上不顯著,即顯著性假設(shè)檢驗(yàn)的p值(p-value,probability,pr)大于或等于設(shè)定標(biāo)準(zhǔn)例如0.05,按此統(tǒng)計(jì)標(biāo)準(zhǔn)無(wú)法入選風(fēng)險(xiǎn)評(píng)估模型的變量。相對(duì)的,術(shù)語(yǔ)“強(qiáng)變量”是指:在統(tǒng)計(jì)上比較顯著,即顯著性假設(shè)檢驗(yàn)的p值小于設(shè)定標(biāo)準(zhǔn)例如0.05,滿足顯著性統(tǒng)計(jì)標(biāo)準(zhǔn)的變量。需要說(shuō)明的是,設(shè)定標(biāo)準(zhǔn)也可以是0.05以外的值,例如0.01等,本文對(duì)此不予限定。值得說(shuō)明的是,假設(shè)檢驗(yàn)是推斷統(tǒng)計(jì)中的一項(xiàng)重要內(nèi)容。用專業(yè)統(tǒng)計(jì)軟件進(jìn)行假設(shè)檢驗(yàn)時(shí),p值是進(jìn)行檢驗(yàn)決策的一個(gè)依據(jù)。p值即概率,反映某一事件發(fā)生的可能性大小。統(tǒng)計(jì)學(xué)根據(jù)顯著性檢驗(yàn)方法所得到的p值,一般可以p<0.05為顯著,其含義是樣本間的差異由抽樣誤差所致的概率小于0.05。
術(shù)語(yǔ)“變量組”是指:數(shù)據(jù)源相同的一組變量,術(shù)語(yǔ)“強(qiáng)變量組”是指:與目標(biāo)變量的相關(guān)性較高和/或與用戶信息的相關(guān)性較高的變量組,“弱變量組”是指目標(biāo)變量的相關(guān)性較低和/或與用戶信息的相關(guān)性較低的變量組。其中,相關(guān)性可以用相關(guān)系數(shù)例如p值來(lái)表達(dá),可以計(jì)算變量組中所有變量的p值的平均值,平均值大于閾值時(shí),認(rèn)為該變量組與目標(biāo)變量的相關(guān)性較高,不大于閾值時(shí),認(rèn)為該變量組與目標(biāo)變量的相關(guān)性較低。
術(shù)語(yǔ)“專家評(píng)分卡”是指:基于行業(yè)專家經(jīng)驗(yàn)設(shè)計(jì)的風(fēng)險(xiǎn)評(píng)分卡。專家評(píng) 分法即是基于專家評(píng)分卡進(jìn)行風(fēng)險(xiǎn)評(píng)估的方法。
術(shù)語(yǔ)“邏輯回歸(logisticregression,lr)”是指:目前應(yīng)用比較成熟、廣泛的用于開(kāi)發(fā)風(fēng)險(xiǎn)評(píng)分卡的一種方法,是一種廣義的線性回歸方法。
術(shù)語(yǔ)“決策樹(shù)”是指:一種逼近離散函數(shù)值的方法。決策樹(shù)是一種典型的分類方法,也可以用來(lái)構(gòu)建預(yù)測(cè)模型。首先對(duì)數(shù)據(jù)進(jìn)行處理,利用歸納算法生成可讀的規(guī)則和決策樹(shù),然后使用決策樹(shù)對(duì)新數(shù)據(jù)進(jìn)行分析。本質(zhì)上,決策樹(shù)是通過(guò)一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類的過(guò)程。決策樹(shù)的典型算法有id3,c4.5,cart(classificationandregressiontree,分類回歸樹(shù)算法)等。
術(shù)語(yǔ)“層次分析法”是指:是將與決策總是有關(guān)的元素分解成目標(biāo)、準(zhǔn)則、方案等層次,在此基礎(chǔ)之上進(jìn)行定性和定量分析的決策方法。
術(shù)語(yǔ)“變量歸一化”是指:變量標(biāo)準(zhǔn)化處理的一種操作,目的是為了使具有不同量綱的變量具有可比性。歸一化有不同的方法,本文可以采用最小-最大規(guī)范化方法,變量處理后的取值區(qū)間均為[0,1]。
術(shù)語(yǔ)“模型魯棒性(robustness)”是指:指模型從開(kāi)發(fā)到實(shí)施過(guò)程中的穩(wěn)定性,魯棒性高的模型實(shí)施效果更理想。
術(shù)語(yǔ)“ks(kolmogorovsmirnov)”是指:一種衡量評(píng)分模型效果好壞的常用指標(biāo),kolmogorov和smirnov兩位前蘇聯(lián)數(shù)學(xué)家的名字,ks是處于0-100之間,值越大代表模型效果越好。通常情況下ks=25左右是金融機(jī)構(gòu)對(duì)風(fēng)險(xiǎn)評(píng)估的接受標(biāo)準(zhǔn)。
下面,簡(jiǎn)單介紹模型法。
模型法是最為常用的一種風(fēng)險(xiǎn)評(píng)估方法,模型法構(gòu)建的風(fēng)險(xiǎn)評(píng)估模型(一種邏輯模型)可稱為風(fēng)險(xiǎn)評(píng)分卡。構(gòu)建風(fēng)險(xiǎn)評(píng)分卡的傳統(tǒng)方法有很多,比如邏輯回歸法、決策樹(shù)、隨機(jī)森林等。其中,邏輯回歸/逐步回歸法(logistic/stepwise)是目前應(yīng)用最為廣泛、最成熟的方法之一。下面以邏輯回歸法為例,介紹風(fēng)險(xiǎn)評(píng)分卡的基本建模過(guò)程包括:
首先,準(zhǔn)備好一張歸一化的建模寬表如表1,表1中變量x的數(shù)量一般至少會(huì)在數(shù)百以上。假設(shè)表1中共10000個(gè)用戶樣本和300個(gè)屬性(即變量)。表1中總共包含數(shù)據(jù)源不同的三類變量:支付、即時(shí)通信和社交。假設(shè)這三類 變量每類分別有100個(gè)變量,總共300個(gè)變量。表1中第二列的y即是監(jiān)督目標(biāo)或者說(shuō)目標(biāo)變量,具體可以是指用戶在發(fā)放貸款后1年內(nèi)是否發(fā)生90天以上逾期。表中每個(gè)變量的值都是歸一化后的值,因此值均落在[0,1]之間。
需要說(shuō)明的是,本發(fā)明實(shí)施例中所說(shuō)的變量均來(lái)自于合法的數(shù)據(jù)源,如包括用戶數(shù)據(jù)或者公眾可查詢的數(shù)據(jù),且用戶數(shù)據(jù)是經(jīng)過(guò)用戶授權(quán)使用的數(shù)據(jù)。
表1建模寬表
容易理解,三類變量中,支付類變量與金融直接相關(guān),相關(guān)性較高,可認(rèn)為是強(qiáng)變量組,即時(shí)通信和社交類變量與金融的相關(guān)性較低,可認(rèn)為是弱變量組。
假設(shè)表1中,第1-15個(gè)變量屬于強(qiáng)變量組中的強(qiáng)變量,第16-30個(gè)屬于弱變量組中的強(qiáng)變量。經(jīng)過(guò)一系列變量分析和變量篩選后,正常的結(jié)果可能是,強(qiáng)變量組的前15個(gè)強(qiáng)變量和弱變量組的第16-18個(gè)強(qiáng)變量進(jìn)入了最終的邏輯回歸模型。得到的邏輯回歸模型結(jié)果如式(1)和(2):
probability=exp(logodds15)/(1+exp(logodds15))(2)
其中,logodds是邏輯回歸模型的輸出結(jié)果(簡(jiǎn)稱模型結(jié)果),probability是概率參數(shù),probability表示所述模型結(jié)果logodds變壞的概率。
可見(jiàn),弱變量組中只有x16、x17和x18等3個(gè)變量入選模型,其余變量未進(jìn)入模型。雖然可通過(guò)降低selectin/out(選擇輸入/輸出)篩選標(biāo)準(zhǔn),或者強(qiáng)行加入(forcein)的方法,把弱變量組中的其他強(qiáng)變量(比如x19-x30)放入模型,但是其對(duì)模型的貢獻(xiàn)并不能效地反映出來(lái),或者說(shuō)弱變量組在風(fēng)險(xiǎn)評(píng)分卡中的權(quán)重過(guò)低。這種做法還有一個(gè)顯著的缺點(diǎn)是,這些通過(guò)放低標(biāo)準(zhǔn)新入選的弱變量組的變量可能很不穩(wěn)定。
下面,簡(jiǎn)單介紹專家法。
專家評(píng)分卡是基于行業(yè)專家經(jīng)驗(yàn)設(shè)計(jì)形成的評(píng)分邏輯模型。專家評(píng)分卡在業(yè)務(wù)開(kāi)展初期非常有用,另外,在一些用戶量相對(duì)較少的對(duì)公業(yè)務(wù)中也經(jīng)常被用到。傳統(tǒng)的專家評(píng)分卡會(huì)事先搜集專家意見(jiàn),確定制訂評(píng)分的考量因素,即所用變量范圍,然后再確定每個(gè)變量的權(quán)重,最終得到業(yè)務(wù)上所需要的專家評(píng)分卡。數(shù)據(jù)和變量假設(shè)同模型法中的表1完全一樣,則專家評(píng)分卡如表2:
表2專家評(píng)分卡
專家評(píng)分卡解決了模型法對(duì)于弱變量組的大部分變量無(wú)法入選模型的問(wèn)題,并且理解和實(shí)施起來(lái)都比較容易。但是專家評(píng)分卡有一個(gè)致命的缺陷:沒(méi)有充分挖掘和利用數(shù)據(jù)的價(jià)值,有比較大的主觀性。比如,該方法未考慮變量的協(xié)相關(guān)性及協(xié)同作用,而且變量值在未來(lái)可能波動(dòng)比較大,從而導(dǎo)致模型不太穩(wěn)定。
如上文所述,現(xiàn)有風(fēng)險(xiǎn)評(píng)分卡構(gòu)建方法主要分專家法和模型法兩類。這兩類方法在行業(yè)應(yīng)用中都比較成熟,但它們的缺陷也是非常明顯的,模型法的缺陷主要是弱變量無(wú)法入選,不能反映業(yè)務(wù)發(fā)展趨勢(shì)的問(wèn)題;專家法的缺陷主要是,方法帶有較大的主觀性,不能最大化地挖掘和利用數(shù)據(jù)的價(jià)值。
為此,本發(fā)明實(shí)施例提供一種風(fēng)險(xiǎn)評(píng)估方法和系統(tǒng),下面分別進(jìn)行介紹。
(實(shí)施例一、)
請(qǐng)參考圖1,本發(fā)明第一實(shí)施例提供一種風(fēng)險(xiǎn)評(píng)估方法,該方法可以包括:
110、根據(jù)數(shù)據(jù)源與目標(biāo)變量的相關(guān)性和/或數(shù)據(jù)源與用戶信息的相關(guān)性,進(jìn)行變量分組,得到至少一個(gè)第一類變量組和至少一個(gè)第二類變量組。
隨著互聯(lián)網(wǎng)快速發(fā)展,信息和數(shù)據(jù)越來(lái)越多,風(fēng)險(xiǎn)評(píng)估方法所用到的數(shù)據(jù)源也越來(lái)越廣泛,有些和信用風(fēng)險(xiǎn)相關(guān)性比較強(qiáng),有些比較弱。本文中,首先根據(jù)數(shù)據(jù)源對(duì)變量進(jìn)行分組,將來(lái)源相同的一類變量視為一個(gè)變量組,例如,來(lái)源自支付、即時(shí)通信、社交的三類變量可視為三個(gè)變量組。本文中,還對(duì)變量組進(jìn)行分類,將所有的變量組分為強(qiáng)變量組和弱變量組兩類。有些變量和用戶信息例如資金直接相關(guān),和用戶信用風(fēng)險(xiǎn)具有較強(qiáng)的相關(guān)性,這類變量可被稱之為強(qiáng)變量組,比如用戶理財(cái)、儲(chǔ)蓄、消費(fèi)、支付等;而有些變量和金融并不直接相關(guān),只是反映出用戶的一些社交和行為習(xí)慣,因此和信用風(fēng)險(xiǎn)的相關(guān)性較小,這類變量可稱之為弱變量組,比如即時(shí)通信、社交、游戲等。
變量組分類的因素可以包括但不限于以下兩種:
一、數(shù)據(jù)源與目標(biāo)變量(例如是否違約)的相關(guān)性。
相關(guān)性分析一般可用皮爾遜(pearsoncorrelationcoefficient,pearson)相關(guān)系數(shù),其計(jì)算方法這里不再贅述。相關(guān)性強(qiáng)弱的標(biāo)準(zhǔn)一般可以是:0.6以上是強(qiáng)相關(guān),0.4-0.6中等相關(guān),0.2-0.4弱相關(guān),0.2以下極弱相關(guān)或無(wú)相關(guān)。但是金融界實(shí)際應(yīng)用的標(biāo)準(zhǔn)與之相差比較遠(yuǎn),相關(guān)性強(qiáng)弱的標(biāo)準(zhǔn)一般要低得多,因?yàn)橄嚓P(guān)系數(shù)在0.4以上的變量極其少見(jiàn)。也就是說(shuō),可以根據(jù)需要自行定義相關(guān)性強(qiáng)弱的標(biāo)準(zhǔn),舉例來(lái)說(shuō),針對(duì)支付類的變量可以定義0.1以上是強(qiáng)相關(guān),0.1以下以弱相關(guān),等。
二、數(shù)據(jù)源與用戶信息(例如資金)的相關(guān)性。
相關(guān)性大小和變量類別的關(guān)系也非常大,通常和用戶資金等信息距離比較近的變量的相關(guān)性比較大,如貸款、理財(cái)和支付等;而距離用戶資金距離比較遠(yuǎn)的變量的相關(guān)系數(shù)也比較小,如即時(shí)通信、社交等變量。應(yīng)用中,可以用重要程度值表示數(shù)據(jù)源與用戶信息的相關(guān)性,例如,強(qiáng)、中、弱等。
本文中可以根據(jù)上述兩個(gè)標(biāo)準(zhǔn),即根據(jù)數(shù)據(jù)源與目標(biāo)變量的相關(guān)性和/或數(shù)據(jù)源與用戶信息的距離,進(jìn)行變量組分類,分為強(qiáng)變量組和弱變量組。強(qiáng)變量組即是所述的第一類變量組,弱變量組即是所述的第二類變量組。
一些實(shí)施例中,變量組分類的具體方法可以包括:
a0、根據(jù)數(shù)據(jù)源的不同,將所有變量分為多個(gè)變量組;
a1、根據(jù)數(shù)據(jù)源與目標(biāo)變量的相關(guān)性,計(jì)算任一個(gè)變量與目標(biāo)變量的相關(guān)系數(shù),并計(jì)算所述多個(gè)變量組中每個(gè)變量組的平均相關(guān)系數(shù);所說(shuō)的相關(guān)系數(shù)可以是上文提到的p值。
a2、根據(jù)數(shù)據(jù)源與用戶信息的相關(guān)性,確定所述多個(gè)變量組中每個(gè)變量組的重要程度值;
a3、根據(jù)所述多個(gè)變量組的平均相關(guān)系數(shù)和/或重要程度值進(jìn)行變量組分類,將所述平均相關(guān)系數(shù)大于閾值和/或重要程度值最高的變量組分類為第一類變量組,即強(qiáng)變量組,將其它變量組分類為第二類變量組,即弱變量組。
可見(jiàn),強(qiáng)變量組是指與目標(biāo)變量的相關(guān)性較高和/或與用戶信息的相關(guān)性較高的變量組,弱變量組是指目標(biāo)變量的相關(guān)性較低和/或與用戶信息的相關(guān)性較低的變量組。
如表3所示,是一個(gè)應(yīng)用場(chǎng)景例中變量組分類的示意圖。每類變量的相關(guān)性強(qiáng)弱標(biāo)準(zhǔn)也不相同,結(jié)合實(shí)際經(jīng)驗(yàn)設(shè)定的相關(guān)性強(qiáng)弱標(biāo)準(zhǔn)的閾值例如可以是:支付類為0.1,即時(shí)通信類為0.05,社交類為0.06。大于閾值的認(rèn)為是強(qiáng)變量,小于閾值的認(rèn)為是弱變量。支付類變量中,較強(qiáng)的變量有反映用戶還款能力的信用卡還款,以及反映用戶還款能力的資金規(guī)模等;較弱的變量有用戶交易的頻率、用戶電話卡充值等。即時(shí)通信類變量中,較強(qiáng)的變量有反映用戶穩(wěn)定性的常用登陸城市個(gè)數(shù)等,較弱的變量有收發(fā)信息條數(shù)等。社交類變量中,較強(qiáng)的變量有粘性較高的好友數(shù)量、好友質(zhì)量等,較弱的變量有好友的個(gè)數(shù)、 收發(fā)信息量等。
為了表述方便,把這三類變量的變量名和表1對(duì)應(yīng)起來(lái),具體見(jiàn)表3的第3行和第4行。按上述變量強(qiáng)弱標(biāo)準(zhǔn)的閾值,每類變量的強(qiáng)變量和弱變量個(gè)數(shù)分別是:支付變量為15和85,即時(shí)通信變量為8和92,社交為7和93。
表3變量分組
由表3可見(jiàn),可以按照數(shù)據(jù)源的不同將來(lái)源于支付、即時(shí)通信和社交的三類變量分為三組,即變量組a、b和c,其中,變量組a的平均相關(guān)系數(shù)最高且重要程度值最高,因此變量組a為強(qiáng)變量組,變量組b、c為弱變量組。
值得說(shuō)明的是,弱變量組不同于弱變量。弱變量組中也可能有強(qiáng)變量,只不過(guò)和目標(biāo)變量的相關(guān)性并不是很高。同樣地,強(qiáng)變量組中也可能含有弱變量。 當(dāng)然,弱變量更容易出現(xiàn)弱變量組中,強(qiáng)變量更容易出現(xiàn)在強(qiáng)變量組中。雖然弱變量組中的很多變量在統(tǒng)計(jì)上是顯著的,但是,當(dāng)把它們和強(qiáng)變量組放在一起建模時(shí),弱變量組中的變量通常只有少數(shù)能進(jìn)入模型,弱變量組的作用會(huì)被大大稀釋,無(wú)法發(fā)揮應(yīng)有的作用。
120、針對(duì)至少一個(gè)第二類變量組分別構(gòu)建風(fēng)險(xiǎn)評(píng)估模型,分別得到每個(gè)第二類變量組的風(fēng)險(xiǎn)評(píng)估模型的模型結(jié)果。
本步驟中,將針對(duì)上一步驟得到的至少一個(gè)第二類變量組或者說(shuō)弱變量組,分別構(gòu)建風(fēng)險(xiǎn)評(píng)估模型,分別得到每個(gè)弱變量組的風(fēng)險(xiǎn)評(píng)估模型的模型結(jié)果。假設(shè)用邏輯回歸方法針對(duì)弱變量組分別進(jìn)行建模。考慮到是弱變量組,可以適當(dāng)放寬變量入選標(biāo)準(zhǔn)。
例如,即時(shí)通信對(duì)應(yīng)的弱變量組b的建模結(jié)果如下:
公式(3)中,logoddsb為模型結(jié)果,f(xb)表示對(duì)變量組b建模,xbi表示變量組b的第i個(gè)變量,i為正整數(shù),a0為截距項(xiàng)/常數(shù)項(xiàng),ai表示變量xbi的權(quán)重。
考慮表3中變量名的對(duì)應(yīng)關(guān)系,式(3)可以寫(xiě)成:
公式(4)中,logoddsb為模型結(jié)果,f(xb)表示對(duì)變量組b建模,a0為截距項(xiàng)/常數(shù)項(xiàng),ai表示變量xi的權(quán)重,i為正整數(shù)。
同理,可以得到社交對(duì)應(yīng)的弱變量組c的建模結(jié)果:
公式(5)中,logoddsc為模型結(jié)果,f(xc)表示對(duì)變量組c建模,xci表示變 量組c中的第i個(gè)變量,i為正整數(shù),a0為截距項(xiàng)/常數(shù)項(xiàng),ai表示變量xci的權(quán)重。
公式(6)中,logoddsc為模型結(jié)果,f(xc)表示對(duì)變量組c建模,a0為截距項(xiàng)/常數(shù)項(xiàng),ai表示變量xi的權(quán)重,i為正整數(shù)。
需要說(shuō)明的是,以上公式表示的風(fēng)險(xiǎn)評(píng)估模型僅為示例,并不用于限制本發(fā)明。
130、將每個(gè)第二類變量組的模型結(jié)果分別作為一個(gè)變量,與至少一個(gè)第一類變量組中的全部全量合并,組成第三類變量組;針對(duì)所述第三類變量組構(gòu)建風(fēng)險(xiǎn)評(píng)估綜合模型。
本步驟中,將每一個(gè)弱變量組的模型結(jié)果作為一個(gè)變量,將所有強(qiáng)變量組中的所有變量和所有模型結(jié)果變量合并,組成第三類變量組,本文中也將第三類變量組稱為聯(lián)合變量組。假設(shè)記至少一個(gè)弱變量組中的任一弱變量組xj的風(fēng)險(xiǎn)評(píng)估模型的模型結(jié)果為logoddsj,并將logoddsj作為一個(gè)變量,記至少一個(gè)強(qiáng)變量組中的任一變量為xi,可將所有變量logoddsj與xi合并組成聯(lián)合變量組;其中,i和j均為正整數(shù)。聯(lián)合變量組可表示為[x1,x2......xi......xn......logoddsj......logoddsm],其中,n為變量xi的個(gè)數(shù),m為變量logoddsj的個(gè)數(shù),n和m均為正整數(shù)。
本步驟中,針對(duì)該聯(lián)合變量組構(gòu)建風(fēng)險(xiǎn)評(píng)估綜合模型:
其中,a0為截距項(xiàng)/常數(shù)項(xiàng),ai表示變量xi的權(quán)重,aj表示變量logoddsj的權(quán)重。
假設(shè)變量logoddsj有兩個(gè),即上一步驟得到的logoddsb和logoddsc,則公式(7)表示的綜合模型可寫(xiě)為:
進(jìn)一步的,還可以基于上述綜合模型的模型結(jié)果logodds計(jì)算概率參數(shù)probability,公式如下:
probability=exp(logodds)/(1+exp(logodds))(9)
其中,exp()是以自然常數(shù)e為底的指數(shù)函數(shù),probability表示所述模型結(jié)果變壞的概率。假設(shè)計(jì)算得到probability等于0.1,則說(shuō)明模型結(jié)果有百分之十的概率變壞。
由上可見(jiàn),本發(fā)明實(shí)例技術(shù)方案中,從方法論上來(lái)解決現(xiàn)有技術(shù)的問(wèn)題:
(1)首先根據(jù)數(shù)據(jù)源及其與目標(biāo)變量(例如金融風(fēng)險(xiǎn))的相關(guān)性,與用戶信息(例如資金信息)的相關(guān)性,把變量進(jìn)行分組和分類,得到強(qiáng)變量組和弱變量組,比如1個(gè)強(qiáng)變量組和2個(gè)弱變量組;
(2)對(duì)弱變量組分別建模,例如針對(duì)2個(gè)弱變量組構(gòu)建2個(gè)模型;
(3)把兩個(gè)弱變量組的建模結(jié)果作為兩個(gè)變量,和強(qiáng)變量組的變量放在一起,構(gòu)建最終的風(fēng)險(xiǎn)評(píng)估綜合模型。
通過(guò)這種方法,弱變量組中會(huì)有較多變量進(jìn)入模型,從而保證了弱變量組的貢獻(xiàn);并且,模型在業(yè)務(wù)上具有更強(qiáng)可解釋性,在實(shí)踐應(yīng)用中也更具魯棒性。
為便于更好的理解本發(fā)明實(shí)施例提供的技術(shù)方案,下面結(jié)合附圖說(shuō)明風(fēng)險(xiǎn)評(píng)分卡的整個(gè)建模過(guò)程。如圖2所示,是采用傳統(tǒng)模型法例如邏輯回歸法構(gòu)建模型的過(guò)程。如圖3所示,是采用本發(fā)明實(shí)施例風(fēng)險(xiǎn)評(píng)估方法構(gòu)建模型的過(guò)程。從圖2和圖3中可以看出,本發(fā)明實(shí)施例的建模過(guò)程增加了“變量分組”和“弱變量組建模”兩個(gè)過(guò)程。
實(shí)踐中,本發(fā)明發(fā)明人對(duì)邏輯回歸法、專家評(píng)分卡方法和本發(fā)明方法三種方法的結(jié)果進(jìn)行了驗(yàn)證對(duì)比,對(duì)比結(jié)果如表3所示。
表4驗(yàn)證結(jié)果對(duì)比
ks是最常用到的用來(lái)衡量模型好壞的指標(biāo)之一,模型在實(shí)施中的效果則是考量模型好壞的終極標(biāo)準(zhǔn)。表4顯示,本發(fā)明實(shí)施例方法的模型訓(xùn)練效果和實(shí)施效果上都要略好于邏輯回歸法,更優(yōu)于專家評(píng)分卡。
可以理解,本發(fā)明實(shí)施例上述方案例如可以在計(jì)算機(jī)設(shè)備具體實(shí)施。
由上可見(jiàn),在本發(fā)明的一些可行的實(shí)施方式中,提供了一種風(fēng)險(xiǎn)評(píng)估方法,采用對(duì)變量分組和分類,得到強(qiáng)變量組和弱變量組,針對(duì)得到的每個(gè)弱變量組分別構(gòu)建風(fēng)險(xiǎn)評(píng)估模型,將每個(gè)弱變量組的模型結(jié)果作為一個(gè)變量,與得到的強(qiáng)變量組合并,組成聯(lián)合變量組,最后針對(duì)該聯(lián)合變量組構(gòu)建風(fēng)險(xiǎn)評(píng)估綜合模型的技術(shù)方案,取得了以下技術(shù)效果:
該方法充分的挖掘和利用了弱變量組的數(shù)據(jù)價(jià)值,各個(gè)弱變量組中的各個(gè)變量可以通過(guò)所對(duì)應(yīng)的模型結(jié)果變量反映在最終構(gòu)建的綜合模型中,使得綜合模型的模型結(jié)果能夠體現(xiàn)各個(gè)弱變量組中的各個(gè)變量的作用,從而使風(fēng)險(xiǎn)評(píng)估考量因素更全面,解釋性更強(qiáng),模型穩(wěn)定性更強(qiáng),模型結(jié)果盡量客觀,應(yīng)用中也更具魯棒性,有助于提高風(fēng)險(xiǎn)評(píng)估效果,有助于反映業(yè)務(wù)發(fā)展的未來(lái)趨勢(shì)。
(實(shí)施例二、)為了更好的實(shí)施本發(fā)明實(shí)施例的上述方案,下面還提供用于配合實(shí)施上述方案的相關(guān)裝置。
請(qǐng)參考圖4,本發(fā)明實(shí)施例提供一種風(fēng)險(xiǎn)評(píng)估系統(tǒng)400,可包括:
預(yù)處理模塊410,用于根據(jù)數(shù)據(jù)源與目標(biāo)變量的相關(guān)性和/或數(shù)據(jù)源與用戶 信息的相關(guān)性,進(jìn)行變量分組,得到至少一個(gè)第一類變量組和至少一個(gè)第二類變量組;
第一構(gòu)建模塊420,用于針對(duì)所述至少一個(gè)第二類變量組分別構(gòu)建風(fēng)險(xiǎn)評(píng)估模型,分別得到每個(gè)第二類變量組的風(fēng)險(xiǎn)評(píng)估模型的模型結(jié)果;
變量組合模塊430,用于將每個(gè)第二類變量組的模型結(jié)果作為一個(gè)變量,與所述至少一個(gè)第一類變量組中的全部全量合并,組成第三類變量組;
第二構(gòu)建模塊440,用于針對(duì)所述聯(lián)合變量組構(gòu)建風(fēng)險(xiǎn)評(píng)估綜合模型。
在一些實(shí)施例中,所述預(yù)處理模塊410包括:
分組單元4101,用于根據(jù)數(shù)據(jù)源的不同,將所有變量分為多個(gè)變量組;
計(jì)算單元4102,用于根據(jù)數(shù)據(jù)源與目標(biāo)變量的相關(guān)性,計(jì)算任一個(gè)變量與目標(biāo)變量的相關(guān)系數(shù),并計(jì)算所述多個(gè)變量組的平均相關(guān)系數(shù);
確定單元4103,用于根據(jù)數(shù)據(jù)源與用戶信息的相關(guān)性,確定所述多個(gè)變量組的重要程度值;
分類單元4104,用于根據(jù)所述多個(gè)變量組的平均相關(guān)系數(shù)和/或重要程度值進(jìn)行變量分類,將所述平均相關(guān)系數(shù)大于閾值和/或重要程度值最高的變量組分類為強(qiáng)變量組,將其它變量組分類為弱變量組。
在一些實(shí)施例中,所述變量組合模塊430,具體用于:記所述至少一個(gè)第二類變量組中的任一變量組xj的風(fēng)險(xiǎn)評(píng)估模型的模型結(jié)果為logoddsj,并將logoddsj作為一個(gè)變量,記所述至少一個(gè)第一類變量組中的任一變量為xi,將所有l(wèi)ogoddsj與xi合并組成第三類變量組;其中,i和j均為正整數(shù)。
在一些實(shí)施例中,所述第二構(gòu)建模塊440,具體用于:針對(duì)所述聯(lián)合變量組構(gòu)建如下風(fēng)險(xiǎn)評(píng)估綜合模型:
其中,n為變量xi的個(gè)數(shù),m為變量logoddsj的個(gè)數(shù),a0為截距項(xiàng)/常數(shù)項(xiàng),ai表示變量xi的權(quán)重,aj表示變量logoddsj的權(quán)重。
在一些實(shí)施例中,系統(tǒng)400還包括:計(jì)算模塊450,用于根據(jù)所述第二邏輯模型的模型結(jié)果logodds計(jì)算概率參數(shù)probability,
probability=exp(logodds)/(1+exp(logodds))
其中,probability表示所述模型結(jié)果變壞的概率。
可以理解,本發(fā)明實(shí)施例的系統(tǒng)的各個(gè)功能模塊的功能可根據(jù)上述方法實(shí)施例中的方法具體實(shí)現(xiàn),其具體實(shí)現(xiàn)過(guò)程可參照上述方法實(shí)施例中的相關(guān)描述,此處不再贅述。
由上可見(jiàn),在本發(fā)明的一些可行的實(shí)施方式中,提供了一種風(fēng)險(xiǎn)評(píng)估系統(tǒng),采用對(duì)變量分組和分類,得到強(qiáng)變量組和弱變量組,針對(duì)得到的每個(gè)弱變量組分別構(gòu)建風(fēng)險(xiǎn)評(píng)估模型,將每個(gè)弱變量組的模型結(jié)果作為一個(gè)變量,與得到的強(qiáng)變量組合并,組成聯(lián)合變量組,最后針對(duì)該聯(lián)合變量組構(gòu)建風(fēng)險(xiǎn)評(píng)估綜合模型的技術(shù)方案,取得了以下技術(shù)效果:
該方法充分的挖掘和利用了弱變量組的數(shù)據(jù)價(jià)值,各個(gè)弱變量組中的各個(gè)變量可以通過(guò)所對(duì)應(yīng)的模型結(jié)果變量反映在最終構(gòu)建的綜合模型中,使得綜合模型的模型結(jié)果能夠體現(xiàn)各個(gè)弱變量組中的各個(gè)變量的作用,從而使風(fēng)險(xiǎn)評(píng)估考量因素更全面,解釋性更強(qiáng),模型穩(wěn)定性更強(qiáng),模型結(jié)果盡量客觀,應(yīng)用中也更具魯棒性,有助于提高風(fēng)險(xiǎn)評(píng)估效果,有助于反映業(yè)務(wù)發(fā)展的未來(lái)趨勢(shì)。
(實(shí)施例三、)本發(fā)明實(shí)施例還提供一種計(jì)算機(jī)存儲(chǔ)介質(zhì),該計(jì)算機(jī)存儲(chǔ)介質(zhì)可存儲(chǔ)有程序,該程序被包括處理器的計(jì)算機(jī)設(shè)備執(zhí)行時(shí),使所述計(jì)算機(jī)設(shè)備執(zhí)行如上述方法實(shí)施例中記載的風(fēng)險(xiǎn)評(píng)估方法的部分或全部步驟。
(實(shí)施例四、)請(qǐng)參考圖5,本發(fā)明一個(gè)實(shí)施例還提供一種計(jì)算機(jī)設(shè)備500;
所述計(jì)算機(jī)設(shè)備500包括處理器501、存儲(chǔ)器502、總線503和通信接口504;所述存儲(chǔ)器502用于存儲(chǔ)程序505,所述程序505包括計(jì)算機(jī)執(zhí)行指令,所述處理器501與所述存儲(chǔ)器502通過(guò)所述總線503連接,當(dāng)所述計(jì)算機(jī)設(shè)備500運(yùn)行時(shí),所述處理器501執(zhí)行所述存儲(chǔ)器502存儲(chǔ)的所述程序505,以使所述計(jì)算機(jī)設(shè)備500執(zhí)行如上述方法實(shí)施例中記載的風(fēng)險(xiǎn)評(píng)估方法。
具體的,所述通信接口504可以接收數(shù)據(jù),接收到的數(shù)據(jù)包括所有變量,所述存儲(chǔ)器502可以存儲(chǔ)接收到的變量,所述處理器501可以通過(guò)執(zhí)行程序505 執(zhí)行以下步驟:根據(jù)數(shù)據(jù)源與目標(biāo)變量的相關(guān)性和/或數(shù)據(jù)源與用戶信息的相關(guān)性,進(jìn)行變量分組,得到至少一個(gè)第一類變量組和至少一個(gè)第二類變量組;針對(duì)所述至少一個(gè)第二類變量組分別構(gòu)建風(fēng)險(xiǎn)評(píng)估模型,得到每個(gè)第二類變量組的風(fēng)險(xiǎn)評(píng)估模型的模型結(jié)果;將每個(gè)第二類變量組的模型結(jié)果作為一個(gè)變量,與所述至少一個(gè)第一類變量組中的全部全量合并,組成第三類變量組;針對(duì)所述第三類變量組構(gòu)建風(fēng)險(xiǎn)評(píng)估綜合模型。
其中,所述總線503可以是工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(industrystandardarchitecture,簡(jiǎn)稱為isa)總線或外部設(shè)備互連(peripheralcomponent,簡(jiǎn)稱為pci)總線或擴(kuò)展工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(extendedindustrystandardarchitecture,簡(jiǎn)稱為eisa)總線等。所述總線可以分為地址總線、數(shù)據(jù)總線、控制總線中的一種或多種。為便于表示,圖中僅用一條粗線表示,但并不表示僅有一根總線或一種類型的總線。
所述存儲(chǔ)器502可以包含高速ram(ramdomaccessmemory)存儲(chǔ)器??蛇x地,所述存儲(chǔ)器502還可以還包括非易失性存儲(chǔ)器(non-volatilememory)。例如所述存儲(chǔ)器502可以包括磁盤(pán)存儲(chǔ)器。
所述處理器501可以是一個(gè)中央處理器(centralprocessingunit,簡(jiǎn)稱為cpu),或者所述處理器501可以是特定集成電路(applicationspecificintegratedcircuit,簡(jiǎn)稱為asic),或者所述處理器501可以是被配置成實(shí)施本發(fā)明實(shí)施例的一個(gè)或多個(gè)集成電路。
在上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒(méi)有詳細(xì)描述的部分,可以參見(jiàn)其它實(shí)施例的相關(guān)描述。
以上對(duì)本發(fā)明實(shí)施例所提供的風(fēng)險(xiǎn)評(píng)估方法和系統(tǒng)進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。