本發(fā)明涉及信用評(píng)分技術(shù)領(lǐng)域,尤其涉及一種構(gòu)建及驗(yàn)證信用評(píng)分方程過程中的元變量設(shè)計(jì)方法。
背景技術(shù):
日常購買行為中被人們廣泛使用。在50年代的美國(guó),信用決策由銀行信審員制定,通常由于信審員和申請(qǐng)人在一個(gè)地區(qū)居住并熟悉申請(qǐng)人,那么信審員基于對(duì)申請(qǐng)人的了解決定是否發(fā)放貸款。此法雖然有效卻也非常有限,因?yàn)樾艑弳T的數(shù)目總是要比申請(qǐng)人的數(shù)目少很多。到了70年代,F(xiàn)ICO分的出現(xiàn)極大助力了信貸的審批,有效地降低了信貸審批過程對(duì)信審員的依賴。但是,風(fēng)控的功能仍然不完整。諸如銀行和信用卡公司之類的貸款方使用信用分?jǐn)?shù)來評(píng)估借錢給消費(fèi)者后的潛在風(fēng)險(xiǎn)。為了決定誰將獲得貸款,銀行使用信用評(píng)分方程來衡量個(gè)人或?qū)嶓w的信用價(jià)值。傳統(tǒng)的信用評(píng)分方程通常使用的變量數(shù)目較少,而且變量的轉(zhuǎn)換也是人工完成。
傳統(tǒng)信用分的方法包括三個(gè)步驟。首先,觀察樣本的每個(gè)變量(比如薪水,已貸的使用情況,還款歷史等)。其次,系統(tǒng)通過離散化給每個(gè)變量賦值(比如用數(shù)字0到10來描述還款頻率,0代表沒有還款歷史,1代表基本不經(jīng)常還,10代表每次都按時(shí)還款)。最后,在所有變量都經(jīng)過數(shù)值轉(zhuǎn)化后,系統(tǒng)將使用一個(gè)既有的固定的公式,或者編寫公式,或者一個(gè)機(jī)器學(xué)習(xí)算法來構(gòu)建一個(gè)公式從而產(chǎn)生一組信用分?jǐn)?shù)。
傳統(tǒng)的變量轉(zhuǎn)換方法在上世紀(jì)50和60年代得到了很大發(fā)展,當(dāng)時(shí)計(jì)算能力和信息獲取都是非常困難的。因此可想而知,傳統(tǒng)的變量轉(zhuǎn)換通常是非常簡(jiǎn)單,且僅局限于:1)易于填充數(shù)值的單個(gè)數(shù)值型變量;2)存在明顯量化解釋的非數(shù)值變量;3)取值種類非常少的字符型變量。例如,這些傳統(tǒng)的變換方式對(duì)于以下的變量相對(duì)管用:薪水(數(shù)值型變量),日期和時(shí)間(可轉(zhuǎn)化為儒略日),地址(可按經(jīng)緯度來考慮),甚至還款頻率(以月付,半月付,周付,兩周付的頻率模式等)。甚至可以計(jì)算字段之間易于發(fā)現(xiàn)的關(guān)聯(lián),比如兩個(gè)日期之間的間隔,或兩個(gè)地點(diǎn)之間的距離。
然而,傳統(tǒng)的變量轉(zhuǎn)換方法對(duì)于多組變量并不完全適用,特別是當(dāng)數(shù)據(jù)存在部分或全部缺失的情況。對(duì)于無法被轉(zhuǎn)換的變量更是完全不適用。例如,“Folsom State Prison”的地址記錄可能被寫成“P.O.Box 910,Represa,Calif.95673”或者“300Prison Road,Represa,Calif.95671”,但是兩個(gè)地址寫法其實(shí)是同一個(gè)地址。假設(shè)一位貸款人的申請(qǐng)文件上兩個(gè)地址都列了,那么傳統(tǒng)的信用打分公式可能錯(cuò)誤地認(rèn)為此申請(qǐng)人有對(duì)應(yīng)2個(gè)不同地址的2份工作,其職業(yè)看上去比較不穩(wěn)定,從而決定降低此人的信用分。
除此之外,傳統(tǒng)的變量轉(zhuǎn)換方法一般只能用于修正字符型變量(比如地址)中的拼寫或大小寫錯(cuò)誤。因?yàn)槲幕R(shí)和理解上的局限性,相對(duì)先進(jìn)的轉(zhuǎn)換也只是靠人工識(shí)別而非機(jī)器學(xué)習(xí)算法來完成。例如,一個(gè)人工分析員在分析“P.O.Box 910,Represa,Calif.95673”和“Post Office Box 910,Represa,Calif 95671”這兩個(gè)地址的時(shí)候無法理解它們其實(shí)是同一個(gè)地方。一個(gè)通常的解決辦法是請(qǐng)人來將地址按照USPS的標(biāo)準(zhǔn)規(guī)范化。但是,在規(guī)范化的過程中,一些非常有用的諸如申請(qǐng)人是否使用了大寫和小寫或只有小寫的信息可能會(huì)丟失。
由于質(zhì)量控制需要的原因,傳統(tǒng)變量轉(zhuǎn)換方法也受到能處理的數(shù)據(jù)量的限制。每一次的轉(zhuǎn)換和填充都需要人工花相當(dāng)多的時(shí)間來分析一個(gè)或多個(gè)字段以及謹(jǐn)慎決定如何填充數(shù)值。因此,能有效分析的字段的數(shù)量限制在了,在一定的時(shí)間段內(nèi)單人能夠理解的范圍內(nèi)。也正是因?yàn)檫@個(gè)原因,很少風(fēng)險(xiǎn)模型能使用超過數(shù)十個(gè)字段(例如,F(xiàn)ICO分是基于5個(gè)基本的維度,包括還款歷史,信用卡使用,信用歷史,所用信用類別,近期信用搜索記錄)。沒有一個(gè)傳統(tǒng)的變量轉(zhuǎn)換方法能同時(shí)考慮數(shù)以百計(jì)(千記,萬記,甚至百萬級(jí)別的更少)的字段。而自動(dòng)化的模型中增加這些變量,將使得評(píng)分結(jié)果能夠模擬過去信審人員的準(zhǔn)確率同時(shí)還能保持甚至增加信用審批量。
因此,提升和改進(jìn)用來建立和驗(yàn)證信用評(píng)分模型的變量轉(zhuǎn)換方法也就變得日趨重要。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是為了解決現(xiàn)有技術(shù)中存在的缺點(diǎn),而提出的一種構(gòu)建及驗(yàn)證信用評(píng)分方程過程中的元變量設(shè)計(jì)方法。
為了實(shí)現(xiàn)上述目的,本發(fā)明采用了如下技術(shù)方案:
一種構(gòu)建及驗(yàn)證信用評(píng)分方程過程中的元變量設(shè)計(jì)方法,其特征在于:中央計(jì)算機(jī)服務(wù)器與公共網(wǎng)絡(luò)連接,中央計(jì)算機(jī)服務(wù)器有個(gè)基于一系列指令的計(jì)算機(jī)可用媒介,該指令由處理器執(zhí)行,包括如下:
1)通過公共網(wǎng)絡(luò)從以下至少一個(gè)數(shù)據(jù)源搜索和收集借款人的數(shù)據(jù)集:借款人、私有數(shù)據(jù)、公共數(shù)據(jù)或社交網(wǎng)絡(luò)數(shù)據(jù)源;
2)將數(shù)據(jù)集轉(zhuǎn)換成一些與借款人信用風(fēng)險(xiǎn)相關(guān)的變量;
3)用統(tǒng)計(jì)或機(jī)器學(xué)習(xí)的方法獨(dú)立處理每一個(gè)變量來產(chǎn)生描述借款人特定方面的元變量。
優(yōu)選的,從借款人處收集借款人數(shù)據(jù)可以通過公共網(wǎng)絡(luò)進(jìn)行現(xiàn)場(chǎng)采訪或通過用戶填寫在線調(diào)查問卷完成。
優(yōu)選的,從私有數(shù)據(jù)處收集借款人數(shù)據(jù),包括如下:
1)為私人提供借款人特定數(shù)據(jù)的子集的數(shù)據(jù)供應(yīng)商;
2)從數(shù)據(jù)供應(yīng)商處收集全部或部分借款人的相關(guān)數(shù)據(jù)存儲(chǔ)到變量數(shù)據(jù)庫中。
優(yōu)選的,從公共數(shù)據(jù)處收集借款人數(shù)據(jù),包括如下:
1)進(jìn)行字符串搜索、自動(dòng)爬取或用項(xiàng)目或協(xié)議獲?。?/p>
2)收集所有返回的結(jié)果并存儲(chǔ)到變量數(shù)據(jù)庫中。
優(yōu)選的,從社交網(wǎng)絡(luò)數(shù)據(jù)中收集借款人數(shù)據(jù),包括如下:
1)在社交網(wǎng)絡(luò)上搜索借款人發(fā)布的數(shù)據(jù);
2)在社交網(wǎng)絡(luò)上搜索借款人相關(guān)的數(shù)據(jù),由社交媒介服務(wù)器編譯;
3)在社交網(wǎng)絡(luò)上搜索借款人社交網(wǎng)絡(luò)上部分或全部成員的社交圖譜信息,從而借款人檔案和社交網(wǎng)絡(luò)數(shù)據(jù)之間有一度或多度的分離;
4)收集所有返回的結(jié)果存儲(chǔ)到變量數(shù)據(jù)庫中。
優(yōu)選的,將數(shù)據(jù)集轉(zhuǎn)換成多個(gè)變量,通過將收集到的數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)日期格式、標(biāo)準(zhǔn)時(shí)間格式、范圍、百分等級(jí)、經(jīng)緯度等來完成。
優(yōu)選的,用統(tǒng)計(jì)或機(jī)器學(xué)習(xí)的方法獨(dú)立處理每一個(gè)變量來產(chǎn)生描述借款人特定方面的元變量,包括如下:
1)把借款人每一個(gè)變量的數(shù)據(jù)與借款人檔案中其它變量的數(shù)據(jù)比較;
2)把借款人每一個(gè)變量的數(shù)據(jù)與其他和借款人有相似特征、相似處境的人群的平均期望比較;
3)比較借款人在準(zhǔn)備申請(qǐng)貸款期間的行為。
優(yōu)選的,產(chǎn)生元變量過程,包括如下:
1)通過使用風(fēng)險(xiǎn)分離技術(shù)或復(fù)雜統(tǒng)計(jì)技術(shù)找出預(yù)測(cè)子集,從而分析數(shù)據(jù),找出至少有一個(gè)共同特征的申請(qǐng)人類別;
2)使用線性回歸或回歸樹將類別成員從不能可靠產(chǎn)生相關(guān)信號(hào)的非類別成員中區(qū)分出來;
3)選擇出衡量某特定類別不同方面的元變量。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明主要提供了用來建立和驗(yàn)證信用評(píng)分模型的變量轉(zhuǎn)換方法,有效地變量轉(zhuǎn)換方法是在第一臺(tái)電腦上對(duì)每個(gè)新借款人的基礎(chǔ)數(shù)據(jù)都產(chǎn)生一個(gè)數(shù)據(jù)集(原始數(shù)據(jù)),把這些數(shù)據(jù)集都標(biāo)準(zhǔn)化為一系列變量(轉(zhuǎn)化數(shù)據(jù))。
附圖說明
圖1是“信息缺失型”借款人提供信用的系統(tǒng)方框圖中關(guān)于變量轉(zhuǎn)換的流程;
圖2是本發(fā)明所推薦的建立和驗(yàn)證信用評(píng)估方程的系統(tǒng)框圖;
圖3是用來描述在建立和驗(yàn)證信用評(píng)估過程中處理原始數(shù)據(jù)100的方法流程圖;
圖4是用來描述識(shí)別顯著的變量轉(zhuǎn)換方法的流程圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
實(shí)施例1
一種構(gòu)建及驗(yàn)證信用評(píng)分方程過程中的元變量設(shè)計(jì)方法,其特征在于:中央計(jì)算機(jī)服務(wù)器與公共網(wǎng)絡(luò)連接,中央計(jì)算機(jī)服務(wù)器有個(gè)基于一系列指令的計(jì)算機(jī)可用媒介,該指令由處理器執(zhí)行,包括如下:
1)通過公共網(wǎng)絡(luò)從以下至少一個(gè)數(shù)據(jù)源搜索和收集借款人的數(shù)據(jù)集:借款人、私有數(shù)據(jù)、公共數(shù)據(jù)或社交網(wǎng)絡(luò)數(shù)據(jù)源;
2)將數(shù)據(jù)集轉(zhuǎn)換成一些與借款人信用風(fēng)險(xiǎn)相關(guān)的變量;
3)用統(tǒng)計(jì)或機(jī)器學(xué)習(xí)的方法獨(dú)立處理每一個(gè)變量來產(chǎn)生描述借款人特定方面的元變量。
從借款人處收集借款人數(shù)據(jù)可以通過公共網(wǎng)絡(luò)進(jìn)行現(xiàn)場(chǎng)采訪或通過用戶填寫在線調(diào)查問卷完成。
從私有數(shù)據(jù)處收集借款人數(shù)據(jù),包括如下:
1)為私人提供借款人特定數(shù)據(jù)的子集的數(shù)據(jù)供應(yīng)商;
2)從數(shù)據(jù)供應(yīng)商處收集全部或部分借款人的相關(guān)數(shù)據(jù)存儲(chǔ)到變量數(shù)據(jù)庫中。
從公共數(shù)據(jù)處收集借款人數(shù)據(jù),包括如下:
1)進(jìn)行字符串搜索、自動(dòng)爬取或用項(xiàng)目或協(xié)議獲??;
2)收集所有返回的結(jié)果并存儲(chǔ)到變量數(shù)據(jù)庫中。
從社交網(wǎng)絡(luò)數(shù)據(jù)中收集借款人數(shù)據(jù),包括如下:
1)在社交網(wǎng)絡(luò)上搜索借款人發(fā)布的數(shù)據(jù);
2)在社交網(wǎng)絡(luò)上搜索借款人相關(guān)的數(shù)據(jù),由社交媒介服務(wù)器編譯;
3)在社交網(wǎng)絡(luò)上搜索借款人社交網(wǎng)絡(luò)上部分或全部成員的社交圖譜信息,從而借款人檔案和社交網(wǎng)絡(luò)數(shù)據(jù)之間有一度或多度的分離;
4)收集所有返回的結(jié)果存儲(chǔ)到變量數(shù)據(jù)庫中。
將數(shù)據(jù)集轉(zhuǎn)換成多個(gè)變量,通過將收集到的數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)日期格式、標(biāo)準(zhǔn)時(shí)間格式、范圍、百分等級(jí)、經(jīng)緯度等來完成。
用統(tǒng)計(jì)或機(jī)器學(xué)習(xí)的方法獨(dú)立處理每一個(gè)變量來產(chǎn)生描述借款人特定方面的元變量,包括如下:
1)把借款人每一個(gè)變量的數(shù)據(jù)與借款人檔案中其它變量的數(shù)據(jù)比較;
2)把借款人每一個(gè)變量的數(shù)據(jù)與其他和借款人有相似特征、相似處境的人群的平均期望比較;
3)比較借款人在準(zhǔn)備申請(qǐng)貸款期間的行為。
產(chǎn)生元變量過程,包括如下:
1)通過使用風(fēng)險(xiǎn)分離技術(shù)或復(fù)雜統(tǒng)計(jì)技術(shù)找出預(yù)測(cè)子集,從而分析數(shù)據(jù),找出至少有一個(gè)共同特征的申請(qǐng)人類別;
2)使用線性回歸或回歸樹將類別成員從不能可靠產(chǎn)生相關(guān)信號(hào)的非類別成員中區(qū)分出來;
3)選擇出衡量某特定類別不同方面的元變量。
借款人使用端”一般指臺(tái)式電腦,筆記本電腦,平板電腦,移動(dòng)端如智能手機(jī)或者個(gè)人數(shù)字化助理,智能電視,游戲手柄,視頻播放器,或任何其他帶有網(wǎng)絡(luò)瀏覽器或可設(shè)置與中心電腦/個(gè)人使用端進(jìn)行數(shù)據(jù)交互的自成應(yīng)用的網(wǎng)絡(luò)裝置,與/或一個(gè)或多個(gè)在系統(tǒng)10里面的組成部分。
在本文中,”個(gè)人使用端”一般指臺(tái)式電腦,筆記本電腦,平板電腦,移動(dòng)端如智能手機(jī)或者個(gè)人數(shù)字化助理,智能電視,游戲手柄,視頻播放器,或任何其他帶有網(wǎng)絡(luò)瀏覽器或可設(shè)置與中心電腦/借款人使用端進(jìn)行數(shù)據(jù)交互的自成應(yīng)用的網(wǎng)絡(luò)裝置,與/或一個(gè)或多個(gè)在系統(tǒng)10里面的組成部分。
在本文中,”中心電腦”一般指一臺(tái)或多臺(tái)配置用于接收,變換,配置,分析,合成,通訊,和/或處理和借款人相關(guān)的數(shù)據(jù)的子模塊或機(jī)器,比如一個(gè)標(biāo)準(zhǔn)化處理單元(40),一個(gè)變量處理的節(jié)點(diǎn)單位(50),和一個(gè)通訊的中心(90)。任何之后的子模塊或機(jī)器可以選擇被集成進(jìn)一個(gè)獨(dú)立工作的單位,或者通過網(wǎng)絡(luò)或云資源被分散到多個(gè)硬件單位里。除此之外,中心電腦可以被配置與個(gè)人使用端,借款人使用端,一個(gè)或多個(gè)系統(tǒng)10的部件進(jìn)行部分或全部數(shù)據(jù)的接受,交互。此部分在Merrill的專利申請(qǐng)里面有詳細(xì)描述。
在本文中,”私有數(shù)據(jù)”一般指通過向私有或公有數(shù)據(jù)擁有者購買得到的數(shù)據(jù),包括但不限于各種數(shù)據(jù)源,數(shù)據(jù)庫,數(shù)據(jù)文件。一個(gè)例子是由信用評(píng)估機(jī)構(gòu)在信用查詢階段產(chǎn)生的數(shù)據(jù)。另外一個(gè)例子是基于公開的數(shù)據(jù),經(jīng)過時(shí)間或不同來源的聚集而形成的新數(shù)據(jù)。
在本文中,”公開數(shù)據(jù)”一般指可以免費(fèi)或微小代價(jià)通過搜索引擎,自動(dòng)爬取或scrapes得到的數(shù)據(jù)。一個(gè)公開數(shù)據(jù)的例子是通過在網(wǎng)絡(luò)上搜索借款人的名字而得到的數(shù)據(jù)。
在本文中,”社交網(wǎng)絡(luò)數(shù)據(jù)”一般指在社交網(wǎng)絡(luò)空間里任何關(guān)于借款人的數(shù)據(jù),或博客,發(fā)帖,微博,連接,好友,“喜歡”的點(diǎn)擊,好友圈,追隨者,追隨的人和社交圖譜等。除此之外,社交數(shù)據(jù)還包括任何借款人在社交網(wǎng)絡(luò)中任何或所有成員的社交圖譜信息。通常來講社交數(shù)據(jù)可以通過直接或間接從公開的社交網(wǎng)絡(luò)空間以免費(fèi)或非常小的代價(jià)獲取到。
在本文中,”借款人數(shù)據(jù)”一般指借款人在申請(qǐng)貸款時(shí)填寫在申請(qǐng)表上,或通過借款人的使用端,個(gè)人使用端或者中心電腦的信息。一個(gè)例子是借款人的身份證號(hào)碼,駕照號(hào)碼,生日,或貸款人要求的其他信息。
在本文中,”原始數(shù)據(jù)”一般指借款人數(shù)據(jù),私有數(shù)據(jù),公開數(shù)據(jù)和社交網(wǎng)絡(luò)數(shù)據(jù)的單一集合或任意的組合。原始數(shù)據(jù)通常是和借款人相關(guān)的生平,金融和/或社交數(shù)據(jù)的累積,存儲(chǔ),維護(hù)和使用相關(guān)。
在本文中,”網(wǎng)絡(luò)”一般指全球互聯(lián)網(wǎng),寬網(wǎng),廣域網(wǎng),局域網(wǎng)和/或近場(chǎng)網(wǎng)絡(luò),網(wǎng)絡(luò)軟件,硬件,固件,路由器,調(diào)制解調(diào)器,網(wǎng)線,收發(fā)器,天線等任意的組合。系統(tǒng)10的部分或全部組件能夠通過有線或無線的方式登錄網(wǎng)絡(luò),和使用任何合適的通信協(xié)議,層級(jí),地址,媒體類型,應(yīng)用編程交互,和/或通訊的軟硬件支持。
一個(gè)優(yōu)選的用于建立和驗(yàn)證與優(yōu)選示例配套的信用評(píng)估的操作環(huán)境一般包括:一個(gè)借款人使用端(12),一個(gè)個(gè)人使用端(30),一個(gè)中心電腦(20),一個(gè)網(wǎng)絡(luò)(40),一個(gè)或多個(gè)數(shù)據(jù)源包括比如借款人數(shù)據(jù)(13),私有數(shù)據(jù)(14),公開數(shù)據(jù)(16)和社交網(wǎng)絡(luò)數(shù)據(jù)(18)。優(yōu)選的系統(tǒng)(10)包括至少一個(gè)中心電腦(20),和/或一個(gè)個(gè)人使用端(30),能夠單獨(dú)或與其他部分一起為借款人基于新穎的非傳統(tǒng)的衡量基準(zhǔn)來提供貸款的渠道。特別需要指出的是,此優(yōu)選的系統(tǒng)(10)能夠通過獲取,評(píng)估,衡量,量化和使用接下來描述的基于新型風(fēng)險(xiǎn)評(píng)估的辦法和在Merrill的專利申請(qǐng)里面出現(xiàn)的系統(tǒng)和方法(見附錄)來判定借款人的信用程度,特別是包括那些信用不佳的借款人。
更具體的來說,本發(fā)明和用于建立和驗(yàn)證一種信用評(píng)估的優(yōu)選方法相關(guān)。在所有的原始數(shù)據(jù)被臨時(shí)搜集或從借款人使用端(12),中心電腦(20),個(gè)人使用端(30),和/或諸如借款人數(shù)據(jù)(13),私有數(shù)據(jù)(14),公開數(shù)據(jù)(16)和社交網(wǎng)絡(luò)數(shù)據(jù)(18)的一個(gè)或多個(gè)數(shù)據(jù)源下載后,通過一個(gè)中心電腦(20)和一個(gè)個(gè)人使用端(30)來完成信用評(píng)估。
建立和驗(yàn)證信用評(píng)估過程中處理原始數(shù)據(jù)100的方法流程圖。
第一步,通過借款人的借款人數(shù)據(jù)(13),私有數(shù)據(jù)(14),公開數(shù)據(jù)(16)和社交網(wǎng)絡(luò)數(shù)據(jù)(18)其中一個(gè)或多個(gè)產(chǎn)生原始數(shù)據(jù)100。例如,原始數(shù)據(jù)100可能包括借款人的傳統(tǒng)的金融數(shù)據(jù)如FICO分?jǐn)?shù),收入,最近工作的年限,破產(chǎn)的數(shù)目等。除此之外,原始數(shù)據(jù)100還可能包括借款人的其他的特質(zhì),比如互聯(lián)網(wǎng)域名的數(shù)目,借款人曾經(jīng)或現(xiàn)在加入的組織的數(shù)目,借款人曾卷入的法律訴訟的數(shù)目,借款人的朋友的數(shù)量,借款人的基于興趣的心理特質(zhì),和其他關(guān)于申請(qǐng)人的身份及歷史的非傳統(tǒng)的特征。其他一些例子還包括:
一個(gè)用于比對(duì)的例子(下同)如下:從原始數(shù)據(jù)100取樣出一個(gè)虛構(gòu)的借款人A女士(信用預(yù)期較好),和另一個(gè)同是虛構(gòu)的借款人B先生(被拒的申請(qǐng)人)。兩人都住和工作在同一地方,具體信息如下:
第二步,原始數(shù)據(jù)經(jīng)過多種變換成為最有用的數(shù)據(jù)形式120。比如”當(dāng)前收入”變量可以直接使用,或轉(zhuǎn)換到級(jí)別/層級(jí)上(0=?jīng)]有收入;1=$1-$5000;2=$5001-$20000,等),或轉(zhuǎn)換為在和申請(qǐng)人住地的收入水平比對(duì)后產(chǎn)生的預(yù)計(jì)收入的百分位。地址變量可以被轉(zhuǎn)換為(經(jīng)度,緯度),這樣可以通過計(jì)算球面距離判別兩個(gè)地址實(shí)質(zhì)上為同一個(gè)地方的可能性。如果申請(qǐng)是通過網(wǎng)頁提交的,那么通過網(wǎng)頁瀏覽留下的行為記錄,比如申請(qǐng)人瀏覽過的網(wǎng)頁數(shù)目,申請(qǐng)人在申請(qǐng)頁面停留的時(shí)間都能被用在對(duì)其信用的評(píng)估上。
因此,一臺(tái)電腦(如圖2中的中心電腦20)應(yīng)該能夠使用一個(gè)或多個(gè)算法(統(tǒng)計(jì),金融,機(jī)器學(xué)習(xí)等)獨(dú)立地處理每一個(gè)變量來產(chǎn)生用于描述借款人特征的獨(dú)立決策集(元變量140)。假設(shè)原始數(shù)據(jù)里有40個(gè)字段,那么通過任意兩個(gè)離散變量的組合就可以產(chǎn)生40*40=1600個(gè)組合,40*40*40=64000個(gè)基于任意三個(gè)離散變量的組合,以及40*40*40*40=2560000個(gè)基于任意四個(gè)離散變量的組合……由此可見,如果原始數(shù)據(jù)有120個(gè)字段的話,那么有可能的組合將會(huì)是幾何級(jí)數(shù)的增長(zhǎng)。
借款人的“當(dāng)前收入”可以和同一地區(qū)在同行業(yè)就業(yè)人群的平均收入比較。類似的,如果A申請(qǐng)人在申請(qǐng)過程中的行為記錄顯示其在申請(qǐng)中非常小心謹(jǐn)慎,而申請(qǐng)人B的記錄顯示其在申請(qǐng)過程中非常隨意和無所謂。這種情況下我們可以生成一個(gè)取值范圍是0-2的排序變量,0代表非常隨意,而2代表非常謹(jǐn)慎。那么A在此變量上的賦值傾向于更高,例如2,而B的得分傾向于更低,例如會(huì)趨近于0。
元變量的一個(gè)目的是用于衡量信用,然而這不是元變量唯一的作用。例如,它還可以用于信用評(píng)估方程構(gòu)建的中間階段。設(shè)計(jì)中間元變量的三個(gè)主要原因在于,首先,選擇定義信用評(píng)估方程的參數(shù)所需的投入要比參數(shù)數(shù)量本身所需耗費(fèi)的資源增長(zhǎng)更快。例如對(duì)于一個(gè)回歸模型來說,選擇n個(gè)參數(shù)所需時(shí)間通常是n的立方。這就意味著如果有幾百個(gè)參數(shù)需要直接估計(jì)的話,所需的計(jì)算時(shí)間基本是不可能實(shí)現(xiàn)的。相比之下,如果這幾百個(gè)參數(shù)所包含的信息可以被小集合的元變量來覆蓋的話,那么所需的計(jì)算時(shí)間能被大大降低。其次,需要估計(jì)的參數(shù)越少,最終的評(píng)分模型的性能通常也就越穩(wěn)定和可靠。優(yōu)化系統(tǒng)的參數(shù)越多,自由度越大,參數(shù)選擇過程所需的信息也就越多。使用元變量可以降低模型所依賴的參數(shù)的數(shù)量。第三,元變量是可以重復(fù)使用的。如果一個(gè)元變量為一個(gè)信用評(píng)分系統(tǒng)提供了有用信息,那么它很可能也會(huì)為其他的信用評(píng)分系統(tǒng)提供有用信息,即便這些其他的信用評(píng)分系統(tǒng)所評(píng)估的風(fēng)險(xiǎn)和元變量原本所描述的風(fēng)險(xiǎn)不是非常相關(guān)。
元變量也可以用于對(duì)借款人進(jìn)行“真實(shí)性檢驗(yàn)”。例如,前文中提到的B先生,由于他所報(bào)告的收入比他同地區(qū)同行業(yè)的人要高出50%,所以他基本不會(huì)通過這個(gè)真實(shí)性檢驗(yàn)。類似的,A女士在“是否為小心的客戶”測(cè)試上得分為2,而2分通常被認(rèn)為是信用較好的。B先生在同一測(cè)試上的得分則是0–一個(gè)信用較差的信號(hào)。最后,A女士通常會(huì)在“個(gè)人穩(wěn)定性”指標(biāo)上得分較高,基于其過去住址和電話都變換較少,而B先生在此項(xiàng)上會(huì)得分較低。
除此之外,針對(duì)元變量的統(tǒng)計(jì)分析對(duì)于哪些“信號(hào)”值得分析,每個(gè)信號(hào)的權(quán)重應(yīng)該是多少有指導(dǎo)意義。例如,住址的連續(xù)可以認(rèn)為是一個(gè)“正向”的信號(hào),而地址的多樣性可能不會(huì)有任何指向性。本發(fā)明的優(yōu)選實(shí)施例對(duì)于這種決策也有類似的指導(dǎo)意義。事實(shí)上,構(gòu)建元變量可能不會(huì)是一個(gè)全自動(dòng)的過程,而是一個(gè)啟發(fā)式的過程,需要專業(yè)技能。但是通常產(chǎn)生元變量的過程如下文概述。(本文件以貸款風(fēng)險(xiǎn)評(píng)估相關(guān)的元變量的產(chǎn)生為例子,但是此方法適用面很廣)。首先,數(shù)據(jù)分析員鑒別出一類具有某些共同屬性的貸款申請(qǐng)人,可能是貸款風(fēng)險(xiǎn)高于或低于平均值的申請(qǐng)人。之前假定的“個(gè)人穩(wěn)定性“和”謹(jǐn)慎的申請(qǐng)人“的例子就能容易地被鑒別出來,數(shù)據(jù)分析員會(huì)注意到地址數(shù)量很少的人有相對(duì)較低的信用風(fēng)險(xiǎn),而地址數(shù)很多的人有相對(duì)較高的信用風(fēng)險(xiǎn)。該類可以用很多方法鑒別出來,比如人工檢查申請(qǐng)和結(jié)果、找出可以區(qū)別風(fēng)險(xiǎn)高低的特征、用復(fù)雜的統(tǒng)計(jì)方法-聚類分析來處理被已有打分過程錯(cuò)誤預(yù)測(cè)的申請(qǐng)人,去找到具有預(yù)測(cè)能力的子集。
元變量的目的是產(chǎn)生一個(gè)實(shí)數(shù)分使得不同類的成員可以區(qū)分開來。這點(diǎn)通常是由一個(gè)基本的機(jī)器學(xué)習(xí)過程實(shí)現(xiàn)的,它將一個(gè)或多個(gè)相對(duì)簡(jiǎn)單的可以區(qū)分群類的表達(dá)式組合起來。表達(dá)式可以是利用少量被測(cè)信號(hào)(可能包括已知的元變量)構(gòu)建的線性回歸方程或分類器或回歸樹。使元變量區(qū)別于一個(gè)真實(shí)的打分方程的關(guān)鍵特征是(1)簡(jiǎn)單性和穩(wěn)定性比準(zhǔn)確性重要,元變量本身不需要總是正確的,但是即使環(huán)境改變,元變量也必須是可以依賴的可靠信號(hào)(2)其目標(biāo)是提供部分打分問題的相關(guān)信號(hào)而不是直接給出最終值。
單一種類的申請(qǐng)文件或申請(qǐng)人可以容易地推出幾個(gè)描述該類不同方面的元變量。類似的,一份申請(qǐng)文件可以充當(dāng)多個(gè)類別的例子。事實(shí)上通過這種方式,申請(qǐng)文件提供了關(guān)于元變量該如何組合到最終的打分方程中去的思路。
在首選方法中,原始數(shù)據(jù)100中的數(shù)據(jù)被收集、清洗、轉(zhuǎn)換成最有用的形式,組合成元變量描述買方的某些方面,下一步將引入到不同的模型中,最后合成出一個(gè)分?jǐn)?shù)用來進(jìn)行最后的信用決策。
詳細(xì)方法:
為了識(shí)別顯著轉(zhuǎn)換,首選模型先引入原始數(shù)據(jù)100到以下的轉(zhuǎn)換過程:(a)連續(xù)變換的自動(dòng)搜索220(b)直接的泛函變換240(c)復(fù)雜的泛函變換260,可能會(huì)生成新轉(zhuǎn)換的變量120和/或新的元變量140。
連續(xù)變換的自動(dòng)搜索220包括應(yīng)用標(biāo)準(zhǔn)的變量解釋方法,比如(a)將字符串變量因子化轉(zhuǎn)化為相對(duì)較少的取值,并且在必要時(shí)將這些字段轉(zhuǎn)換成指示型類別(b)將可能是布爾項(xiàng)的變量轉(zhuǎn)換為雙精度浮點(diǎn)型(c)將日期轉(zhuǎn)換成相對(duì)于一個(gè)或多個(gè)基本時(shí)間戳的時(shí)間間隔;(d)將地址或其他地理位置數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)形式,如經(jīng)緯度。對(duì)連續(xù)變換過程應(yīng)用自動(dòng)搜索220通常會(huì)生成轉(zhuǎn)換變量120和/或元變量140。然而,如果對(duì)連續(xù)變換過程應(yīng)用自動(dòng)搜索220之后認(rèn)為一個(gè)或多個(gè)原始數(shù)據(jù)100中的變量是不需要操作的,數(shù)據(jù)可能無法被轉(zhuǎn)換并以原始格式通過。例如,可以將四個(gè)標(biāo)準(zhǔn)支付模式(每周,每?jī)芍?,每半月,每?作為有四個(gè)層次的因子變量,或作為一組四個(gè)二進(jìn)制變量(其中一個(gè)是1其他三個(gè)是0)。這兩種解釋都是這種轉(zhuǎn)換的標(biāo)準(zhǔn)且可執(zhí)行的例子。
舉例說明,一個(gè)取值可以分為“每周付“,”每雙周付“,”每半月付“和“每月付”的變量可以被轉(zhuǎn)換成取值為1到4的整型變量或四組四重值,分別是(1,0,0,0),(0,1,0,0),(0,0,1,0)和(0,0,0,1),這取決于以后想如何使用該變量。取值為“真”或“假”的變量可以被轉(zhuǎn)換成0.0和1.0。日期可以被轉(zhuǎn)換成與某一個(gè)起始日期之間的間隔(比如1960年10月18日可以表示為距1900年1月1日起的第22205天)。地址“300PrisonRoad,Represa,Calif.95671可以用地理坐標(biāo)經(jīng)緯度表示成北緯38.6931度,西經(jīng)121.1617度,也就是距北緯38.8977度,西經(jīng)77.0366度(1600Pennsylvania Avenue,Washington,D.C.)的地址有23530.62英里遠(yuǎn)。有了這些地理信息,電腦就可以自動(dòng)判斷出一位住在第一個(gè)地址的人是不太可能在第二個(gè)地址工作的。(看到這兩個(gè)地址的人會(huì)知道居住在300PrisonRoad,Represa,Calif.95671的人是加州最老最安全的監(jiān)獄里的犯人,是不可能在白宮工作的,而電腦不需要這些文化知識(shí)也可以得出相同的結(jié)論)。
連續(xù)變換的自動(dòng)搜索220所生成的轉(zhuǎn)換變量120和/或元變量140緊接著進(jìn)入到直接的泛函變換240,比如:(a)單一或小組變量轉(zhuǎn)換為結(jié)果相關(guān)的指標(biāo),比如,推斷的成功概率或某些結(jié)果變量的期望值(比如:基于變量特定值計(jì)算得到單筆貸款的預(yù)期收益);(b)變量的簡(jiǎn)單泛函變換(比如:如果一個(gè)字段包含一個(gè)特定類型事件的發(fā)生次數(shù),那么該字段將會(huì)遵循泊松分布。該字段的平方根將遵循一定均值和方差的高斯分布)。此外,直接的泛函變換240可以采用其他統(tǒng)計(jì)算法作為預(yù)測(cè)變量,例如包括馬氏距離測(cè)量(如傳統(tǒng)的歐氏距離測(cè)量,高階的距離測(cè)量,海明距離測(cè)量),非正態(tài)分布的距離測(cè)量,和/或一個(gè)余弦變換。直接泛函變換240的應(yīng)用通常會(huì)生成額外的轉(zhuǎn)換變量120和/或元變量140。然而,如果直接泛函變換240認(rèn)為原始數(shù)據(jù)集100中的一個(gè)或多個(gè)變量不需要操作,數(shù)據(jù)就不會(huì)被轉(zhuǎn)換并以其原始形式通過。
舉前面提到的距離例子進(jìn)一步說明,我們可以把距離轉(zhuǎn)換成一種概率用來描述當(dāng)給定居住地和工作地點(diǎn)之間的距離后此人的還貸可能性。按道理,對(duì)于家和工作地點(diǎn)在同一地方的人該概率會(huì)比較低,然后隨著距離的增加先上升再下降。在直接泛函變換240的中間步驟中,本發(fā)明的首選方法會(huì)檢查借款人的所有地址信息,然后決定這些地址是否能夠使家和工作地點(diǎn)間的距離在合理范圍內(nèi),再驗(yàn)證地址數(shù)據(jù)集。
最后,連續(xù)變換的自動(dòng)搜索220或直接泛函變換240所生成的轉(zhuǎn)換變量120和/或元變量140再進(jìn)入到復(fù)雜泛函變換260,比如(a)用仔細(xì)選擇和/或構(gòu)造的函數(shù)對(duì)單一或小組變量進(jìn)行轉(zhuǎn)換;(b)兩者間的距離(即:數(shù)值域的差的絕對(duì)值,空間中歐幾里得或出租車的距離,甚至是文本域中字符串編輯距離(最后一個(gè)在處理用戶輸入時(shí)非常有用,可以區(qū)分錯(cuò)誤和詐騙));(c)比率(例如:債務(wù)服務(wù)負(fù)荷對(duì)家庭可支配收入的比率);(d)其它幾何變換(例如:一個(gè)k型集群區(qū)域的測(cè)量,距離的泛化,和/或其他穩(wěn)定性的復(fù)雜測(cè)量作為地址的函數(shù));(e)為數(shù)據(jù)定制的泛函變換。復(fù)雜泛函變換260通常會(huì)生成額外的轉(zhuǎn)換變量120和/或元變量140。然而,如果復(fù)雜功能轉(zhuǎn)換260認(rèn)為原始數(shù)據(jù)集100中的一個(gè)或多個(gè)變量不需要操作,數(shù)據(jù)就不會(huì)被轉(zhuǎn)換并以其原始形式通過。
參照上面兩段的例子。其中元變量能被用于把距離轉(zhuǎn)換成一種概率從而描述一個(gè)家和工作地點(diǎn)距離這么遠(yuǎn)的人的還貸可能性是多少。最后的中間環(huán)節(jié)是復(fù)雜泛函變換260用來確定借款人的就業(yè)穩(wěn)定性。在一定程度上,人在一定時(shí)間內(nèi)的住過的地方的數(shù)量服從泊松分布,其均值與所從事的工作數(shù)量成正比。當(dāng)前工作的數(shù)量的平方根和當(dāng)前地址數(shù)量的平方根之間的關(guān)系服從線性關(guān)系加方差為1/4的單變量正態(tài)分布。因此,我們可以把“就是有很多工作”的人從“有比基于工作數(shù)所推出的地址數(shù)還多的地址數(shù)”的人中區(qū)別出來。
創(chuàng)建自定義的泛函變換與大型數(shù)據(jù)分析密切相關(guān)?;谠紨?shù)據(jù)集100的大小,轉(zhuǎn)換后的表達(dá)式(如轉(zhuǎn)換變量120和/或元變量140)的數(shù)目決定了單個(gè)變量的方程可能會(huì)非常大,且多個(gè)變量的方程呈指數(shù)型增長(zhǎng)。假設(shè)原始數(shù)據(jù)里有40個(gè)字段,那么通過任意兩個(gè)離散變量的組合就可以產(chǎn)生40*40=1,600個(gè)比對(duì)組合,40*40*40=64,000個(gè)基于任意三個(gè)離散變量的比對(duì)組合,如一個(gè)變量與另外兩個(gè)變量差值的比值,以及40*40*40*40=2,560,000個(gè)基于任意四個(gè)離散變量的比對(duì)組合,如兩個(gè)變量的差值與另外兩個(gè)變量的差值的比值。變量數(shù)目越多,增長(zhǎng)越快。搜索這樣的參數(shù)空間本身就是一個(gè)難度很大的優(yōu)化問題,不僅因?yàn)榭臻g規(guī)模,更是因?yàn)榇蠖鄶?shù)方程都與決定信用無關(guān)。
盡管如此,仍有很多首選方法對(duì)這樣的空間進(jìn)行自動(dòng)搜索,包括但不僅限于:暴力算法、簡(jiǎn)單的爬山算法(計(jì)算機(jī)以一個(gè)隨機(jī)的樣例方程開始,逐漸修改它來建造一個(gè)更好的方程)、模擬退火算法(爬山算法的改進(jìn)版,保證能在給定的時(shí)間內(nèi)找到可能的最優(yōu)值)、集合論里普遍承認(rèn)的方法或其它離散搜索方法。
這些方法并沒有預(yù)先定義什么是一個(gè)好的轉(zhuǎn)換,也沒有定義如何衡量一個(gè)轉(zhuǎn)換比另外一個(gè)好多少。所以當(dāng)使用這些方法搜索時(shí),為了進(jìn)行風(fēng)險(xiǎn)評(píng)估同時(shí)選擇使得空間搜索可行的搜索計(jì)算框架,需要對(duì)“更好“進(jìn)行定義。
以上所述,僅為本發(fā)明較佳的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。