一種構(gòu)建及驗(yàn)證信用評(píng)分方程過程中的元變量設(shè)計(jì)方法與流程

文檔序號(hào)：12674366閱讀：189來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種構(gòu)建及驗(yàn)證信用評(píng)分方程過程中的元變量設(shè)計(jì)方法與流程

本發(fā)明涉及信用評(píng)分技術(shù)領(lǐng)域，尤其涉及一種構(gòu)建及驗(yàn)證信用評(píng)分方程過程中的元變量設(shè)計(jì)方法。

背景技術(shù)：

日常購買行為中被人們廣泛使用。在50年代的美國(guó)，信用決策由銀行信審員制定，通常由于信審員和申請(qǐng)人在一個(gè)地區(qū)居住并熟悉申請(qǐng)人，那么信審員基于對(duì)申請(qǐng)人的了解決定是否發(fā)放貸款。此法雖然有效卻也非常有限，因?yàn)樾艑弳T的數(shù)目總是要比申請(qǐng)人的數(shù)目少很多。到了70年代，F(xiàn)ICO分的出現(xiàn)極大助力了信貸的審批，有效地降低了信貸審批過程對(duì)信審員的依賴。但是，風(fēng)控的功能仍然不完整。諸如銀行和信用卡公司之類的貸款方使用信用分?jǐn)?shù)來評(píng)估借錢給消費(fèi)者后的潛在風(fēng)險(xiǎn)。為了決定誰將獲得貸款，銀行使用信用評(píng)分方程來衡量個(gè)人或?qū)嶓w的信用價(jià)值。傳統(tǒng)的信用評(píng)分方程通常使用的變量數(shù)目較少，而且變量的轉(zhuǎn)換也是人工完成。

傳統(tǒng)信用分的方法包括三個(gè)步驟。首先，觀察樣本的每個(gè)變量(比如薪水，已貸的使用情況，還款歷史等)。其次，系統(tǒng)通過離散化給每個(gè)變量賦值(比如用數(shù)字0到10來描述還款頻率，0代表沒有還款歷史，1代表基本不經(jīng)常還，10代表每次都按時(shí)還款)。最后，在所有變量都經(jīng)過數(shù)值轉(zhuǎn)化后，系統(tǒng)將使用一個(gè)既有的固定的公式，或者編寫公式，或者一個(gè)機(jī)器學(xué)習(xí)算法來構(gòu)建一個(gè)公式從而產(chǎn)生一組信用分?jǐn)?shù)。

傳統(tǒng)的變量轉(zhuǎn)換方法在上世紀(jì)50和60年代得到了很大發(fā)展，當(dāng)時(shí)計(jì)算能力和信息獲取都是非常困難的。因此可想而知，傳統(tǒng)的變量轉(zhuǎn)換通常是非常簡(jiǎn)單，且僅局限于：1)易于填充數(shù)值的單個(gè)數(shù)值型變量；2)存在明顯量化解釋的非數(shù)值變量；3)取值種類非常少的字符型變量。例如，這些傳統(tǒng)的變換方式對(duì)于以下的變量相對(duì)管用：薪水(數(shù)值型變量)，日期和時(shí)間(可轉(zhuǎn)化為儒略日)，地址(可按經(jīng)緯度來考慮)，甚至還款頻率(以月付，半月付，周付，兩周付的頻率模式等)。甚至可以計(jì)算字段之間易于發(fā)現(xiàn)的關(guān)聯(lián)，比如兩個(gè)日期之間的間隔，或兩個(gè)地點(diǎn)之間的距離。

然而，傳統(tǒng)的變量轉(zhuǎn)換方法對(duì)于多組變量并不完全適用，特別是當(dāng)數(shù)據(jù)存在部分或全部缺失的情況。對(duì)于無法被轉(zhuǎn)換的變量更是完全不適用。例如，“Folsom State Prison”的地址記錄可能被寫成“P.O.Box 910,Represa,Calif.95673”或者“300Prison Road,Represa,Calif.95671”,但是兩個(gè)地址寫法其實(shí)是同一個(gè)地址。假設(shè)一位貸款人的申請(qǐng)文件上兩個(gè)地址都列了，那么傳統(tǒng)的信用打分公式可能錯(cuò)誤地認(rèn)為此申請(qǐng)人有對(duì)應(yīng)2個(gè)不同地址的2份工作，其職業(yè)看上去比較不穩(wěn)定，從而決定降低此人的信用分。

除此之外，傳統(tǒng)的變量轉(zhuǎn)換方法一般只能用于修正字符型變量(比如地址)中的拼寫或大小寫錯(cuò)誤。因?yàn)槲幕R(shí)和理解上的局限性，相對(duì)先進(jìn)的轉(zhuǎn)換也只是靠人工識(shí)別而非機(jī)器學(xué)習(xí)算法來完成。例如，一個(gè)人工分析員在分析“P.O.Box 910,Represa,Calif.95673”和“Post Office Box 910,Represa,Calif 95671”這兩個(gè)地址的時(shí)候無法理解它們其實(shí)是同一個(gè)地方。一個(gè)通常的解決辦法是請(qǐng)人來將地址按照USPS的標(biāo)準(zhǔn)規(guī)范化。但是，在規(guī)范化的過程中，一些非常有用的諸如申請(qǐng)人是否使用了大寫和小寫或只有小寫的信息可能會(huì)丟失。

由于質(zhì)量控制需要的原因，傳統(tǒng)變量轉(zhuǎn)換方法也受到能處理的數(shù)據(jù)量的限制。每一次的轉(zhuǎn)換和填充都需要人工花相當(dāng)多的時(shí)間來分析一個(gè)或多個(gè)字段以及謹(jǐn)慎決定如何填充數(shù)值。因此，能有效分析的字段的數(shù)量限制在了，在一定的時(shí)間段內(nèi)單人能夠理解的范圍內(nèi)。也正是因?yàn)檫@個(gè)原因，很少風(fēng)險(xiǎn)模型能使用超過數(shù)十個(gè)字段(例如，F(xiàn)ICO分是基于5個(gè)基本的維度，包括還款歷史，信用卡使用，信用歷史，所用信用類別，近期信用搜索記錄)。沒有一個(gè)傳統(tǒng)的變量轉(zhuǎn)換方法能同時(shí)考慮數(shù)以百計(jì)(千記，萬記，甚至百萬級(jí)別的更少)的字段。而自動(dòng)化的模型中增加這些變量，將使得評(píng)分結(jié)果能夠模擬過去信審人員的準(zhǔn)確率同時(shí)還能保持甚至增加信用審批量。

因此，提升和改進(jìn)用來建立和驗(yàn)證信用評(píng)分模型的變量轉(zhuǎn)換方法也就變得日趨重要。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的是為了解決現(xiàn)有技術(shù)中存在的缺點(diǎn)，而提出的一種構(gòu)建及驗(yàn)證信用評(píng)分方程過程中的元變量設(shè)計(jì)方法。

為了實(shí)現(xiàn)上述目的，本發(fā)明采用了如下技術(shù)方案：

一種構(gòu)建及驗(yàn)證信用評(píng)分方程過程中的元變量設(shè)計(jì)方法，其特征在于：中央計(jì)算機(jī)服務(wù)器與公共網(wǎng)絡(luò)連接，中央計(jì)算機(jī)服務(wù)器有個(gè)基于一系列指令的計(jì)算機(jī)可用媒介，該指令由處理器執(zhí)行，包括如下：

1)通過公共網(wǎng)絡(luò)從以下至少一個(gè)數(shù)據(jù)源搜索和收集借款人的數(shù)據(jù)集：借款人、私有數(shù)據(jù)、公共數(shù)據(jù)或社交網(wǎng)絡(luò)數(shù)據(jù)源；

2)將數(shù)據(jù)集轉(zhuǎn)換成一些與借款人信用風(fēng)險(xiǎn)相關(guān)的變量；

3)用統(tǒng)計(jì)或機(jī)器學(xué)習(xí)的方法獨(dú)立處理每一個(gè)變量來產(chǎn)生描述借款人特定方面的元變量。

優(yōu)選的，從借款人處收集借款人數(shù)據(jù)可以通過公共網(wǎng)絡(luò)進(jìn)行現(xiàn)場(chǎng)采訪或通過用戶填寫在線調(diào)查問卷完成。

優(yōu)選的，從私有數(shù)據(jù)處收集借款人數(shù)據(jù)，包括如下：

1)為私人提供借款人特定數(shù)據(jù)的子集的數(shù)據(jù)供應(yīng)商；

2)從數(shù)據(jù)供應(yīng)商處收集全部或部分借款人的相關(guān)數(shù)據(jù)存儲(chǔ)到變量數(shù)據(jù)庫中。

優(yōu)選的，從公共數(shù)據(jù)處收集借款人數(shù)據(jù)，包括如下：

1)進(jìn)行字符串搜索、自動(dòng)爬取或用項(xiàng)目或協(xié)議獲?。?/p>

2)收集所有返回的結(jié)果并存儲(chǔ)到變量數(shù)據(jù)庫中。

優(yōu)選的，從社交網(wǎng)絡(luò)數(shù)據(jù)中收集借款人數(shù)據(jù)，包括如下：

1)在社交網(wǎng)絡(luò)上搜索借款人發(fā)布的數(shù)據(jù)；

2)在社交網(wǎng)絡(luò)上搜索借款人相關(guān)的數(shù)據(jù)，由社交媒介服務(wù)器編譯；

3)在社交網(wǎng)絡(luò)上搜索借款人社交網(wǎng)絡(luò)上部分或全部成員的社交圖譜信息，從而借款人檔案和社交網(wǎng)絡(luò)數(shù)據(jù)之間有一度或多度的分離；

4)收集所有返回的結(jié)果存儲(chǔ)到變量數(shù)據(jù)庫中。

優(yōu)選的，將數(shù)據(jù)集轉(zhuǎn)換成多個(gè)變量，通過將收集到的數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)日期格式、標(biāo)準(zhǔn)時(shí)間格式、范圍、百分等級(jí)、經(jīng)緯度等來完成。

優(yōu)選的，用統(tǒng)計(jì)或機(jī)器學(xué)習(xí)的方法獨(dú)立處理每一個(gè)變量來產(chǎn)生描述借款人特定方面的元變量，包括如下：

1)把借款人每一個(gè)變量的數(shù)據(jù)與借款人檔案中其它變量的數(shù)據(jù)比較；

2)把借款人每一個(gè)變量的數(shù)據(jù)與其他和借款人有相似特征、相似處境的人群的平均期望比較；

3)比較借款人在準(zhǔn)備申請(qǐng)貸款期間的行為。

優(yōu)選的，產(chǎn)生元變量過程，包括如下：

1)通過使用風(fēng)險(xiǎn)分離技術(shù)或復(fù)雜統(tǒng)計(jì)技術(shù)找出預(yù)測(cè)子集，從而分析數(shù)據(jù)，找出至少有一個(gè)共同特征的申請(qǐng)人類別；

2)使用線性回歸或回歸樹將類別成員從不能可靠產(chǎn)生相關(guān)信號(hào)的非類別成員中區(qū)分出來；

3)選擇出衡量某特定類別不同方面的元變量。

與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果是：本發(fā)明主要提供了用來建立和驗(yàn)證信用評(píng)分模型的變量轉(zhuǎn)換方法，有效地變量轉(zhuǎn)換方法是在第一臺(tái)電腦上對(duì)每個(gè)新借款人的基礎(chǔ)數(shù)據(jù)都產(chǎn)生一個(gè)數(shù)據(jù)集(原始數(shù)據(jù))，把這些數(shù)據(jù)集都標(biāo)準(zhǔn)化為一系列變量(轉(zhuǎn)化數(shù)據(jù))。

附圖說明

圖1是“信息缺失型”借款人提供信用的系統(tǒng)方框圖中關(guān)于變量轉(zhuǎn)換的流程；

圖2是本發(fā)明所推薦的建立和驗(yàn)證信用評(píng)估方程的系統(tǒng)框圖；

圖3是用來描述在建立和驗(yàn)證信用評(píng)估過程中處理原始數(shù)據(jù)100的方法流程圖；

圖4是用來描述識(shí)別顯著的變量轉(zhuǎn)換方法的流程圖。

具體實(shí)施方式

為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白，以下結(jié)合具體實(shí)施例，對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解，此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。

實(shí)施例1

2)將數(shù)據(jù)集轉(zhuǎn)換成一些與借款人信用風(fēng)險(xiǎn)相關(guān)的變量；

3)用統(tǒng)計(jì)或機(jī)器學(xué)習(xí)的方法獨(dú)立處理每一個(gè)變量來產(chǎn)生描述借款人特定方面的元變量。

從借款人處收集借款人數(shù)據(jù)可以通過公共網(wǎng)絡(luò)進(jìn)行現(xiàn)場(chǎng)采訪或通過用戶填寫在線調(diào)查問卷完成。

從私有數(shù)據(jù)處收集借款人數(shù)據(jù)，包括如下：

1)為私人提供借款人特定數(shù)據(jù)的子集的數(shù)據(jù)供應(yīng)商；

2)從數(shù)據(jù)供應(yīng)商處收集全部或部分借款人的相關(guān)數(shù)據(jù)存儲(chǔ)到變量數(shù)據(jù)庫中。

從公共數(shù)據(jù)處收集借款人數(shù)據(jù)，包括如下：

1)進(jìn)行字符串搜索、自動(dòng)爬取或用項(xiàng)目或協(xié)議獲??；

2)收集所有返回的結(jié)果并存儲(chǔ)到變量數(shù)據(jù)庫中。

從社交網(wǎng)絡(luò)數(shù)據(jù)中收集借款人數(shù)據(jù)，包括如下：

1)在社交網(wǎng)絡(luò)上搜索借款人發(fā)布的數(shù)據(jù)；

2)在社交網(wǎng)絡(luò)上搜索借款人相關(guān)的數(shù)據(jù)，由社交媒介服務(wù)器編譯；

4)收集所有返回的結(jié)果存儲(chǔ)到變量數(shù)據(jù)庫中。

將數(shù)據(jù)集轉(zhuǎn)換成多個(gè)變量，通過將收集到的數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)日期格式、標(biāo)準(zhǔn)時(shí)間格式、范圍、百分等級(jí)、經(jīng)緯度等來完成。

用統(tǒng)計(jì)或機(jī)器學(xué)習(xí)的方法獨(dú)立處理每一個(gè)變量來產(chǎn)生描述借款人特定方面的元變量，包括如下：

1)把借款人每一個(gè)變量的數(shù)據(jù)與借款人檔案中其它變量的數(shù)據(jù)比較；

2)把借款人每一個(gè)變量的數(shù)據(jù)與其他和借款人有相似特征、相似處境的人群的平均期望比較；

3)比較借款人在準(zhǔn)備申請(qǐng)貸款期間的行為。

產(chǎn)生元變量過程，包括如下：

2)使用線性回歸或回歸樹將類別成員從不能可靠產(chǎn)生相關(guān)信號(hào)的非類別成員中區(qū)分出來；

3)選擇出衡量某特定類別不同方面的元變量。

借款人使用端”一般指臺(tái)式電腦，筆記本電腦，平板電腦，移動(dòng)端如智能手機(jī)或者個(gè)人數(shù)字化助理，智能電視，游戲手柄，視頻播放器，或任何其他帶有網(wǎng)絡(luò)瀏覽器或可設(shè)置與中心電腦/個(gè)人使用端進(jìn)行數(shù)據(jù)交互的自成應(yīng)用的網(wǎng)絡(luò)裝置，與/或一個(gè)或多個(gè)在系統(tǒng)10里面的組成部分。

在本文中，”個(gè)人使用端”一般指臺(tái)式電腦，筆記本電腦，平板電腦，移動(dòng)端如智能手機(jī)或者個(gè)人數(shù)字化助理，智能電視，游戲手柄，視頻播放器，或任何其他帶有網(wǎng)絡(luò)瀏覽器或可設(shè)置與中心電腦/借款人使用端進(jìn)行數(shù)據(jù)交互的自成應(yīng)用的網(wǎng)絡(luò)裝置，與/或一個(gè)或多個(gè)在系統(tǒng)10里面的組成部分。

在本文中，”中心電腦”一般指一臺(tái)或多臺(tái)配置用于接收，變換，配置，分析，合成，通訊，和/或處理和借款人相關(guān)的數(shù)據(jù)的子模塊或機(jī)器，比如一個(gè)標(biāo)準(zhǔn)化處理單元(40)，一個(gè)變量處理的節(jié)點(diǎn)單位(50)，和一個(gè)通訊的中心(90)。任何之后的子模塊或機(jī)器可以選擇被集成進(jìn)一個(gè)獨(dú)立工作的單位，或者通過網(wǎng)絡(luò)或云資源被分散到多個(gè)硬件單位里。除此之外，中心電腦可以被配置與個(gè)人使用端，借款人使用端，一個(gè)或多個(gè)系統(tǒng)10的部件進(jìn)行部分或全部數(shù)據(jù)的接受，交互。此部分在Merrill的專利申請(qǐng)里面有詳細(xì)描述。

在本文中，”私有數(shù)據(jù)”一般指通過向私有或公有數(shù)據(jù)擁有者購買得到的數(shù)據(jù)，包括但不限于各種數(shù)據(jù)源，數(shù)據(jù)庫，數(shù)據(jù)文件。一個(gè)例子是由信用評(píng)估機(jī)構(gòu)在信用查詢階段產(chǎn)生的數(shù)據(jù)。另外一個(gè)例子是基于公開的數(shù)據(jù)，經(jīng)過時(shí)間或不同來源的聚集而形成的新數(shù)據(jù)。

在本文中，”公開數(shù)據(jù)”一般指可以免費(fèi)或微小代價(jià)通過搜索引擎，自動(dòng)爬取或scrapes得到的數(shù)據(jù)。一個(gè)公開數(shù)據(jù)的例子是通過在網(wǎng)絡(luò)上搜索借款人的名字而得到的數(shù)據(jù)。

在本文中，”社交網(wǎng)絡(luò)數(shù)據(jù)”一般指在社交網(wǎng)絡(luò)空間里任何關(guān)于借款人的數(shù)據(jù)，或博客，發(fā)帖，微博，連接，好友，“喜歡”的點(diǎn)擊，好友圈，追隨者，追隨的人和社交圖譜等。除此之外，社交數(shù)據(jù)還包括任何借款人在社交網(wǎng)絡(luò)中任何或所有成員的社交圖譜信息。通常來講社交數(shù)據(jù)可以通過直接或間接從公開的社交網(wǎng)絡(luò)空間以免費(fèi)或非常小的代價(jià)獲取到。

在本文中，”借款人數(shù)據(jù)”一般指借款人在申請(qǐng)貸款時(shí)填寫在申請(qǐng)表上，或通過借款人的使用端，個(gè)人使用端或者中心電腦的信息。一個(gè)例子是借款人的身份證號(hào)碼，駕照號(hào)碼，生日，或貸款人要求的其他信息。

在本文中，”原始數(shù)據(jù)”一般指借款人數(shù)據(jù)，私有數(shù)據(jù)，公開數(shù)據(jù)和社交網(wǎng)絡(luò)數(shù)據(jù)的單一集合或任意的組合。原始數(shù)據(jù)通常是和借款人相關(guān)的生平，金融和/或社交數(shù)據(jù)的累積，存儲(chǔ)，維護(hù)和使用相關(guān)。

在本文中，”網(wǎng)絡(luò)”一般指全球互聯(lián)網(wǎng)，寬網(wǎng)，廣域網(wǎng)，局域網(wǎng)和/或近場(chǎng)網(wǎng)絡(luò)，網(wǎng)絡(luò)軟件，硬件，固件,路由器，調(diào)制解調(diào)器，網(wǎng)線，收發(fā)器,天線等任意的組合。系統(tǒng)10的部分或全部組件能夠通過有線或無線的方式登錄網(wǎng)絡(luò)，和使用任何合適的通信協(xié)議，層級(jí)，地址，媒體類型，應(yīng)用編程交互，和/或通訊的軟硬件支持。

一個(gè)優(yōu)選的用于建立和驗(yàn)證與優(yōu)選示例配套的信用評(píng)估的操作環(huán)境一般包括：一個(gè)借款人使用端(12)，一個(gè)個(gè)人使用端(30)，一個(gè)中心電腦(20)，一個(gè)網(wǎng)絡(luò)(40)，一個(gè)或多個(gè)數(shù)據(jù)源包括比如借款人數(shù)據(jù)(13)，私有數(shù)據(jù)(14)，公開數(shù)據(jù)(16)和社交網(wǎng)絡(luò)數(shù)據(jù)(18)。優(yōu)選的系統(tǒng)(10)包括至少一個(gè)中心電腦(20)，和/或一個(gè)個(gè)人使用端(30)，能夠單獨(dú)或與其他部分一起為借款人基于新穎的非傳統(tǒng)的衡量基準(zhǔn)來提供貸款的渠道。特別需要指出的是，此優(yōu)選的系統(tǒng)(10)能夠通過獲取，評(píng)估，衡量，量化和使用接下來描述的基于新型風(fēng)險(xiǎn)評(píng)估的辦法和在Merrill的專利申請(qǐng)里面出現(xiàn)的系統(tǒng)和方法(見附錄)來判定借款人的信用程度，特別是包括那些信用不佳的借款人。

更具體的來說，本發(fā)明和用于建立和驗(yàn)證一種信用評(píng)估的優(yōu)選方法相關(guān)。在所有的原始數(shù)據(jù)被臨時(shí)搜集或從借款人使用端(12)，中心電腦(20)，個(gè)人使用端(30)，和/或諸如借款人數(shù)據(jù)(13)，私有數(shù)據(jù)(14)，公開數(shù)據(jù)(16)和社交網(wǎng)絡(luò)數(shù)據(jù)(18)的一個(gè)或多個(gè)數(shù)據(jù)源下載后，通過一個(gè)中心電腦(20)和一個(gè)個(gè)人使用端(30)來完成信用評(píng)估。

建立和驗(yàn)證信用評(píng)估過程中處理原始數(shù)據(jù)100的方法流程圖。

第一步，通過借款人的借款人數(shù)據(jù)(13)，私有數(shù)據(jù)(14)，公開數(shù)據(jù)(16)和社交網(wǎng)絡(luò)數(shù)據(jù)(18)其中一個(gè)或多個(gè)產(chǎn)生原始數(shù)據(jù)100。例如，原始數(shù)據(jù)100可能包括借款人的傳統(tǒng)的金融數(shù)據(jù)如FICO分?jǐn)?shù)，收入，最近工作的年限，破產(chǎn)的數(shù)目等。除此之外，原始數(shù)據(jù)100還可能包括借款人的其他的特質(zhì)，比如互聯(lián)網(wǎng)域名的數(shù)目，借款人曾經(jīng)或現(xiàn)在加入的組織的數(shù)目，借款人曾卷入的法律訴訟的數(shù)目，借款人的朋友的數(shù)量，借款人的基于興趣的心理特質(zhì)，和其他關(guān)于申請(qǐng)人的身份及歷史的非傳統(tǒng)的特征。其他一些例子還包括：

一個(gè)用于比對(duì)的例子(下同)如下：從原始數(shù)據(jù)100取樣出一個(gè)虛構(gòu)的借款人A女士(信用預(yù)期較好)，和另一個(gè)同是虛構(gòu)的借款人B先生(被拒的申請(qǐng)人)。兩人都住和工作在同一地方，具體信息如下：

第二步，原始數(shù)據(jù)經(jīng)過多種變換成為最有用的數(shù)據(jù)形式120。比如”當(dāng)前收入”變量可以直接使用，或轉(zhuǎn)換到級(jí)別/層級(jí)上(0＝?jīng)]有收入；1＝$1-$5000；2＝$5001-$20000,等)，或轉(zhuǎn)換為在和申請(qǐng)人住地的收入水平比對(duì)后產(chǎn)生的預(yù)計(jì)收入的百分位。地址變量可以被轉(zhuǎn)換為(經(jīng)度，緯度)，這樣可以通過計(jì)算球面距離判別兩個(gè)地址實(shí)質(zhì)上為同一個(gè)地方的可能性。如果申請(qǐng)是通過網(wǎng)頁提交的，那么通過網(wǎng)頁瀏覽留下的行為記錄，比如申請(qǐng)人瀏覽過的網(wǎng)頁數(shù)目，申請(qǐng)人在申請(qǐng)頁面停留的時(shí)間都能被用在對(duì)其信用的評(píng)估上。

因此，一臺(tái)電腦(如圖2中的中心電腦20)應(yīng)該能夠使用一個(gè)或多個(gè)算法(統(tǒng)計(jì)，金融，機(jī)器學(xué)習(xí)等)獨(dú)立地處理每一個(gè)變量來產(chǎn)生用于描述借款人特征的獨(dú)立決策集(元變量140)。假設(shè)原始數(shù)據(jù)里有40個(gè)字段，那么通過任意兩個(gè)離散變量的組合就可以產(chǎn)生40*40＝1600個(gè)組合，40*40*40＝64000個(gè)基于任意三個(gè)離散變量的組合，以及40*40*40*40＝2560000個(gè)基于任意四個(gè)離散變量的組合……由此可見，如果原始數(shù)據(jù)有120個(gè)字段的話，那么有可能的組合將會(huì)是幾何級(jí)數(shù)的增長(zhǎng)。

借款人的“當(dāng)前收入”可以和同一地區(qū)在同行業(yè)就業(yè)人群的平均收入比較。類似的，如果A申請(qǐng)人在申請(qǐng)過程中的行為記錄顯示其在申請(qǐng)中非常小心謹(jǐn)慎，而申請(qǐng)人B的記錄顯示其在申請(qǐng)過程中非常隨意和無所謂。這種情況下我們可以生成一個(gè)取值范圍是0-2的排序變量，0代表非常隨意，而2代表非常謹(jǐn)慎。那么A在此變量上的賦值傾向于更高，例如2，而B的得分傾向于更低，例如會(huì)趨近于0。

元變量的一個(gè)目的是用于衡量信用，然而這不是元變量唯一的作用。例如，它還可以用于信用評(píng)估方程構(gòu)建的中間階段。設(shè)計(jì)中間元變量的三個(gè)主要原因在于，首先，選擇定義信用評(píng)估方程的參數(shù)所需的投入要比參數(shù)數(shù)量本身所需耗費(fèi)的資源增長(zhǎng)更快。例如對(duì)于一個(gè)回歸模型來說，選擇n個(gè)參數(shù)所需時(shí)間通常是n的立方。這就意味著如果有幾百個(gè)參數(shù)需要直接估計(jì)的話，所需的計(jì)算時(shí)間基本是不可能實(shí)現(xiàn)的。相比之下，如果這幾百個(gè)參數(shù)所包含的信息可以被小集合的元變量來覆蓋的話，那么所需的計(jì)算時(shí)間能被大大降低。其次，需要估計(jì)的參數(shù)越少，最終的評(píng)分模型的性能通常也就越穩(wěn)定和可靠。優(yōu)化系統(tǒng)的參數(shù)越多，自由度越大，參數(shù)選擇過程所需的信息也就越多。使用元變量可以降低模型所依賴的參數(shù)的數(shù)量。第三，元變量是可以重復(fù)使用的。如果一個(gè)元變量為一個(gè)信用評(píng)分系統(tǒng)提供了有用信息，那么它很可能也會(huì)為其他的信用評(píng)分系統(tǒng)提供有用信息，即便這些其他的信用評(píng)分系統(tǒng)所評(píng)估的風(fēng)險(xiǎn)和元變量原本所描述的風(fēng)險(xiǎn)不是非常相關(guān)。

元變量也可以用于對(duì)借款人進(jìn)行“真實(shí)性檢驗(yàn)”。例如，前文中提到的B先生，由于他所報(bào)告的收入比他同地區(qū)同行業(yè)的人要高出50％，所以他基本不會(huì)通過這個(gè)真實(shí)性檢驗(yàn)。類似的，A女士在“是否為小心的客戶”測(cè)試上得分為2，而2分通常被認(rèn)為是信用較好的。B先生在同一測(cè)試上的得分則是0–一個(gè)信用較差的信號(hào)。最后，A女士通常會(huì)在“個(gè)人穩(wěn)定性”指標(biāo)上得分較高，基于其過去住址和電話都變換較少，而B先生在此項(xiàng)上會(huì)得分較低。

除此之外，針對(duì)元變量的統(tǒng)計(jì)分析對(duì)于哪些“信號(hào)”值得分析，每個(gè)信號(hào)的權(quán)重應(yīng)該是多少有指導(dǎo)意義。例如，住址的連續(xù)可以認(rèn)為是一個(gè)“正向”的信號(hào)，而地址的多樣性可能不會(huì)有任何指向性。本發(fā)明的優(yōu)選實(shí)施例對(duì)于這種決策也有類似的指導(dǎo)意義。事實(shí)上，構(gòu)建元變量可能不會(huì)是一個(gè)全自動(dòng)的過程，而是一個(gè)啟發(fā)式的過程，需要專業(yè)技能。但是通常產(chǎn)生元變量的過程如下文概述。(本文件以貸款風(fēng)險(xiǎn)評(píng)估相關(guān)的元變量的產(chǎn)生為例子，但是此方法適用面很廣)。首先，數(shù)據(jù)分析員鑒別出一類具有某些共同屬性的貸款申請(qǐng)人，可能是貸款風(fēng)險(xiǎn)高于或低于平均值的申請(qǐng)人。之前假定的“個(gè)人穩(wěn)定性“和”謹(jǐn)慎的申請(qǐng)人“的例子就能容易地被鑒別出來，數(shù)據(jù)分析員會(huì)注意到地址數(shù)量很少的人有相對(duì)較低的信用風(fēng)險(xiǎn)，而地址數(shù)很多的人有相對(duì)較高的信用風(fēng)險(xiǎn)。該類可以用很多方法鑒別出來，比如人工檢查申請(qǐng)和結(jié)果、找出可以區(qū)別風(fēng)險(xiǎn)高低的特征、用復(fù)雜的統(tǒng)計(jì)方法－聚類分析來處理被已有打分過程錯(cuò)誤預(yù)測(cè)的申請(qǐng)人，去找到具有預(yù)測(cè)能力的子集。

元變量的目的是產(chǎn)生一個(gè)實(shí)數(shù)分使得不同類的成員可以區(qū)分開來。這點(diǎn)通常是由一個(gè)基本的機(jī)器學(xué)習(xí)過程實(shí)現(xiàn)的，它將一個(gè)或多個(gè)相對(duì)簡(jiǎn)單的可以區(qū)分群類的表達(dá)式組合起來。表達(dá)式可以是利用少量被測(cè)信號(hào)(可能包括已知的元變量)構(gòu)建的線性回歸方程或分類器或回歸樹。使元變量區(qū)別于一個(gè)真實(shí)的打分方程的關(guān)鍵特征是(1)簡(jiǎn)單性和穩(wěn)定性比準(zhǔn)確性重要，元變量本身不需要總是正確的，但是即使環(huán)境改變，元變量也必須是可以依賴的可靠信號(hào)(2)其目標(biāo)是提供部分打分問題的相關(guān)信號(hào)而不是直接給出最終值。

單一種類的申請(qǐng)文件或申請(qǐng)人可以容易地推出幾個(gè)描述該類不同方面的元變量。類似的，一份申請(qǐng)文件可以充當(dāng)多個(gè)類別的例子。事實(shí)上通過這種方式，申請(qǐng)文件提供了關(guān)于元變量該如何組合到最終的打分方程中去的思路。

在首選方法中，原始數(shù)據(jù)100中的數(shù)據(jù)被收集、清洗、轉(zhuǎn)換成最有用的形式，組合成元變量描述買方的某些方面，下一步將引入到不同的模型中，最后合成出一個(gè)分?jǐn)?shù)用來進(jìn)行最后的信用決策。

詳細(xì)方法：

為了識(shí)別顯著轉(zhuǎn)換，首選模型先引入原始數(shù)據(jù)100到以下的轉(zhuǎn)換過程：(a)連續(xù)變換的自動(dòng)搜索220(b)直接的泛函變換240(c)復(fù)雜的泛函變換260，可能會(huì)生成新轉(zhuǎn)換的變量120和/或新的元變量140。

連續(xù)變換的自動(dòng)搜索220包括應(yīng)用標(biāo)準(zhǔn)的變量解釋方法，比如(a)將字符串變量因子化轉(zhuǎn)化為相對(duì)較少的取值，并且在必要時(shí)將這些字段轉(zhuǎn)換成指示型類別(b)將可能是布爾項(xiàng)的變量轉(zhuǎn)換為雙精度浮點(diǎn)型(c)將日期轉(zhuǎn)換成相對(duì)于一個(gè)或多個(gè)基本時(shí)間戳的時(shí)間間隔；(d)將地址或其他地理位置數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)形式，如經(jīng)緯度。對(duì)連續(xù)變換過程應(yīng)用自動(dòng)搜索220通常會(huì)生成轉(zhuǎn)換變量120和/或元變量140。然而，如果對(duì)連續(xù)變換過程應(yīng)用自動(dòng)搜索220之后認(rèn)為一個(gè)或多個(gè)原始數(shù)據(jù)100中的變量是不需要操作的，數(shù)據(jù)可能無法被轉(zhuǎn)換并以原始格式通過。例如，可以將四個(gè)標(biāo)準(zhǔn)支付模式(每周，每?jī)芍?，每半月，每?作為有四個(gè)層次的因子變量，或作為一組四個(gè)二進(jìn)制變量(其中一個(gè)是1其他三個(gè)是0)。這兩種解釋都是這種轉(zhuǎn)換的標(biāo)準(zhǔn)且可執(zhí)行的例子。

舉例說明，一個(gè)取值可以分為“每周付“，”每雙周付“，”每半月付“和“每月付”的變量可以被轉(zhuǎn)換成取值為1到4的整型變量或四組四重值，分別是(1,0,0,0)，(0,1,0,0),(0,0,1,0)和(0,0,0,1)，這取決于以后想如何使用該變量。取值為“真”或“假”的變量可以被轉(zhuǎn)換成0.0和1.0。日期可以被轉(zhuǎn)換成與某一個(gè)起始日期之間的間隔(比如1960年10月18日可以表示為距1900年1月1日起的第22205天)。地址“300PrisonRoad,Represa,Calif.95671可以用地理坐標(biāo)經(jīng)緯度表示成北緯38.6931度，西經(jīng)121.1617度，也就是距北緯38.8977度，西經(jīng)77.0366度(1600Pennsylvania Avenue,Washington,D.C.)的地址有23530.62英里遠(yuǎn)。有了這些地理信息，電腦就可以自動(dòng)判斷出一位住在第一個(gè)地址的人是不太可能在第二個(gè)地址工作的。(看到這兩個(gè)地址的人會(huì)知道居住在300PrisonRoad,Represa,Calif.95671的人是加州最老最安全的監(jiān)獄里的犯人，是不可能在白宮工作的，而電腦不需要這些文化知識(shí)也可以得出相同的結(jié)論)。

連續(xù)變換的自動(dòng)搜索220所生成的轉(zhuǎn)換變量120和/或元變量140緊接著進(jìn)入到直接的泛函變換240，比如：(a)單一或小組變量轉(zhuǎn)換為結(jié)果相關(guān)的指標(biāo)，比如，推斷的成功概率或某些結(jié)果變量的期望值(比如：基于變量特定值計(jì)算得到單筆貸款的預(yù)期收益)；(b)變量的簡(jiǎn)單泛函變換(比如：如果一個(gè)字段包含一個(gè)特定類型事件的發(fā)生次數(shù)，那么該字段將會(huì)遵循泊松分布。該字段的平方根將遵循一定均值和方差的高斯分布)。此外，直接的泛函變換240可以采用其他統(tǒng)計(jì)算法作為預(yù)測(cè)變量，例如包括馬氏距離測(cè)量(如傳統(tǒng)的歐氏距離測(cè)量，高階的距離測(cè)量，海明距離測(cè)量)，非正態(tài)分布的距離測(cè)量，和/或一個(gè)余弦變換。直接泛函變換240的應(yīng)用通常會(huì)生成額外的轉(zhuǎn)換變量120和/或元變量140。然而，如果直接泛函變換240認(rèn)為原始數(shù)據(jù)集100中的一個(gè)或多個(gè)變量不需要操作，數(shù)據(jù)就不會(huì)被轉(zhuǎn)換并以其原始形式通過。

舉前面提到的距離例子進(jìn)一步說明，我們可以把距離轉(zhuǎn)換成一種概率用來描述當(dāng)給定居住地和工作地點(diǎn)之間的距離后此人的還貸可能性。按道理，對(duì)于家和工作地點(diǎn)在同一地方的人該概率會(huì)比較低，然后隨著距離的增加先上升再下降。在直接泛函變換240的中間步驟中，本發(fā)明的首選方法會(huì)檢查借款人的所有地址信息，然后決定這些地址是否能夠使家和工作地點(diǎn)間的距離在合理范圍內(nèi)，再驗(yàn)證地址數(shù)據(jù)集。

最后，連續(xù)變換的自動(dòng)搜索220或直接泛函變換240所生成的轉(zhuǎn)換變量120和/或元變量140再進(jìn)入到復(fù)雜泛函變換260，比如(a)用仔細(xì)選擇和/或構(gòu)造的函數(shù)對(duì)單一或小組變量進(jìn)行轉(zhuǎn)換；(b)兩者間的距離(即：數(shù)值域的差的絕對(duì)值，空間中歐幾里得或出租車的距離，甚至是文本域中字符串編輯距離(最后一個(gè)在處理用戶輸入時(shí)非常有用，可以區(qū)分錯(cuò)誤和詐騙))；(c)比率(例如：債務(wù)服務(wù)負(fù)荷對(duì)家庭可支配收入的比率)；(d)其它幾何變換(例如：一個(gè)k型集群區(qū)域的測(cè)量，距離的泛化，和/或其他穩(wěn)定性的復(fù)雜測(cè)量作為地址的函數(shù))；(e)為數(shù)據(jù)定制的泛函變換。復(fù)雜泛函變換260通常會(huì)生成額外的轉(zhuǎn)換變量120和/或元變量140。然而，如果復(fù)雜功能轉(zhuǎn)換260認(rèn)為原始數(shù)據(jù)集100中的一個(gè)或多個(gè)變量不需要操作，數(shù)據(jù)就不會(huì)被轉(zhuǎn)換并以其原始形式通過。

參照上面兩段的例子。其中元變量能被用于把距離轉(zhuǎn)換成一種概率從而描述一個(gè)家和工作地點(diǎn)距離這么遠(yuǎn)的人的還貸可能性是多少。最后的中間環(huán)節(jié)是復(fù)雜泛函變換260用來確定借款人的就業(yè)穩(wěn)定性。在一定程度上，人在一定時(shí)間內(nèi)的住過的地方的數(shù)量服從泊松分布，其均值與所從事的工作數(shù)量成正比。當(dāng)前工作的數(shù)量的平方根和當(dāng)前地址數(shù)量的平方根之間的關(guān)系服從線性關(guān)系加方差為1/4的單變量正態(tài)分布。因此，我們可以把“就是有很多工作”的人從“有比基于工作數(shù)所推出的地址數(shù)還多的地址數(shù)”的人中區(qū)別出來。

創(chuàng)建自定義的泛函變換與大型數(shù)據(jù)分析密切相關(guān)?；谠紨?shù)據(jù)集100的大小，轉(zhuǎn)換后的表達(dá)式(如轉(zhuǎn)換變量120和/或元變量140)的數(shù)目決定了單個(gè)變量的方程可能會(huì)非常大，且多個(gè)變量的方程呈指數(shù)型增長(zhǎng)。假設(shè)原始數(shù)據(jù)里有40個(gè)字段，那么通過任意兩個(gè)離散變量的組合就可以產(chǎn)生40*40＝1，600個(gè)比對(duì)組合，40*40*40＝64，000個(gè)基于任意三個(gè)離散變量的比對(duì)組合，如一個(gè)變量與另外兩個(gè)變量差值的比值，以及40*40*40*40＝2，560，000個(gè)基于任意四個(gè)離散變量的比對(duì)組合，如兩個(gè)變量的差值與另外兩個(gè)變量的差值的比值。變量數(shù)目越多，增長(zhǎng)越快。搜索這樣的參數(shù)空間本身就是一個(gè)難度很大的優(yōu)化問題，不僅因?yàn)榭臻g規(guī)模，更是因?yàn)榇蠖鄶?shù)方程都與決定信用無關(guān)。

盡管如此，仍有很多首選方法對(duì)這樣的空間進(jìn)行自動(dòng)搜索，包括但不僅限于：暴力算法、簡(jiǎn)單的爬山算法(計(jì)算機(jī)以一個(gè)隨機(jī)的樣例方程開始，逐漸修改它來建造一個(gè)更好的方程)、模擬退火算法(爬山算法的改進(jìn)版，保證能在給定的時(shí)間內(nèi)找到可能的最優(yōu)值)、集合論里普遍承認(rèn)的方法或其它離散搜索方法。

這些方法并沒有預(yù)先定義什么是一個(gè)好的轉(zhuǎn)換，也沒有定義如何衡量一個(gè)轉(zhuǎn)換比另外一個(gè)好多少。所以當(dāng)使用這些方法搜索時(shí)，為了進(jìn)行風(fēng)險(xiǎn)評(píng)估同時(shí)選擇使得空間搜索可行的搜索計(jì)算框架，需要對(duì)“更好“進(jìn)行定義。

以上所述，僅為本發(fā)明較佳的具體實(shí)施方式，但本發(fā)明的保護(hù)范圍并不局限于此，任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi)，根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變，都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：顧凌云
技術(shù)所有人：上海冰鑒信息科技有限公司
我是此專利的發(fā)明人

上一篇：一種手術(shù)器械消毒方法與流程
上一篇：一種鑄件制造用模具的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

結(jié)構(gòu)方程模型如何構(gòu)建相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種構(gòu)建及驗(yàn)證信用評(píng)分方程過程中的元變量設(shè)計(jì)方法與流程