本發(fā)明涉及信用評(píng)估技術(shù)領(lǐng)域,更具體地說(shuō),涉及一種個(gè)人信用評(píng)估方法及裝置。
背景技術(shù):
隨著人工智能的發(fā)展,計(jì)算機(jī)技術(shù)被廣泛地應(yīng)用于各種領(lǐng)域,個(gè)人信用評(píng)估問(wèn)題也包含在內(nèi)。個(gè)人信用評(píng)估問(wèn)題就是將貸款申請(qǐng)人分為還款可能性大的好客戶(信用較好)和還款可能性小的壞客戶(信用較差),批準(zhǔn)好客戶的貸款請(qǐng)求,拒絕壞客戶的貸款請(qǐng)求。個(gè)人信用評(píng)估問(wèn)題從實(shí)質(zhì)上講就是一個(gè)分類(lèi)問(wèn)題,分類(lèi)的精度很大程度上決定了銀行的貸款風(fēng)險(xiǎn)大小。
現(xiàn)有技術(shù)中主要采用專(zhuān)家評(píng)分模型解決個(gè)人信用評(píng)估問(wèn)題,具體來(lái)說(shuō),由專(zhuān)家基于其經(jīng)驗(yàn)判斷每個(gè)貸款申請(qǐng)人的信用好壞,進(jìn)而確定貸款請(qǐng)求的批準(zhǔn)與否,但是,這種方式容易因?yàn)閷?zhuān)家的主觀性及隨機(jī)性,導(dǎo)致分類(lèi)精度較低。
綜上所述,如何提供一種分類(lèi)精度較高的個(gè)人信用評(píng)估技術(shù)方案,是目前本領(lǐng)域技術(shù)人員亟待解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種個(gè)人信用評(píng)估方法及裝置,達(dá)到分類(lèi)精度較高的目的。
為了實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
一種個(gè)人信用評(píng)估方法,包括:
獲取訓(xùn)練樣本集,所述訓(xùn)練樣本集包括具有信用標(biāo)簽及多個(gè)信用屬性的訓(xùn)練樣本,所述信用標(biāo)簽為對(duì)對(duì)應(yīng)訓(xùn)練樣本的信用進(jìn)行評(píng)估得到的標(biāo)簽;
選取出分類(lèi)效果最好的信用屬性作為最優(yōu)信用屬性并組成對(duì)應(yīng)的最優(yōu)信用屬性集,將每個(gè)訓(xùn)練樣本中包含的所述最優(yōu)信用屬性集之外的信用屬性去掉,得到對(duì)應(yīng)的最優(yōu)訓(xùn)練樣本集;
采用支持向量機(jī)對(duì)所述最優(yōu)訓(xùn)練樣本集建模,得到支持向量機(jī)分類(lèi)模型;
獲取未知信用標(biāo)簽且僅具有所述最優(yōu)信用屬性的待測(cè)樣本并作為所述支持向量機(jī)分類(lèi)模型的輸入,得到所述待測(cè)樣本的信用標(biāo)簽。
優(yōu)選的,選取出分類(lèi)效果最好的信用屬性作為最優(yōu)信用屬性,包括:
獲取與所述多個(gè)信用屬性對(duì)應(yīng)的權(quán)重向量,并對(duì)所述多個(gè)信用屬性按照所述權(quán)重向量中對(duì)應(yīng)權(quán)重由大至小進(jìn)行排序;
對(duì)進(jìn)行排序后的多個(gè)信用屬性,利用支持向量機(jī)分類(lèi)器在所述訓(xùn)練樣本集上進(jìn)行10折交叉驗(yàn)證,得到所述最優(yōu)信用屬性。
優(yōu)選的,獲取與所述多個(gè)信用屬性對(duì)應(yīng)的權(quán)重向量,包括:
步驟1:將權(quán)重向量表示為wt=[w1,w2,…,wI]T∈RI,令t=0且設(shè)置對(duì)應(yīng)的初始的權(quán)重向量為w0=[1/I,1/I,…,1/I]T,I為所述信用屬性的數(shù)量;
步驟2:最大化來(lái)求得權(quán)重向量wt+1,其中:
其中,和分別是訓(xùn)練樣本xi在與其信用標(biāo)簽不同的異類(lèi)樣本以及訓(xùn)練標(biāo)簽相同的同類(lèi)樣本中的近鄰樣本矩陣,k是先驗(yàn)設(shè)置的近鄰個(gè)數(shù),N為訓(xùn)練樣本的數(shù)量;
求解下面的優(yōu)化問(wèn)題得到αi:
求解下面的優(yōu)化問(wèn)題得到βi:
其中,λ為控制稀疏項(xiàng)稀疏程度的超參數(shù);
步驟3:判斷||wt+1-wt||是否小于或等于第一預(yù)設(shè)值,如果是,則確定wt+1為最終得到的權(quán)重向量,如果否,則令t=t+1,返回執(zhí)行步驟2。
優(yōu)選的,判斷出||wt+1-wt||大于所述第一預(yù)設(shè)值之后,還包括:
判斷t是否等于第二預(yù)設(shè)值,如果是,則確定wt+1為最終得到的權(quán)重向量,如果否,則執(zhí)行所述令t=t+1,返回執(zhí)行步驟2的步驟。
優(yōu)選的,獲取所述訓(xùn)練樣本集之后,還包括:
對(duì)每個(gè)所述訓(xùn)練樣本按照下列轉(zhuǎn)換函數(shù)進(jìn)行離差標(biāo)準(zhǔn)化處理:
i=1,…,N,
j=1,…,I,
其中,xij表示第i個(gè)訓(xùn)練樣本第j個(gè)信用屬性的屬性值,表示所有訓(xùn)練樣本中信用屬性j的最大值,表示所有訓(xùn)練樣本中信用屬性j的最小值;
對(duì)應(yīng)的,獲取所述待測(cè)樣本之后,還包括:
對(duì)所述待測(cè)樣本按照下列轉(zhuǎn)換函數(shù)進(jìn)行離差標(biāo)準(zhǔn)化處理:
其中,xj表示所述待測(cè)樣本第j個(gè)信用屬性的屬性值。
一種個(gè)人信用評(píng)估裝置,包括:
獲取模塊,用于獲取訓(xùn)練樣本集,所述訓(xùn)練樣本集包括具有信用標(biāo)簽及多個(gè)信用屬性的訓(xùn)練樣本,所述信用標(biāo)簽為對(duì)對(duì)應(yīng)訓(xùn)練樣本的信用進(jìn)行評(píng)估得到的標(biāo)簽;
選取模塊,用于選取出分類(lèi)效果最好的信用屬性作為最優(yōu)信用屬性并組成對(duì)應(yīng)的最優(yōu)信用屬性集,將每個(gè)訓(xùn)練樣本中包含的所述最優(yōu)信用屬性集之外的信用屬性去掉,得到對(duì)應(yīng)的最優(yōu)訓(xùn)練樣本集;
構(gòu)建模塊,用于采用支持向量機(jī)對(duì)所述最優(yōu)訓(xùn)練樣本集建模,得到支持向量機(jī)分類(lèi)模型;
分類(lèi)模塊,用于獲取未知信用標(biāo)簽且僅具有所述最優(yōu)信用屬性的待測(cè)樣本并作為所述支持向量機(jī)分類(lèi)模型的輸入,得到所述待測(cè)樣本的信用標(biāo)簽。
優(yōu)選的,所述選取模塊包括:
選取單元,用于:獲取與所述多個(gè)信用屬性對(duì)應(yīng)的權(quán)重向量,并對(duì)所述多個(gè)信用屬性按照所述權(quán)重向量中對(duì)應(yīng)權(quán)重由大至小進(jìn)行排序;對(duì)進(jìn)行排序后的多個(gè)信用屬性,利用支持向量機(jī)分類(lèi)器在所述訓(xùn)練樣本集上進(jìn)行10折交叉驗(yàn)證,得到所述最優(yōu)信用屬性。
優(yōu)選的,所述選取單元包括:
選取子單元,用于執(zhí)行以下操作:
步驟1:將權(quán)重向量表示為wt=[w1,w2,…,wI]T∈RI,令t=0且設(shè)置對(duì)應(yīng)的初始的權(quán)重向量為w0=[1/I,1/I,…,1/I]T,I為所述信用屬性的數(shù)量;
步驟2:最大化來(lái)求得權(quán)重向量wt+1,其中:
其中,和分別是訓(xùn)練樣本xi在與其信用標(biāo)簽不同的異類(lèi)樣本以及訓(xùn)練標(biāo)簽相同的同類(lèi)樣本中的近鄰樣本矩陣,k是先驗(yàn)設(shè)置的近鄰個(gè)數(shù),N為訓(xùn)練樣本的數(shù)量;
求解下面的優(yōu)化問(wèn)題得到αi:
求解下面的優(yōu)化問(wèn)題得到βi:
其中,λ為控制稀疏項(xiàng)稀疏程度的超參數(shù);
步驟3:判斷||wt+1-wt||是否小于或等于第一預(yù)設(shè)值,如果是,則確定wt+1為最終得到的權(quán)重向量,如果否,則令t=t+1,返回執(zhí)行步驟2。
優(yōu)選的,所述選取子單元還包括:
判斷子單元,用于判斷t是否等于第二預(yù)設(shè)值,如果是,則確定wt+1為最終得到的權(quán)重向量,如果否,則執(zhí)行所述令t=t+1,返回執(zhí)行步驟2的步驟。
優(yōu)選的,還包括:
標(biāo)準(zhǔn)化處理模塊,用于獲取所述訓(xùn)練樣本集之后,對(duì)每個(gè)所述訓(xùn)練樣本按照下列轉(zhuǎn)換函數(shù)進(jìn)行離差標(biāo)準(zhǔn)化處理:
元=1,…,N,
j=1,…,I,
其中,xij表示第i個(gè)訓(xùn)練樣本第j個(gè)信用屬性的屬性值,表示所有訓(xùn)練樣本中信用屬性j的最大值,表示所有訓(xùn)練樣本中信用屬性j的最小值;
以及用于獲取所述待測(cè)樣本之后,對(duì)所述待測(cè)樣本按照下列轉(zhuǎn)換函數(shù)進(jìn)行離差標(biāo)準(zhǔn)化處理:
其中,xj表示所述待測(cè)樣本第j個(gè)信用屬性的屬性值。
本發(fā)明提供了一種個(gè)人信用評(píng)估方法及裝置,其中該方法包括:獲取訓(xùn)練樣本集,所述訓(xùn)練樣本集包括具有信用標(biāo)簽及多個(gè)信用屬性的訓(xùn)練樣本,所述信用標(biāo)簽為對(duì)對(duì)應(yīng)訓(xùn)練樣本的信用進(jìn)行評(píng)估得到的標(biāo)簽;選取出分類(lèi)效果最好的信用屬性作為最優(yōu)信用屬性并組成對(duì)應(yīng)的最優(yōu)信用屬性集,將每個(gè)訓(xùn)練樣本中包含的所述最優(yōu)信用屬性集之外的信用屬性去掉,得到對(duì)應(yīng)的最優(yōu)訓(xùn)練樣本集;采用支持向量機(jī)對(duì)所述最優(yōu)訓(xùn)練樣本集建模,得到支持向量機(jī)分類(lèi)模型;獲取未知信用標(biāo)簽且僅具有所述最優(yōu)信用屬性的待測(cè)樣本并作為所述支持向量機(jī)分類(lèi)模型的輸入,得到所述待測(cè)樣本的信用標(biāo)簽。本申請(qǐng)公開(kāi)的技術(shù)方案中,首先獲取具有信用標(biāo)簽及多個(gè)信用屬性的訓(xùn)練樣本,將每個(gè)訓(xùn)練樣本包含的分類(lèi)效果最好的最優(yōu)信用屬性集之外的其他信用屬性去掉,得到對(duì)應(yīng)的最優(yōu)訓(xùn)練集,進(jìn)而采用支持向量機(jī)對(duì)該最優(yōu)訓(xùn)練集建模得到支持向量機(jī)分類(lèi)模型,以確定未知信用標(biāo)簽且僅具有所述最優(yōu)信用屬性的待測(cè)樣本的信用標(biāo)簽,即確定該待測(cè)樣本的信用情況。由此,通過(guò)構(gòu)建支持向量機(jī)分類(lèi)模型實(shí)現(xiàn)自動(dòng)分類(lèi)的方式避免了現(xiàn)有技術(shù)中因?yàn)閷?zhuān)家的主觀性及隨機(jī)性導(dǎo)致分類(lèi)精度較低的問(wèn)題,且實(shí)驗(yàn)證明本申請(qǐng)公開(kāi)的上述技術(shù)方案具有較高的分類(lèi)精度。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例提供的一種個(gè)人信用評(píng)估方法的流程圖;
圖2為本發(fā)明實(shí)施例提供的一種個(gè)人信用評(píng)估裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
請(qǐng)參閱圖1,為本發(fā)明實(shí)施例提供的一種個(gè)人信用評(píng)估方法的流程圖,可以包括:
S11:獲取訓(xùn)練樣本集,訓(xùn)練樣本集包括具有信用標(biāo)簽及多個(gè)信用屬性的訓(xùn)練樣本,信用標(biāo)簽為對(duì)對(duì)應(yīng)訓(xùn)練樣本的信用進(jìn)行評(píng)估得到的標(biāo)簽。
訓(xùn)練樣本集可以表示為其中xi∈RI,R表示實(shí)數(shù)集,yi∈{-1,+1}是xi的信用標(biāo)簽,表明xi的信用類(lèi)別,如:如果yi=1,表示的xi信用好,如果yi=-1,表示的xi信用差。N是訓(xùn)練樣本的總個(gè)數(shù),I是訓(xùn)練樣本的維數(shù),即訓(xùn)練樣本包含的信用屬性的個(gè)數(shù),需要說(shuō)明的是每個(gè)訓(xùn)練樣本包含的信用屬性是相同的,而對(duì)應(yīng)每個(gè)信用屬性的屬性值可能相同也可能不同;具體來(lái)說(shuō),訓(xùn)練樣本包含的信用屬性可以包括信用歷史、資金使用目的、銀行賬號(hào)狀態(tài)等,當(dāng)然還可以根據(jù)實(shí)際需要進(jìn)行其他設(shè)定,均在本發(fā)明的保護(hù)范圍之內(nèi)。另外,訓(xùn)練樣本集中包括多個(gè)訓(xùn)練樣本,而訓(xùn)練樣本的具體數(shù)量可以根據(jù)實(shí)際需要進(jìn)行設(shè)定。
S12:選取出分類(lèi)效果最好的信用屬性作為最優(yōu)信用屬性并組成對(duì)應(yīng)的最優(yōu)信用屬性集,將每個(gè)訓(xùn)練樣本中包含的最優(yōu)信用屬性集之外的信用屬性去掉,得到對(duì)應(yīng)的最優(yōu)訓(xùn)練樣本集。
由全部信用屬性中選取出分類(lèi)效果最好的最優(yōu)信用屬性組成最優(yōu)信用屬性集,從而基于該最優(yōu)信用屬性集獲得特征選取后的最優(yōu)訓(xùn)練樣本集,也即將每個(gè)訓(xùn)練樣本包含的除最優(yōu)信用屬性集之外的其他信用屬性去掉,從而得到僅僅保留有最優(yōu)信用屬性集的訓(xùn)練樣本組成的集合。
S13:采用支持向量機(jī)對(duì)最優(yōu)訓(xùn)練樣本集建模,得到支持向量機(jī)分類(lèi)模型。
支持向量機(jī)是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性(即對(duì)特定訓(xùn)練樣本的學(xué)習(xí)精度)和學(xué)習(xí)能力(即無(wú)錯(cuò)誤地識(shí)別任意樣本的能力)之間尋求最佳折中,以求獲得最好的推廣能力。本申請(qǐng)中采用支持向量機(jī)對(duì)最優(yōu)訓(xùn)練樣本集建模得到對(duì)應(yīng)的支持向量機(jī)分類(lèi)模型,該模型具有較優(yōu)的分類(lèi)精度。
S14:獲取未知信用標(biāo)簽且僅具有最優(yōu)信用屬性的待測(cè)樣本并作為支持向量機(jī)分類(lèi)模型的輸入,得到待測(cè)樣本的信用標(biāo)簽。
待測(cè)樣本包括的信用屬性可以包括最優(yōu)信用屬性及其他信用屬性,而在對(duì)待測(cè)樣本進(jìn)行分類(lèi)時(shí),只需將其他信用屬性去掉而僅僅保留最優(yōu)信用屬性即可。將僅包含最優(yōu)先用屬性的待測(cè)樣本輸入分類(lèi)器,得到對(duì)應(yīng)的輸出即為待測(cè)樣本的信用標(biāo)簽,由該信用標(biāo)簽可以獲知待測(cè)樣本的信用情況,如信用好或者信用差。
本申請(qǐng)公開(kāi)的技術(shù)方案中,首先獲取具有信用標(biāo)簽及多個(gè)信用屬性的訓(xùn)練樣本,將每個(gè)訓(xùn)練樣本包含的分類(lèi)效果最好的最優(yōu)信用屬性集之外的其他信用屬性去掉,得到對(duì)應(yīng)的最優(yōu)訓(xùn)練集,進(jìn)而采用支持向量機(jī)對(duì)該最優(yōu)訓(xùn)練集建模得到支持向量機(jī)分類(lèi)模型,以確定未知信用標(biāo)簽且僅具有最優(yōu)信用屬性的待測(cè)樣本的信用標(biāo)簽,即確定該待測(cè)樣本的信用情況。由此,通過(guò)構(gòu)建支持向量機(jī)分類(lèi)模型實(shí)現(xiàn)自動(dòng)分類(lèi)的方式避免了現(xiàn)有技術(shù)中因?yàn)閷?zhuān)家的主觀性及隨機(jī)性導(dǎo)致分類(lèi)精度較低的問(wèn)題,且實(shí)驗(yàn)證明本申請(qǐng)公開(kāi)的上述技術(shù)方案具有較高的分類(lèi)精度。
具體來(lái)說(shuō),本發(fā)明在German Credit數(shù)據(jù)集上進(jìn)行了測(cè)試,并將該數(shù)據(jù)集的原始版本的數(shù)據(jù)經(jīng)過(guò)編輯形成了屬性權(quán)威數(shù)值型變量的版本。該數(shù)據(jù)集共有1000個(gè)樣本,每個(gè)樣本有24個(gè)信用屬性以及1個(gè)信用標(biāo)簽(信用好和信用差),其中有700個(gè)信用好的樣本和300個(gè)信用差的樣本。由中選取出訓(xùn)練樣本集,該訓(xùn)練樣本集中包含500個(gè)訓(xùn)練樣本,其中350個(gè)是信用好的訓(xùn)練樣本,其余150個(gè)樣品信用差的訓(xùn)練樣本。相應(yīng)地,有350個(gè)信用好的樣本及150個(gè)信用差的樣本作為待測(cè)樣本放入在測(cè)試樣本集中。通過(guò)本申請(qǐng)公開(kāi)的技術(shù)方案基于訓(xùn)練樣本集構(gòu)建對(duì)應(yīng)的支持向量機(jī)分類(lèi)模型,并利用該分類(lèi)模型對(duì)每個(gè)待測(cè)樣本進(jìn)行分類(lèi),得到其對(duì)應(yīng)的信用標(biāo)簽,通過(guò)該分類(lèi)模型得到的信用標(biāo)簽與已知的待測(cè)樣本的信用標(biāo)簽進(jìn)行比對(duì),得到對(duì)應(yīng)識(shí)別率高達(dá)76.20%,可見(jiàn)本申請(qǐng)公開(kāi)的技術(shù)方案的分類(lèi)精度較高。
本發(fā)明實(shí)施例提供的一種個(gè)人信用評(píng)估方法,選取出分類(lèi)效果最好的信用屬性作為最優(yōu)信用屬性,可以包括:
獲取與多個(gè)信用屬性對(duì)應(yīng)的權(quán)重向量,并對(duì)多個(gè)信用屬性按照權(quán)重向量中對(duì)應(yīng)權(quán)重由大至小進(jìn)行排序;
對(duì)進(jìn)行排序后的多個(gè)信用屬性,利用支持向量機(jī)分類(lèi)器在訓(xùn)練樣本集上進(jìn)行10折交叉驗(yàn)證,得到最優(yōu)信用屬性。
需要說(shuō)明的是,權(quán)重向量中包括各個(gè)信用屬性的權(quán)重,且各個(gè)信用屬性的權(quán)重的總和為1,權(quán)重越大說(shuō)明其對(duì)應(yīng)信用屬性越重要,因此對(duì)多個(gè)信用屬性按照權(quán)重向量中對(duì)應(yīng)權(quán)重由大至小進(jìn)行排序也即對(duì)信用屬性的重要性進(jìn)行排序,進(jìn)而基于該排序得到最優(yōu)信用屬性,從而保證了得到的最優(yōu)信用屬性為分類(lèi)效果最好的信用屬性,進(jìn)一步保證了本申請(qǐng)公開(kāi)的技術(shù)方案的分類(lèi)精度。另外,對(duì)進(jìn)行排序后的多個(gè)信用屬性,利用支持向量機(jī)分類(lèi)器在訓(xùn)練樣本集上進(jìn)行10折交叉驗(yàn)證,得到最優(yōu)信用屬性具體可以包括:將訓(xùn)練樣本集利用10折交叉再次劃分為訓(xùn)練集和測(cè)試集,在訓(xùn)練集上依次選取排序好的信用屬性,并基于對(duì)應(yīng)選取的信用屬性的訓(xùn)練集采用支持向量機(jī)方法訓(xùn)練對(duì)應(yīng)的支持向量機(jī)分類(lèi)器,然后利用該支持向量機(jī)分類(lèi)器對(duì)測(cè)試集中的訓(xùn)練樣本進(jìn)行分類(lèi),最后得到使得測(cè)試集的平均分類(lèi)準(zhǔn)確率最高的信用屬性子集即為最優(yōu)信用屬性的集合。
本發(fā)明實(shí)施例提供的一種個(gè)人信用評(píng)估方法,獲取與多個(gè)信用屬性對(duì)應(yīng)的權(quán)重向量,可以包括:
S121:將權(quán)重向量表示為wt=[w1,w2,…,wI]T∈RI,令t=0且設(shè)置對(duì)應(yīng)的初始的權(quán)重向量為w0=「1/I,1/I,…,1/I]T,I為信用屬性的數(shù)量。
t=0時(shí)對(duì)應(yīng)的權(quán)重向量w0為初始權(quán)重向量,此時(shí)可以設(shè)置每個(gè)信用屬性的重要性相同,也即每個(gè)信用屬性的權(quán)重均為1/I,當(dāng)然也可以根據(jù)實(shí)際需要進(jìn)行其他分配,均在本發(fā)明的保護(hù)范圍之內(nèi)。
S122:最大化來(lái)求得權(quán)重向量wt+1,其中:
其中,和分別是訓(xùn)練樣本xi在與其信用標(biāo)簽不同的異類(lèi)樣本以及訓(xùn)練標(biāo)簽相同的同類(lèi)樣本中的近鄰樣本矩陣,具體來(lái)說(shuō),與訓(xùn)練樣本xi具有不同信用標(biāo)簽的訓(xùn)練樣本為其異類(lèi)樣本,與訓(xùn)練樣本xi具有相同信用標(biāo)簽的訓(xùn)練樣本為其同類(lèi)樣本,通過(guò)計(jì)算訓(xùn)練樣本xi與每個(gè)異類(lèi)樣本的距離,進(jìn)而從中選取出k個(gè)最小的距離對(duì)應(yīng)的異類(lèi)樣本組成異類(lèi)樣本的近鄰樣本矩陣,同理,通過(guò)計(jì)算訓(xùn)練樣本xi與每個(gè)同類(lèi)樣本的距離,進(jìn)而從中選取出k個(gè)最小的距離對(duì)應(yīng)的同類(lèi)樣本組成同類(lèi)樣本的近鄰樣本矩陣,其中計(jì)算的距離具體可以是歐式距離;k是先驗(yàn)設(shè)置的近鄰個(gè)數(shù),N為訓(xùn)練樣本的數(shù)量;
求解下面的優(yōu)化問(wèn)題得到αi:
求解下面的優(yōu)化問(wèn)題得到βi:
其中,λ為控制稀疏項(xiàng)稀疏程度的超參數(shù);
S123:判斷||wt+1-wt||是否小于或等于第一預(yù)設(shè)值,如果是,則確定wt+1為最終得到的權(quán)重向量,如果否,則令t=t+1,返回執(zhí)行S122。
其中,第一預(yù)設(shè)值可以根據(jù)實(shí)際需要進(jìn)行設(shè)定,通常需要設(shè)置的比較小,如0.01。通過(guò)上述步驟,使得每個(gè)訓(xùn)練樣本的近鄰表示盡量系數(shù),從而避免噪聲數(shù)據(jù)對(duì)近鄰表示的影響,進(jìn)一步保證了本發(fā)明公開(kāi)的技術(shù)方案的分類(lèi)精度。
本發(fā)明實(shí)施例提供的一種個(gè)人信用評(píng)估方法,判斷出||wt+1-wt||大于第一預(yù)設(shè)值之后,還可以包括:
判斷t是否等于第二預(yù)設(shè)值,如果是,則確定wt+1為最終得到的權(quán)重向量,如果否,則執(zhí)行令t=t+1,返回執(zhí)行S122的步驟。
其中第二預(yù)設(shè)值可以根據(jù)實(shí)際需要進(jìn)行設(shè)定,如t=10。如果||wt+1-wt||始終無(wú)法小于或等于第一預(yù)設(shè)值,那么不停重復(fù)上述步驟是沒(méi)有實(shí)質(zhì)意義的,因此,設(shè)定第二預(yù)設(shè)值,只要t達(dá)到第二預(yù)設(shè)值,則停止循環(huán),并確定wt+1為最終得到的權(quán)重向量,從而保證了權(quán)重向量的快速獲取。
本發(fā)明實(shí)施例提供的一種個(gè)人信用評(píng)估方法,獲取訓(xùn)練樣本集之后,還可以包括:
對(duì)每個(gè)訓(xùn)練樣本按照下列轉(zhuǎn)換函數(shù)進(jìn)行離差標(biāo)準(zhǔn)化處理:
i=1,…,N,
j=1,…,I,
其中,xij表示第i個(gè)訓(xùn)練樣本第j個(gè)信用屬性的屬性值,表示所有訓(xùn)練樣本中信用屬性j的最大值,表示所有訓(xùn)練樣本中信用屬性j的最小值;
對(duì)應(yīng)的,獲取待測(cè)樣本之后,還包括:
對(duì)待測(cè)樣本按照下列轉(zhuǎn)換函數(shù)進(jìn)行離差標(biāo)準(zhǔn)化處理:
其中,xj表示待測(cè)樣本第j個(gè)信用屬性的屬性值。
通過(guò)上述處理,能夠使得訓(xùn)練樣本及待測(cè)樣本對(duì)應(yīng)的信用屬性的屬性值均處于一定的范圍內(nèi),進(jìn)而便于實(shí)現(xiàn)后續(xù)的步驟,加速了分類(lèi)器的構(gòu)建及基于分類(lèi)器實(shí)現(xiàn)的分類(lèi)。
本發(fā)明實(shí)施例還提供了一種個(gè)人信用評(píng)估裝置,如圖2所示,可以包括:
獲取模塊11,用于獲取訓(xùn)練樣本集,訓(xùn)練樣本集包括具有信用標(biāo)簽及多個(gè)信用屬性的訓(xùn)練樣本,信用標(biāo)簽為對(duì)對(duì)應(yīng)訓(xùn)練樣本的信用進(jìn)行評(píng)估得到的標(biāo)簽;
選取模塊12,用于選取出分類(lèi)效果最好的信用屬性作為最優(yōu)信用屬性并組成對(duì)應(yīng)的最優(yōu)信用屬性集,將每個(gè)訓(xùn)練樣本中包含的最優(yōu)信用屬性集之外的信用屬性去掉,得到對(duì)應(yīng)的最優(yōu)訓(xùn)練樣本集;
構(gòu)建模塊13,用于采用支持向量機(jī)對(duì)最優(yōu)訓(xùn)練樣本集建模,得到支持向量機(jī)分類(lèi)模型;
分類(lèi)模塊14,用于獲取未知信用標(biāo)簽且僅具有最優(yōu)信用屬性的待測(cè)樣本并作為支持向量機(jī)分類(lèi)模型的輸入,得到待測(cè)樣本的信用標(biāo)簽。
本發(fā)明實(shí)施例提供的一種個(gè)人信用評(píng)估裝置,選取模塊可以包括:
選取單元,用于:獲取與多個(gè)信用屬性對(duì)應(yīng)的權(quán)重向量,并對(duì)多個(gè)信用屬性按照權(quán)重向量中對(duì)應(yīng)權(quán)重由大至小進(jìn)行排序;對(duì)進(jìn)行排序后的多個(gè)信用屬性,利用支持向量機(jī)分類(lèi)器在訓(xùn)練樣本集上進(jìn)行10折交叉驗(yàn)證,得到最優(yōu)信用屬性。
本發(fā)明實(shí)施例提供的一種個(gè)人信用評(píng)估裝置,選取單元可以包括:
選取子單元,用于執(zhí)行以下操作:
步驟1:將權(quán)重向量表示為wt=[w1,w2,…,wI]T∈RI,令t=0且設(shè)置對(duì)應(yīng)的初始的權(quán)重向量為w0=[1/I,1/I,…,1/I]T,I為信用屬性的數(shù)量;
步驟2:最大化來(lái)求得權(quán)重向量wt+1,其中:
其中,和分別是訓(xùn)練樣本xi在與其信用標(biāo)簽不同的異類(lèi)樣本以及訓(xùn)練標(biāo)簽相同的同類(lèi)樣本中的近鄰樣本矩陣,k是先驗(yàn)設(shè)置的近鄰個(gè)數(shù),N為訓(xùn)練樣本的數(shù)量;
求解下面的優(yōu)化問(wèn)題得到αi:
求解下面的優(yōu)化問(wèn)題得到βi:
其中,λ為控制稀疏項(xiàng)稀疏程度的超參數(shù);
步驟3:判斷||wt+1-wt||是否小于或等于第一預(yù)設(shè)值,如果是,則確定wt+1為最終得到的權(quán)重向量,如果否,則令t=t+1,返回執(zhí)行步驟2。
本發(fā)明實(shí)施例提供的一種個(gè)人信用評(píng)估裝置,選取子單元還可以包括:
判斷子單元,用于判斷t是否等于第二預(yù)設(shè)值,如果是,則確定wt+1為最終得到的權(quán)重向量,如果否,則執(zhí)行令t=t+1,返回執(zhí)行步驟2的步驟。
本發(fā)明實(shí)施例提供的一種個(gè)人信用評(píng)估裝置,還可以包括:
標(biāo)準(zhǔn)化處理模塊,用于獲取訓(xùn)練樣本集之后,對(duì)每個(gè)訓(xùn)練樣本按照下列轉(zhuǎn)換函數(shù)進(jìn)行離差標(biāo)準(zhǔn)化處理:
i=1,…,N,
j=1,…,I,
其中,xij表示第i個(gè)訓(xùn)練樣本第j個(gè)信用屬性的屬性值,表示所有訓(xùn)練樣本中信用屬性j的最大值,表示所有訓(xùn)練樣本中信用屬性j的最小值;
以及用于獲取待測(cè)樣本之后,對(duì)待測(cè)樣本按照下列轉(zhuǎn)換函數(shù)進(jìn)行離差標(biāo)準(zhǔn)化處理:
其中,xj表示待測(cè)樣本第j個(gè)信用屬性的屬性值。
本發(fā)明實(shí)施例提供的一種個(gè)人信用評(píng)估裝置中相關(guān)部分的說(shuō)明請(qǐng)參見(jiàn)本發(fā)明實(shí)施例提供的一種個(gè)人信用評(píng)估方法中對(duì)應(yīng)部分的詳細(xì)說(shuō)明,在此不再贅述。
對(duì)所公開(kāi)的實(shí)施例的上述說(shuō)明,使本領(lǐng)域技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域技術(shù)人員來(lái)說(shuō)將是顯而易見(jiàn)的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明將不會(huì)被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開(kāi)的原理和新穎特點(diǎn)相一致的最寬的范圍。