基于森林區(qū)分度模型的預(yù)測方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于森林區(qū)分度模型的預(yù)測方法及系統(tǒng),該方法包括:步驟1,基于隨機森林算法使用建模數(shù)據(jù)進行建模,對所述建模數(shù)據(jù)進行分箱,并經(jīng)過區(qū)分度模型求解,獲得建模結(jié)果;步驟2,根據(jù)建立的模型和所述建模結(jié)果,對待預(yù)測的數(shù)據(jù)進行打分,獲得預(yù)測結(jié)果。本發(fā)明能提供一種簡單的、擴展的、有據(jù)可循的分箱方法,它簡化了對數(shù)據(jù)的考量,及不需要精通較高深的運算理論,就能夠使用該方法得到較好的分箱結(jié)果,從而得到效果較好的預(yù)測結(jié)果。這在很大程度上也提高了建模的效率和模型的精度。
【專利說明】基于森林區(qū)分度模型的預(yù)測方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及評分卡建?!炯夹g(shù)領(lǐng)域】,尤其涉及一種基于森林區(qū)分度模型的預(yù)測方法及系統(tǒng)。
【背景技術(shù)】
[0002]評分卡是一個基于統(tǒng)計學(xué)的分析工具,它可以通過分析已經(jīng)發(fā)生的現(xiàn)象,根據(jù)歷史數(shù)據(jù)和各種相關(guān)因素,來預(yù)測將來某個特定結(jié)果發(fā)生的概率。分析的基礎(chǔ)是一系列描述歷史數(shù)據(jù)的互相關(guān)聯(lián)的因素、變量、預(yù)測值或者回歸方程的獨立變量,我們稱之為預(yù)測變量。待預(yù)測的某個特定結(jié)果稱為目標(biāo)變量。評分卡建模技術(shù)就是基于評分卡,建立預(yù)測變量和目標(biāo)變量之間映射關(guān)系的技術(shù),這種映射關(guān)系就是評分卡模型。評分卡模型的常用模型方法,有線性回歸、邏輯回歸、神經(jīng)網(wǎng)絡(luò)、決策樹、區(qū)分度等。比如,我們可以通過分析已有的信用卡使用者的還款情況,來預(yù)測一個信用卡申請者在將來是否可能出現(xiàn)逾期不還款的行為。雖然授信者通過人工分析客戶的歷史信用資料,同樣可以得到這樣的分析結(jié)果,但利用信用評分卻更加快速、更加客觀、更具有一致性。
[0003]區(qū)分度模型是一種較穩(wěn)定,且可解釋性強的模型,在金融和電信領(lǐng)域廣泛應(yīng)用。區(qū)分度模型的目標(biāo)變量是二分類型的,即其取值范圍為兩個值,如:好/壞,逾期/不逾期,是/否,等等。建模的目的是為了有效的區(qū)分好樣本和壞樣本。如圖1C,假定壞樣本的分布如圖中部分1,好樣本的分布如圖中部分2,為了能夠最好的區(qū)分出來好壞樣本,我們設(shè)想最好的情況是壞樣本的分布中 不包含好的樣本,好樣本分布中不包含壞的樣本,這樣我們就可能達到完全分出來好壞樣本的目的。當(dāng)然在實際的操作過程中我們不可能達到理想的分布,但是我們的目標(biāo)就是希望最大化的接近這種目的,因此在這個圖中希望好壞樣本交叉重疊的部分達到最小,當(dāng)他們完全沒有交叉重疊時也就是我們設(shè)想的理想情況了。
[0004]基于這種想法,提出了 DIV的公式(DIV公式的數(shù)學(xué)思想來源于Fisher判別分析方法。Fisher判別分析是模式識別領(lǐng)域廣泛應(yīng)用的一種分類方法,它根據(jù)最大化類間離散度、同時最小化類內(nèi)離散度的準(zhǔn)則,確定一系列線性變化方向,使各類之間最大程度的分離。)至今,該方法已成功應(yīng)用于評估消費者信用風(fēng)險、巖質(zhì)邊坡穩(wěn)定性評價、非線性統(tǒng)計過程監(jiān)控與故障診斷等眾多領(lǐng)域。美國FICO公司提出的Divergence模型便是將Fisher判別方法與具有現(xiàn)實意義的限制條件相結(jié)合,從而成功應(yīng)用于信用評估領(lǐng)域,大大方便了業(yè)務(wù)對模型的要求:
【權(quán)利要求】
1.一種基于森林區(qū)分度模型的預(yù)測方法,其特征在于,包括: 步驟1,基于隨機森林算法使用建模數(shù)據(jù)進行建模,對所述建模數(shù)據(jù)進行分箱,并經(jīng)過區(qū)分度模型求解,獲得建模結(jié)果; 步驟2,根據(jù)建立的模型和所述建模結(jié)果,對待預(yù)測的數(shù)據(jù)進行打分,獲得預(yù)測結(jié)果。
2.如權(quán)利要求1所述的森林區(qū)分度模型建立方法,其特征在于,所述步驟I包括: 步驟11,基于所述隨機森林算法,對所述建模數(shù)據(jù)進行分箱,獲得分箱結(jié)果; 步驟12,根據(jù)所述分箱結(jié)果將所述建模數(shù)據(jù)的變量轉(zhuǎn)換為啞變量,利用所述啞變量進行區(qū)分度模型求解,獲得各分箱權(quán)重; 步驟13,根據(jù)所述各分箱權(quán)重計算所述建模數(shù)據(jù)中每個記錄的分?jǐn)?shù),獲得評分結(jié)果; 步驟14,根據(jù)所述評分結(jié)果,決定區(qū)分好壞的分?jǐn)?shù),獲得建模結(jié)果。
3.如權(quán)利要求2所述的基于森林區(qū)分度模型的預(yù)測方法,其特征在于,所述步驟11包括: 步驟111,隨機抽取部分建模數(shù)據(jù)作為樹的根節(jié)點,并加入到待分叉的樹節(jié)點集合中;步驟112,判斷所述待 分叉的樹節(jié)點集合是否為空,如果為空,則返回所述根節(jié)點的樹;如果不為空,則從所述待分叉的樹節(jié)點集合中選擇一個節(jié)點,并從所述待分叉的樹節(jié)點集合中刪除該節(jié)點; 步驟113,判斷所述節(jié)點是否符合節(jié)點分叉條件,如果不符合條件,則返回步驟112,否則計算該節(jié)點的分叉的變量和分叉的值; 步驟114,根據(jù)所述分叉的變量和分叉的值,得到所述分叉節(jié)點的左子節(jié)點和右子節(jié)點,并均加入所述待分叉的樹節(jié)點集合中。
4.如權(quán)利要求2所述的基于森林區(qū)分度模型的預(yù)測方法,其特征在于,所述步驟13包括: 步驟131,根據(jù)所述各分箱權(quán)重,確定對應(yīng)的多個葉子節(jié)點的權(quán)重; 步驟132,根據(jù)每個葉子節(jié)點所代表的區(qū)間,獲知某條記錄在葉子節(jié)點區(qū)間的分布,將所述記錄分布的所有葉子節(jié)點的權(quán)重加起來,得到該記錄對應(yīng)的分?jǐn)?shù); 步驟133,根據(jù)步驟132計算所有記錄對應(yīng)的分?jǐn)?shù),獲得評分結(jié)果。
5.如權(quán)利要求1所述的基于森林區(qū)分度模型的預(yù)測方法,其特征在于,所述步驟2中: 根據(jù)所述各分箱權(quán)重計算所述待預(yù)測數(shù)據(jù)中每個記錄的分?jǐn)?shù),獲得評分結(jié)果。
6.一種基于森林區(qū)分度模型的預(yù)測系統(tǒng),其特征在于,包括: 建模模塊,基于隨機森林算法使用建模數(shù)據(jù)進行建模,對所述建模數(shù)據(jù)進行分箱,并經(jīng)過區(qū)分度模型求解,獲得建模結(jié)果; 預(yù)測模塊,根據(jù)建立的模型和所述建模結(jié)果,對待預(yù)測的數(shù)據(jù)進行打分,獲得預(yù)測結(jié)果O
7.如權(quán)利要求6所述的森林區(qū)分度模型建立系統(tǒng),其特征在于,所述建模模塊包括: 分箱模塊,基于所述隨機森林算法,對所述建模數(shù)據(jù)進行分箱,獲得分箱結(jié)果; 區(qū)分模塊,根據(jù)所述分箱結(jié)果將所述建模數(shù)據(jù)的變量轉(zhuǎn)換為啞變量,利用所述啞變量進行區(qū)分度模型求解,獲得各分箱權(quán)重; 計算模塊,根據(jù)所述各分箱權(quán)重計算所述建模數(shù)據(jù)中每個記錄的分?jǐn)?shù),獲得評分結(jié)果;分割模塊,根據(jù)所述評分結(jié)果,決定區(qū)分好壞的分?jǐn)?shù),獲得建模結(jié)果。
8.如權(quán)利要求7所述的基于森林區(qū)分度模型的預(yù)測系統(tǒng),其特征在于,所述分箱模塊包括: 抽取模塊,隨機抽取部分建模數(shù)據(jù)作為樹的根節(jié)點,并加入到待分叉的樹節(jié)點集合中; 第一判斷處理模塊,判斷所述待分叉的樹節(jié)點集合是否為空,如果為空,則返回所述根節(jié)點的樹;如果不為空,則從所述待分叉的樹節(jié)點集合中選擇一個節(jié)點,并從所述待分叉的樹節(jié)點集合中刪除該節(jié)點; 第二判斷處理模塊,判斷所述節(jié)點是否符合節(jié)點分叉條件,如果不符合條件,則返回第一判斷處理模塊,否則計算該節(jié)點的分叉的變量和分叉的值; 結(jié)果獲得模塊,根據(jù)所述分叉的變量和分叉的值,得到所述分叉節(jié)點的左子節(jié)點和右子節(jié)點,并均加入所述待分叉的樹節(jié)點集合中。
9.如權(quán)利要求7所述的基于森林區(qū)分度模型的預(yù)測系統(tǒng),其特征在于,所述計算模塊包括: 權(quán)重獲得模塊,根據(jù)所述各分箱權(quán)重,確定對應(yīng)的多個葉子節(jié)點的權(quán)重; 權(quán)重處理模塊,根據(jù)每個葉子節(jié)點所代表的區(qū)間,獲知某條記錄在葉子節(jié)點區(qū)間的分布,將所述記錄分布的所有葉子節(jié)點的權(quán)重加起來,得到該記錄對應(yīng)的分?jǐn)?shù); 評分模塊,根據(jù)權(quán)重處理模塊計算所有記錄對應(yīng)的分?jǐn)?shù),獲得評分結(jié)果。
10.如權(quán)利要求6所述的基于 森林區(qū)分度模型的預(yù)測方法,其特征在于,所述預(yù)測模塊中: 根據(jù)所述各分箱權(quán)重計算所述待預(yù)測數(shù)據(jù)中每個記錄的分?jǐn)?shù),獲得評分結(jié)果。
【文檔編號】G06Q10/04GK103942604SQ201310018641
【公開日】2014年7月23日 申請日期:2013年1月18日 優(yōu)先權(quán)日:2013年1月18日
【發(fā)明者】鄭茂林, 徐春香, 寧慶慶, 戴霞, 呂盡軒, 裴曉景, 王靜, 張明昊, 李勝濤, 曾祥洪 申請人:上海安迪泰信息技術(shù)有限公司