基于森林區(qū)分度模型的預(yù)測方法及系統(tǒng)的制作方法

文檔序號：6499138閱讀：668來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于森林區(qū)分度模型的預(yù)測方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于森林區(qū)分度模型的預(yù)測方法及系統(tǒng)，該方法包括：步驟1，基于隨機森林算法使用建模數(shù)據(jù)進行建模，對所述建模數(shù)據(jù)進行分箱，并經(jīng)過區(qū)分度模型求解，獲得建模結(jié)果；步驟2，根據(jù)建立的模型和所述建模結(jié)果，對待預(yù)測的數(shù)據(jù)進行打分，獲得預(yù)測結(jié)果。本發(fā)明能提供一種簡單的、擴展的、有據(jù)可循的分箱方法，它簡化了對數(shù)據(jù)的考量，及不需要精通較高深的運算理論，就能夠使用該方法得到較好的分箱結(jié)果，從而得到效果較好的預(yù)測結(jié)果。這在很大程度上也提高了建模的效率和模型的精度。
【專利說明】基于森林區(qū)分度模型的預(yù)測方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及評分卡建?！炯夹g(shù)領(lǐng)域】，尤其涉及一種基于森林區(qū)分度模型的預(yù)測方法及系統(tǒng)。
【背景技術(shù)】
[0002]評分卡是一個基于統(tǒng)計學(xué)的分析工具，它可以通過分析已經(jīng)發(fā)生的現(xiàn)象，根據(jù)歷史數(shù)據(jù)和各種相關(guān)因素，來預(yù)測將來某個特定結(jié)果發(fā)生的概率。分析的基礎(chǔ)是一系列描述歷史數(shù)據(jù)的互相關(guān)聯(lián)的因素、變量、預(yù)測值或者回歸方程的獨立變量，我們稱之為預(yù)測變量。待預(yù)測的某個特定結(jié)果稱為目標(biāo)變量。評分卡建模技術(shù)就是基于評分卡，建立預(yù)測變量和目標(biāo)變量之間映射關(guān)系的技術(shù)，這種映射關(guān)系就是評分卡模型。評分卡模型的常用模型方法，有線性回歸、邏輯回歸、神經(jīng)網(wǎng)絡(luò)、決策樹、區(qū)分度等。比如，我們可以通過分析已有的信用卡使用者的還款情況，來預(yù)測一個信用卡申請者在將來是否可能出現(xiàn)逾期不還款的行為。雖然授信者通過人工分析客戶的歷史信用資料，同樣可以得到這樣的分析結(jié)果，但利用信用評分卻更加快速、更加客觀、更具有一致性。
[0003]區(qū)分度模型是一種較穩(wěn)定，且可解釋性強的模型，在金融和電信領(lǐng)域廣泛應(yīng)用。區(qū)分度模型的目標(biāo)變量是二分類型的，即其取值范圍為兩個值，如:好/壞，逾期/不逾期，是/否，等等。建模的目的是為了有效的區(qū)分好樣本和壞樣本。如圖1C，假定壞樣本的分布如圖中部分1，好樣本的分布如圖中部分2，為了能夠最好的區(qū)分出來好壞樣本，我們設(shè)想最好的情況是壞樣本的分布中不包含好的樣本，好樣本分布中不包含壞的樣本，這樣我們就可能達到完全分出來好壞樣本的目的。當(dāng)然在實際的操作過程中我們不可能達到理想的分布，但是我們的目標(biāo)就是希望最大化的接近這種目的，因此在這個圖中希望好壞樣本交叉重疊的部分達到最小，當(dāng)他們完全沒有交叉重疊時也就是我們設(shè)想的理想情況了。
[0004]基于這種想法，提出了 DIV的公式(DIV公式的數(shù)學(xué)思想來源于Fisher判別分析方法。Fisher判別分析是模式識別領(lǐng)域廣泛應(yīng)用的一種分類方法，它根據(jù)最大化類間離散度、同時最小化類內(nèi)離散度的準(zhǔn)則，確定一系列線性變化方向，使各類之間最大程度的分離。)至今，該方法已成功應(yīng)用于評估消費者信用風(fēng)險、巖質(zhì)邊坡穩(wěn)定性評價、非線性統(tǒng)計過程監(jiān)控與故障診斷等眾多領(lǐng)域。美國FICO公司提出的Divergence模型便是將Fisher判別方法與具有現(xiàn)實意義的限制條件相結(jié)合，從而成功應(yīng)用于信用評估領(lǐng)域，大大方便了業(yè)務(wù)對模型的要求:
【權(quán)利要求】
1.一種基于森林區(qū)分度模型的預(yù)測方法，其特征在于，包括: 步驟1，基于隨機森林算法使用建模數(shù)據(jù)進行建模，對所述建模數(shù)據(jù)進行分箱，并經(jīng)過區(qū)分度模型求解，獲得建模結(jié)果；步驟2，根據(jù)建立的模型和所述建模結(jié)果，對待預(yù)測的數(shù)據(jù)進行打分，獲得預(yù)測結(jié)果。
2.如權(quán)利要求1所述的森林區(qū)分度模型建立方法，其特征在于，所述步驟I包括: 步驟11，基于所述隨機森林算法，對所述建模數(shù)據(jù)進行分箱，獲得分箱結(jié)果；步驟12，根據(jù)所述分箱結(jié)果將所述建模數(shù)據(jù)的變量轉(zhuǎn)換為啞變量，利用所述啞變量進行區(qū)分度模型求解，獲得各分箱權(quán)重；步驟13，根據(jù)所述各分箱權(quán)重計算所述建模數(shù)據(jù)中每個記錄的分?jǐn)?shù)，獲得評分結(jié)果；步驟14，根據(jù)所述評分結(jié)果，決定區(qū)分好壞的分?jǐn)?shù)，獲得建模結(jié)果。
3.如權(quán)利要求2所述的基于森林區(qū)分度模型的預(yù)測方法，其特征在于，所述步驟11包括: 步驟111，隨機抽取部分建模數(shù)據(jù)作為樹的根節(jié)點，并加入到待分叉的樹節(jié)點集合中；步驟112，判斷所述待分叉的樹節(jié)點集合是否為空，如果為空，則返回所述根節(jié)點的樹；如果不為空，則從所述待分叉的樹節(jié)點集合中選擇一個節(jié)點，并從所述待分叉的樹節(jié)點集合中刪除該節(jié)點；步驟113，判斷所述節(jié)點是否符合節(jié)點分叉條件，如果不符合條件，則返回步驟112，否則計算該節(jié)點的分叉的變量和分叉的值；步驟114，根據(jù)所述分叉的變量和分叉的值，得到所述分叉節(jié)點的左子節(jié)點和右子節(jié)點，并均加入所述待分叉的樹節(jié)點集合中。
4.如權(quán)利要求2所述的基于森林區(qū)分度模型的預(yù)測方法，其特征在于，所述步驟13包括: 步驟131，根據(jù)所述各分箱權(quán)重，確定對應(yīng)的多個葉子節(jié)點的權(quán)重；步驟132，根據(jù)每個葉子節(jié)點所代表的區(qū)間，獲知某條記錄在葉子節(jié)點區(qū)間的分布，將所述記錄分布的所有葉子節(jié)點的權(quán)重加起來，得到該記錄對應(yīng)的分?jǐn)?shù)；步驟133，根據(jù)步驟132計算所有記錄對應(yīng)的分?jǐn)?shù)，獲得評分結(jié)果。
5.如權(quán)利要求1所述的基于森林區(qū)分度模型的預(yù)測方法，其特征在于，所述步驟2中: 根據(jù)所述各分箱權(quán)重計算所述待預(yù)測數(shù)據(jù)中每個記錄的分?jǐn)?shù)，獲得評分結(jié)果。
6.一種基于森林區(qū)分度模型的預(yù)測系統(tǒng)，其特征在于，包括: 建模模塊，基于隨機森林算法使用建模數(shù)據(jù)進行建模，對所述建模數(shù)據(jù)進行分箱，并經(jīng)過區(qū)分度模型求解，獲得建模結(jié)果；預(yù)測模塊，根據(jù)建立的模型和所述建模結(jié)果，對待預(yù)測的數(shù)據(jù)進行打分，獲得預(yù)測結(jié)果O
7.如權(quán)利要求6所述的森林區(qū)分度模型建立系統(tǒng),其特征在于,所述建模模塊包括: 分箱模塊，基于所述隨機森林算法，對所述建模數(shù)據(jù)進行分箱，獲得分箱結(jié)果；區(qū)分模塊，根據(jù)所述分箱結(jié)果將所述建模數(shù)據(jù)的變量轉(zhuǎn)換為啞變量，利用所述啞變量進行區(qū)分度模型求解，獲得各分箱權(quán)重；計算模塊，根據(jù)所述各分箱權(quán)重計算所述建模數(shù)據(jù)中每個記錄的分?jǐn)?shù)，獲得評分結(jié)果;分割模塊，根據(jù)所述評分結(jié)果，決定區(qū)分好壞的分?jǐn)?shù)，獲得建模結(jié)果。
8.如權(quán)利要求7所述的基于森林區(qū)分度模型的預(yù)測系統(tǒng)，其特征在于，所述分箱模塊包括: 抽取模塊，隨機抽取部分建模數(shù)據(jù)作為樹的根節(jié)點，并加入到待分叉的樹節(jié)點集合中；第一判斷處理模塊，判斷所述待分叉的樹節(jié)點集合是否為空，如果為空，則返回所述根節(jié)點的樹；如果不為空，則從所述待分叉的樹節(jié)點集合中選擇一個節(jié)點，并從所述待分叉的樹節(jié)點集合中刪除該節(jié)點；第二判斷處理模塊，判斷所述節(jié)點是否符合節(jié)點分叉條件，如果不符合條件，則返回第一判斷處理模塊，否則計算該節(jié)點的分叉的變量和分叉的值；結(jié)果獲得模塊，根據(jù)所述分叉的變量和分叉的值，得到所述分叉節(jié)點的左子節(jié)點和右子節(jié)點，并均加入所述待分叉的樹節(jié)點集合中。
9.如權(quán)利要求7所述的基于森林區(qū)分度模型的預(yù)測系統(tǒng)，其特征在于，所述計算模塊包括: 權(quán)重獲得模塊，根據(jù)所述各分箱權(quán)重，確定對應(yīng)的多個葉子節(jié)點的權(quán)重；權(quán)重處理模塊，根據(jù)每個葉子節(jié)點所代表的區(qū)間，獲知某條記錄在葉子節(jié)點區(qū)間的分布，將所述記錄分布的所有葉子節(jié)點的權(quán)重加起來，得到該記錄對應(yīng)的分?jǐn)?shù)；評分模塊，根據(jù)權(quán)重處理模塊計算所有記錄對應(yīng)的分?jǐn)?shù)，獲得評分結(jié)果。
10.如權(quán)利要求6所述的基于森林區(qū)分度模型的預(yù)測方法，其特征在于，所述預(yù)測模塊中: 根據(jù)所述各分箱權(quán)重計算所述待預(yù)測數(shù)據(jù)中每個記錄的分?jǐn)?shù)，獲得評分結(jié)果。
【文檔編號】G06Q10/04GK103942604SQ201310018641
【公開日】2014年7月23日申請日期:2013年1月18日優(yōu)先權(quán)日:2013年1月18日
【發(fā)明者】鄭茂林, 徐春香, 寧慶慶, 戴霞, 呂盡軒, 裴曉景, 王靜, 張明昊, 李勝濤, 曾祥洪申請人:上海安迪泰信息技術(shù)有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄭茂林;徐春香;寧慶慶;戴霞;呂盡軒;裴曉景;王靜;張明昊;李勝濤;曾祥洪
技術(shù)所有人：上海安迪泰信息技術(shù)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

灰色系統(tǒng)預(yù)測模型相關(guān)技術(shù)

隨機森林回歸模型相關(guān)技術(shù)

隨機森林模型相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于森林區(qū)分度模型的預(yù)測方法及系統(tǒng)的制作方法