亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于邏輯用戶評分模型的變量選擇方法及裝置與流程

文檔序號:11775608閱讀:338來源:國知局
一種基于邏輯用戶評分模型的變量選擇方法及裝置與流程

本發(fā)明涉及大數據領域的數據變量選擇技術,尤其涉及一種基于邏輯(logistic)用戶評分模型的變量選擇方法及裝置。



背景技術:

大數據技術已經成為各科研機構和互聯網企業(yè)研究的熱點,數據挖掘以及數據價值的挖掘成為中國移動關注的重點?,F有的技術方案按照傳統(tǒng)的向前選擇、向后選擇以及l(fā)asso等的變量選擇方法來篩選變量。

其中,lasso是最近興起的變量選擇方法,其原理大概如下:x是n維的解釋變量,y是模型的響應變量,logistic模型為:

log(p(y=1)/(1-p(y=1)))=β0+β1x1+...+βnxn;

上述公式中,p指成功概率,βi指xi對應的成功優(yōu)勢比,對于該優(yōu)勢比而言,是指某個指標如xi成功與失敗優(yōu)勢的對應比例。由于模型的估計大多或者全部非零,因此,lasso方法在模型的估計過程中對變量做出如下限制:

lasso-logistic模型中的參數βk需滿足如下條件:

其中的l(β)是似然函數,λ為比例系數,sλ為約束條件,或稱為壓縮系數。

那么,lasso-logistic模型的參數βk可以寫成如下形式:

現有技術的缺點及本申請?zhí)岚敢鉀Q的技術問題為:

通過傳統(tǒng)的數據變量選擇的方法選擇出來的模型變量,多數甚至全部都是顯著的,即模型與大多數變量都有關系,變量選擇的結果不具有稀疏性。這使得模型變得復雜,也使得模型的解釋變得困難。例如,通過logistic模型衡量移動用戶的信用得分,如果選擇用戶繳費、實名認證、消費能力等方面的40個變量,利用向前、向后變量選擇的方法得到27個變量都是顯著的,但是模型的信用得分與每個變量的關系變得比較弱,模型的解釋非常復雜,且每個變量都不能充分解釋模型的響應變量。

而通過logistic-lasso模型選擇的模型出現了變量過度壓縮的問題,通常選擇出來的變量是顯著的,但是變量的影響力大大削弱。



技術實現要素:

有鑒于此,本發(fā)明實施例希望提供一種基于logistic用戶評分模型的變量選擇方法及裝置,至少解決了現有技術存在的技術問題。

本發(fā)明實施例的技術方案是這樣實現的:

本發(fā)明實施例的一種基于邏輯用戶評分模型的變量選擇方法,所述方法包括:

對至少一個第一請求進行響應,以收集樣本數據;

通過對所述樣本數據中至少m個變量按照預設策略進行篩選,篩選得到n個變量,所述m>n,為大于1的自然數;

根據所述n個變量來建模,得到第一模型;

根據所述第一模型進行數據處理,得到的數據處理結果與每個變量的關系為僅與符合預設數量的顯著變量間具備預設的相關度,且每個變量支持對所述第一模型中的響應變量進行符合用戶實際需求的反饋。

上述方案中,所述通過對所述樣本數據中至少m個變量按照預設策略進行篩選,篩選得到n個變量,包括:

在比例系數屬于[0,∞)區(qū)間,壓縮系數屬于(0,1]區(qū)間時,根據由m個變量中的解釋變量、響應變量、解釋變量對應的成功優(yōu)勢比、比例系數和壓縮系數篩選得到n個變量。

上述方案中,所述通過對所述樣本數據中至少m個變量按照預設策略進行篩選,篩選得到n個變量,進一步包括:

將所述n個變量用β進行表示時,獲取β的當前估計值βold;

通過中間處理過程的運算,得到β的目標估計值βnew,直至則停止執(zhí)行中間處理過程的運算;所述ε為指定的系數。

上述方案中,所述第一模型為所述停止執(zhí)行中間處理過程的運算后得到的處理模型。

上述方案中,所述中間處理過程包括:

通過似然函數對所述β進行求導的方式;

計算二階導數,并得到對角矩陣的方式;

進行加權最小二乘的迭代方式;

通過坐標下降,每次優(yōu)化一個變量,逐個優(yōu)化變量,直至收斂的方式;

通過以上至少一種方式,不斷更新所述βold,以得到所述βnew。

本發(fā)明實施例的一種基于邏輯用戶評分模型的變量選擇裝置,所述裝置包括:

數據收集單元,用于對至少一個第一請求進行響應,以收集樣本數據;

篩選單元,用于通過對所述樣本數據中至少m個變量按照預設策略進行篩選,篩選得到n個變量,所述m>n,為大于1的自然數;

模型生成單元,用于根據所述n個變量來建模,得到第一模型;

數據處理單元,用于根據所述第一模型進行數據處理,得到的數據處理結果與每個變量的關系為僅與符合預設數量的顯著變量間具備預設的相關度,且每個變量支持對所述第一模型中的響應變量進行符合用戶實際需求的反饋。

上述方案中,所述篩選單元,進一步用于:

在比例系數屬于[0,∞)區(qū)間,壓縮系數屬于(0,1]區(qū)間時,根據由m個變量中的解釋變量、響應變量、解釋變量對應的成功優(yōu)勢比、比例系數和壓縮系數篩選得到n個變量。

上述方案中,所述篩選單元,進一步用于:

將所述n個變量用β進行表示時,獲取β的當前估計值βold;

通過中間處理過程的運算,得到β的目標估計值βnew,直至則停止執(zhí)行中間處理過程的運算;所述ε為指定的系數。

上述方案中,所述第一模型為所述停止執(zhí)行中間處理過程的運算后得到的處理模型。

上述方案中,所述篩選單元,進一步用于采用如下中間處理過程進行所述運算:

通過似然函數對所述β進行求導的方式;

計算二階導數,并得到對角矩陣的方式;

進行加權最小二乘的迭代方式;

通過坐標下降,每次優(yōu)化一個變量,逐個優(yōu)化變量,直至收斂的方式;

通過以上至少一種方式,不斷更新所述βold,以得到所述βnew。

本發(fā)明實施例的基于邏輯用戶評分模型的變量選擇方法包括:對至少一個第一請求進行響應,以收集樣本數據;通過對所述樣本數據中至少m個變量按照預設策略進行篩選,篩選得到n個變量,所述m>n,為大于1的自然數;根據所述n個變量來建模,得到第一模型;根據所述第一模型進行數據處理,得到的數據處理結果與每個變量的關系為僅與符合預設數量的顯著變量間具備預設的相關度,且每個變量支持對所述第一模型中的響應變量進行符合用戶實際需求的反饋。采用本發(fā)明實施例,至少解決了現有技術存在的技術問題,一方面使得模型的變量減少,模型的解釋更加清晰,另一方面使得變量解釋更加充分。

附圖說明

圖1為本發(fā)明方法的實現流程示意圖;

圖2為通過對所述樣本數據中至少m個變量按照預設策略進行篩選的實現流程示意圖;

圖3為本發(fā)明裝置的組成結構示意圖。

具體實施方式

下面結合附圖對技術方案的實施作進一步的詳細描述。

本發(fā)明實施例的一種基于邏輯用戶評分模型的變量選擇方法,如圖1所示,所述方法包括:

步驟101、對至少一個第一請求進行響應,以收集樣本數據。

步驟102、通過對所述樣本數據中至少m個變量按照預設策略進行篩選,篩選得到n個變量,所述m>n,為大于1的自然數。

這里,預設策略可以為后續(xù)應用場景中運用的公式:

后續(xù)具體闡述,這里不做贅述。

步驟103、根據所述n個變量來建模,得到第一模型。

這里,第一模型的一個實例可以為用于信用評分處理的模型,通過上述公式及各種中間過程的運算,得到的最終運算結果即為該第一模型。后續(xù)具體闡述,這里不做贅述。

步驟104、根據所述第一模型進行數據處理,得到的數據處理結果與每個變量的關系為僅與符合預設數量的顯著變量間具備預設的相關度,且每個變量支持對所述第一模型中的響應變量進行符合用戶實際需求的反饋。

這里,第一模型的一個實例可以為用于信用評分處理的模型時,根據所述第一模型進行數據處理,具體為進行信用評分處理。得到的數據處理結果與每個變量的關系為僅與符合預設數量的顯著變量間具備預設的相關度,且每個變量支持對所述第一模型中的響應變量進行符合用戶實際需求的反饋,是指:區(qū)別于現有技術(現有技術中,第一模型與每個變量都具備相關度,大部分的變量都為顯著變量),本發(fā)明實施例經過這種處理得到的是:更少的變量與第一模型具備相關度的意思,即用更少的變量來詮釋相關度。當每個變量支持對所述第一模型中的響應變量進行符合用戶實際需求的反饋時,則每個變量都可以對響應變量進行充分的解釋。

在本發(fā)明實施例一實施方式中,所述通過對所述樣本數據中至少m個變量按照預設策略進行篩選,篩選得到n個變量,包括:在比例系數λ屬于[0,∞)區(qū)間,壓縮系數φ屬于(0,1]區(qū)間時,根據由m個變量中的解釋變量xi、響應變量yi、解釋變量對應的成功優(yōu)勢比β、比例系數和壓縮系數篩選得到n個變量。

在本發(fā)明實施例一實施方式中,所述通過對所述樣本數據中至少m個變量按照預設策略進行篩選,篩選得到n個變量,如圖2所示,進一步包括:

步驟201、將所述n個變量用β進行表示時,獲取β的當前估計值βold

步驟202、通過中間處理過程的運算,得到β的目標估計值βnew,直至βnew與βold的絕對值小于指定值ε,即:則停止執(zhí)行中間處理過程的運算;所述ε為指定的系數。

在本發(fā)明實施例一實施方式中,所述第一模型為所述停止執(zhí)行中間處理過程的運算后得到的處理模型。

在本發(fā)明實施例一實施方式中,所述中間處理過程包括:

通過似然函數對所述β進行求導的方式;

計算二階導數,并得到對角矩陣的方式;

進行加權最小二乘的迭代方式;

通過坐標下降,每次優(yōu)化一個變量,逐個優(yōu)化變量,直至收斂的方式;

通過以上至少一種方式,不斷更新所述βold,以得到所述βnew。

本發(fā)明實施例的一種基于邏輯用戶評分模型的變量選擇裝置,如圖3所示,所述裝置包括:

數據收集單元11,用于對至少一個第一請求進行響應,以收集樣本數據;

篩選單元12,用于通過對所述樣本數據中至少m個變量按照預設策略進行篩選,篩選得到n個變量,所述m>n,為大于1的自然數;

模型生成單元13,用于根據所述n個變量來建模,得到第一模型;

數據處理單元14,用于根據所述第一模型進行數據處理,得到的數據處理結果與每個變量的關系為僅與符合預設數量的顯著變量間具備預設的相關度,且每個變量支持對所述第一模型中的響應變量進行符合用戶實際需求的反饋。

這里,第一模型的一個實例可以為用于信用評分處理的模型時,根據所述第一模型進行數據處理,具體為進行信用評分處理。得到的數據處理結果與每個變量的關系為僅與符合預設數量的顯著變量間具備預設的相關度,且每個變量支持對所述第一模型中的響應變量進行符合用戶實際需求的反饋,是指:區(qū)別于現有技術(現有技術中,第一模型與每個變量都具備相關度,大部分的變量都為顯著變量),本發(fā)明實施例經過這種處理得到的是:更少的變量與第一模型具備相關度的意思,即用更少的變量來詮釋相關度。當每個變量支持對所述第一模型中的響應變量進行符合用戶實際需求的反饋時,則每個變量都可以對響應變量進行充分的解釋。

在本發(fā)明實施例一實施方式中,所述篩選單元,進一步用于:

在比例系數屬于[0,∞)區(qū)間,壓縮系數屬于(0,1]區(qū)間時,根據由m個變量中的解釋變量、響應變量、解釋變量對應的成功優(yōu)勢比、比例系數和壓縮系數篩選得到n個變量。

在本發(fā)明實施例一實施方式中,所述篩選單元,進一步用于:

將所述n個變量用β進行表示時,獲取β的當前估計值βold;

通過中間處理過程的運算,得到β的目標估計值βnew,直至則停止執(zhí)行中間處理過程的運算;所述ε為指定的系數。

在本發(fā)明實施例一實施方式中,所述第一模型為所述停止執(zhí)行中間處理過程的運算后得到的處理模型。

在本發(fā)明實施例一實施方式中,其特征在于,所述篩選單元,進一步用于采用如下中間處理過程進行所述運算:

通過似然函數對所述β進行求導的方式;

計算二階導數,并得到對角矩陣的方式;

進行加權最小二乘的迭代方式;

通過坐標下降,每次優(yōu)化一個變量,逐個優(yōu)化變量,直至收斂的方式;

通過以上至少一種方式,不斷更新所述βold,以得到所述βnew

以一個現實應用場景為例對本發(fā)明實施例闡述如下:

本應用場景針對用戶評分模型而言,采用本發(fā)明實施例,提供了一種數據變量選擇的思路,并根據此方法,設計了模型參數估計的變量選擇方案。

對于λ∈[0,∞),φ∈(0,1],有如下公式:

如上述步驟102中所指代的預設策略。φ為壓縮系數,λ為比例系數。

其中,表示變量的集合,使得對于k∈{1,...,p}有如下公式:

參數估計與算法過程包括如下內容:

首先,考慮一般logistic回歸模型的求解,記為如下:

其中的l(β)是似然函數,對l(β)關于β求導,得到如下公式:

其中μ指中間參數,為β的一個函數,為了求得最優(yōu)解,要求得β,使得為此,采用newton-raphson迭代,這需要計算二階導數,即hessian矩陣,采用如下的公式:

這樣,給定當前β的估計值βold,新的估計值βnew如下:

對于以上的推導,用矩陣形式表示出來,記x為n×p的矩陣,其中第i行為w為對角矩陣,wi為對角矩陣對角線上的元素,則對角線上的元素是:

wi=μ(xiβ)(1-μ(xiβ)),y=(y1,..,yn)t,μ=(μ(x1β),...,μ(xnβ))。這樣,newton-raphson迭代可以表示為:

βnew=βold+(xtwx)-1x(yi-μ)=(xtwx)-1xtz

其中,z=xβold+w-1(y-μ)可以看出,每次newton-raphson迭代實際上求解如下加權最小二乘問題,z為中間參數,計算加權最小二乘問題的公式為:

進一步,將relaxed懲罰應用在logistic模型的l1/2正則化中,得到迭代格式,如下所示:

而對于logistic回歸,采用類似的迭代算法來求解,只需要對上面的公式做變形,得到迭代格式:

下面考慮對于上式進行求解,采用坐標下降的方法,每次最優(yōu)化一個變量,逐個優(yōu)化變量,直至收斂,最優(yōu)化目標函數可以表示成:

其中的優(yōu)化函數可以表示成:

這里,β,β0是固定變量,對于截距項和一般項的求導,令

其中,對于所述截距項的求導公式如下:

其中,對于一般項的求導,即:極小化gk(βk)等價于極小化:

hk(βk)=β2k-2βkqk+λk|βk|1/2

這里,用于計算qk的公式如下所示:

對hk(βk)求導得到如下公式:

這里,需要討論βk與0的關系:當βk>0時,其中的g(βk)是βk的三次函數,可以利用一元三次函數的求解方法,這樣,可以得到:

當βk<0時,類似的,我們有:

綜合討論,有如下公式:

模型的參數估計過程采用的是坐標下降法,簡略的計算流程如下:

step1:計算中間統(tǒng)計量:qk和λk等;

step2:按照公式(1)、(2)更新得到k=1,...,k

step3:重復step2,直至

采用本發(fā)明實施例,給出了一種在大數據開放的時代背景下,可以解決數據模型變量選擇問題的思路,構建了可變量選擇過程的具體實現過程。一方面,很好的解決了大數據環(huán)境中,數據模型變量的選擇問題提高了數據模型的效率,減少了模型的冗余變量。同時本發(fā)明的計算步驟迭代較少,增加了發(fā)明的可操作性和運行效率。另一方面,很好的規(guī)避了現有技術中的顯著變量過度壓縮的問題,在壓縮不顯著變量的同時,最大限度的保留顯著變量的顯著性。一個實驗數據為:本方案抽取了342個手機用戶的數據做了樣本測試,首先,初步選擇了樣本的42個模型變量的數據,經過logistic-lasso模型的變量選擇結果,最終27個顯著的變量,進一步將這27個變量分為6個子維度,并得到用戶的移動信用評分,經過樣本中部分用戶的反饋,信用評分基本能正確反映用戶的信用狀況。

本發(fā)明實施例所述集成的模塊如果以軟件功能模塊的形式實現并作為獨立的產品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質中?;谶@樣的理解,本發(fā)明實施例的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟件產品的形式體現出來,該計算機軟件產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機、服務器、或者網絡設備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分。而前述的存儲介質包括:u盤、移動硬盤、只讀存儲器(rom,read-onlymemory)、隨機存取存儲器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲程序代碼的介質。這樣,本發(fā)明實施例不限制于任何特定的硬件和軟件結合。

相應的,本發(fā)明實施例還提供一種計算機存儲介質,其中存儲有計算機程序,該計算機程序用于執(zhí)行本發(fā)明實施例的基于logistic用戶評分模型的變量選擇方法。

以上所述,僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1