本發(fā)明涉及大數(shù)據(jù)營銷模型領(lǐng)域,特別涉及一種大數(shù)據(jù)精準(zhǔn)營銷模型的構(gòu)建方法及裝置。
背景技術(shù):
傳統(tǒng)的精準(zhǔn)營銷模型有很多,不同的模型和不同的數(shù)據(jù)處理手段都會(huì)導(dǎo)致模型的準(zhǔn)確率不同,但是傳統(tǒng)的精準(zhǔn)營銷模型中有一個(gè)通病,就是缺乏步驟之間的連接線,往往需要在中間步驟加入人工的操作,其操作較為復(fù)雜,另外,還需要每一個(gè)用戶都要有數(shù)據(jù)分析的能力,當(dāng)不具有數(shù)據(jù)分析能力的用戶想要對(duì)傳統(tǒng)的精準(zhǔn)營銷模型進(jìn)行操作時(shí),其面臨的問題是不能進(jìn)行操作。傳統(tǒng)的精準(zhǔn)影響模型只能針對(duì)特定的人群(即有數(shù)據(jù)分析能力的用戶)才能進(jìn)行操作,非分析人員不便于對(duì)傳統(tǒng)的精準(zhǔn)營銷模型進(jìn)行操作,其使用范圍受限。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題在于,針對(duì)現(xiàn)有技術(shù)的上述缺陷,提供一種模型效果更加精準(zhǔn)、中間不需要任何的人工操作、操作較為簡便、非分析人員也能使用模型的大數(shù)據(jù)精準(zhǔn)營銷模型的構(gòu)建方法及裝置。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:構(gòu)造一種大數(shù)據(jù)精準(zhǔn)營銷模型的構(gòu)建方法,包括如下步驟:
A)讀取建模數(shù)據(jù)樣本文件并輸入建模數(shù)據(jù)樣本;所述建模數(shù)據(jù)樣本文件包含影響變量和目標(biāo)變量;
B)按照設(shè)定的比例將所述建模數(shù)據(jù)樣本劃分為訓(xùn)練樣本和測試樣本;
C)采取眾數(shù)的方法對(duì)所述訓(xùn)練樣本和測試樣本進(jìn)行缺失值補(bǔ)全;
D)對(duì)所述訓(xùn)練樣本中的連續(xù)型的影響變量做離散化處理;
E)計(jì)算離散化處理后的每個(gè)影響變量中各屬性的信息熵,并對(duì)缺失值補(bǔ)全后的數(shù)據(jù)進(jìn)行替換,并存儲(chǔ)替換規(guī)則;
F)采用二元邏輯回歸的方法固定所述建模數(shù)據(jù)樣本文件的最后一列為目標(biāo)變量,其他為自變量,利用所述訓(xùn)練樣本訓(xùn)練所述大數(shù)據(jù)精準(zhǔn)營銷模型;
G)利用所述測試樣本對(duì)所述大數(shù)據(jù)精準(zhǔn)營銷模型進(jìn)行測試,并輸出測試結(jié)果,利用AUC(Area Under roc Curve,曲線下面積)值來判斷所述大數(shù)據(jù)精準(zhǔn)營銷模型的好壞;
H)讀取目標(biāo)數(shù)據(jù)樣本文件并輸入目標(biāo)數(shù)據(jù)樣本;所述目標(biāo)數(shù)據(jù)樣本文件包含影響變量;
I)利用統(tǒng)計(jì)的方法對(duì)所述目標(biāo)數(shù)據(jù)樣本進(jìn)行缺失值補(bǔ)全;
J)對(duì)所述目標(biāo)數(shù)據(jù)樣本中連續(xù)型的影響變量按照所述建模數(shù)據(jù)樣本的規(guī)則做離散化替換,替換成離散型數(shù)據(jù);
K)按照所述替換規(guī)則對(duì)所述離散型數(shù)據(jù)做離散化替換;
L)計(jì)算所述目標(biāo)數(shù)據(jù)樣本中每一個(gè)目標(biāo)數(shù)據(jù)的概率值;
M)輸出概率列表。
在本發(fā)明所述的大數(shù)據(jù)精準(zhǔn)營銷模型的構(gòu)建方法中,所述步驟A)進(jìn)一步包括:
A1)讀取建模數(shù)據(jù)樣本文件,并判斷是否找到所述建模數(shù)據(jù)樣本文件,如是,執(zhí)行步驟A2);否則,退出;
A2)校驗(yàn)寫入的所述建模數(shù)據(jù)樣本是否具有所述目標(biāo)變量且所述目標(biāo)變量為二元變量,如是,執(zhí)行步驟B);否則,報(bào)錯(cuò)后返回步驟A1)。
在本發(fā)明所述的大數(shù)據(jù)精準(zhǔn)營銷模型的構(gòu)建方法中,所述步驟H)進(jìn)一步包括:
H1)讀取所述目標(biāo)數(shù)據(jù)樣本文件,并判斷是否找到所述建模數(shù)據(jù)樣本文件,如是,執(zhí)行步驟H2);否則,退出;
H2)校驗(yàn)所述目標(biāo)數(shù)據(jù)樣本文件中的字段與所述建模數(shù)據(jù)樣本是否一致,如是,執(zhí)行步驟I);否則,報(bào)錯(cuò)后返回步驟H1)。
在本發(fā)明所述的大數(shù)據(jù)精準(zhǔn)營銷模型的構(gòu)建方法中,所述設(shè)定的比例為7:3。
在本發(fā)明所述的大數(shù)據(jù)精準(zhǔn)營銷模型的構(gòu)建方法中,當(dāng)所述AUC值小于0.6時(shí),確定所述大數(shù)據(jù)精準(zhǔn)營銷模型的測試結(jié)果不好。
本發(fā)明還涉及一種實(shí)現(xiàn)上述大數(shù)據(jù)精準(zhǔn)營銷模型的構(gòu)建方法的裝置,包括:
建模數(shù)據(jù)樣本輸入單元:用于讀取建模數(shù)據(jù)樣本文件并輸入建模數(shù)據(jù)樣本;所述建模數(shù)據(jù)樣本文件包含影響變量和目標(biāo)變量;
樣本劃分單元:用于按照設(shè)定的比例將所述建模數(shù)據(jù)樣本劃分為訓(xùn)練樣本和測試樣本;
樣本缺失值補(bǔ)全單元:用于采取眾數(shù)的方法對(duì)所述訓(xùn)練樣本和測試樣本進(jìn)行缺失值補(bǔ)全;
離散處理單元:用于對(duì)所述訓(xùn)練樣本中的連續(xù)型的影響變量做離散化處理;
信息熵計(jì)算替換單元:用于計(jì)算離散化處理后的每個(gè)影響變量中各屬性的信息熵,并對(duì)缺失值補(bǔ)全后的數(shù)據(jù)進(jìn)行替換,并存儲(chǔ)替換規(guī)則;
模型訓(xùn)練單元:用于采用二元邏輯回歸的方法固定所述建模數(shù)據(jù)樣本文件的最后一列為目標(biāo)變量,其他為自變量,利用所述訓(xùn)練樣本訓(xùn)練所述大數(shù)據(jù)精準(zhǔn)營銷模型;
測試單元:用于利用所述測試樣本對(duì)所述大數(shù)據(jù)精準(zhǔn)營銷模型進(jìn)行測試,并輸出測試結(jié)果,利用AUC值來判斷所述大數(shù)據(jù)精準(zhǔn)營銷模型的好壞;
目標(biāo)數(shù)據(jù)樣本輸入單元:用于讀取目標(biāo)數(shù)據(jù)樣本文件并輸入目標(biāo)數(shù)據(jù)樣本;所述目標(biāo)數(shù)據(jù)樣本文件包含影響變量;
目標(biāo)數(shù)據(jù)補(bǔ)全單元:用于利用統(tǒng)計(jì)的方法對(duì)所述目標(biāo)數(shù)據(jù)樣本進(jìn)行缺失值補(bǔ)全;
離散化替換單元:對(duì)所述目標(biāo)數(shù)據(jù)樣本中連續(xù)型的影響變量按照所述建模數(shù)據(jù)樣本的規(guī)則做離散化替換,替換成離散型數(shù)據(jù);
信息熵替換單元:用于按照所述替換規(guī)則對(duì)所述離散型數(shù)據(jù)做離散化替換;
概率計(jì)算單元:用于計(jì)算所述目標(biāo)數(shù)據(jù)樣本中每一個(gè)目標(biāo)數(shù)據(jù)的概率值;
結(jié)果輸出單元:用于輸出概率列表。
在本發(fā)明所述的裝置中,所述建模數(shù)據(jù)樣本輸入單元進(jìn)一步包括:
建模數(shù)據(jù)樣本文件讀取判斷模塊:用于讀取建模數(shù)據(jù)樣本文件,并判斷是否找到所述建模數(shù)據(jù)樣本文件,如是,進(jìn)入建模數(shù)據(jù)樣本校驗(yàn)?zāi)K;否則,退出;
建模數(shù)據(jù)樣本校驗(yàn)?zāi)K:用于校驗(yàn)寫入的所述建模數(shù)據(jù)樣本是否具有所述目標(biāo)變量且所述目標(biāo)變量為二元變量,如是,進(jìn)入所述樣本劃分單元;否則,報(bào)錯(cuò)后返回所述建模數(shù)據(jù)樣本文件讀取判斷模塊。
在本發(fā)明所述的裝置中,所述目標(biāo)數(shù)據(jù)樣本輸入單元進(jìn)一步包括:
目標(biāo)數(shù)據(jù)樣本文件讀取判斷模塊:用于讀取所述目標(biāo)數(shù)據(jù)樣本文件,并判斷是否找到所述建模數(shù)據(jù)樣本文件,如是,進(jìn)入樣本判斷模塊;否則,退出;
樣本判斷模塊:用于校驗(yàn)所述目標(biāo)數(shù)據(jù)樣本文件中的字段與所述建模數(shù)據(jù)樣本是否一致,如是,進(jìn)入目標(biāo)數(shù)據(jù)補(bǔ)全單元;否則,報(bào)錯(cuò)后返回所述目標(biāo)數(shù)據(jù)樣本文件讀取判斷模塊。
在本發(fā)明所述的裝置中,所述設(shè)定的比例為7:3。
在本發(fā)明所述的裝置中,當(dāng)所述AUC值小于0.6時(shí),確定所述大數(shù)據(jù)精準(zhǔn)營銷模型的測試結(jié)果不好。
實(shí)施本發(fā)明的大數(shù)據(jù)精準(zhǔn)營銷模型的構(gòu)建方法及裝置,具有以下有益效果:由于采用信息熵技術(shù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,即采取眾數(shù)的方法對(duì)訓(xùn)練樣本和測試樣本進(jìn)行缺失值補(bǔ)全,利用統(tǒng)計(jì)的方法對(duì)缺失值進(jìn)行補(bǔ)全,使得該大數(shù)據(jù)精準(zhǔn)營銷模型的效果更加精準(zhǔn),并且對(duì)該大數(shù)據(jù)精準(zhǔn)營銷模型的整個(gè)流程進(jìn)行了封裝,加入了程序自動(dòng)化的思想,中間不需要任何的人工操作,既使是非分析人員也能使用模型;所以其模型效果更加精準(zhǔn)、中間不需要任何的人工操作、操作較為簡便、非分析人員也能使用模型。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明大數(shù)據(jù)精準(zhǔn)營銷模型的構(gòu)建方法及裝置一個(gè)實(shí)施例中方法的流程圖;
圖2為所述實(shí)施例中讀取建模數(shù)據(jù)樣本文件并輸入建模數(shù)據(jù)樣本的具體流程圖;
圖3為所述實(shí)施例中讀取目標(biāo)數(shù)據(jù)樣本文件并輸入目標(biāo)數(shù)據(jù)樣本的具體流程圖;
圖4為所述實(shí)施例中裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
在本發(fā)明大數(shù)據(jù)精準(zhǔn)營銷模型的構(gòu)建方法及裝置實(shí)施例中,其大數(shù)據(jù)精準(zhǔn)營銷模型的構(gòu)建方法的流程圖如圖1所示。圖1中,該大數(shù)據(jù)精準(zhǔn)營銷模型的構(gòu)建方法包括如下步驟:
步驟S01讀取建模數(shù)據(jù)樣本文件并輸入建模數(shù)據(jù)樣本:本步驟中,讀取建模數(shù)據(jù)樣本文件,并輸入建模數(shù)據(jù)樣本。上述建模數(shù)據(jù)樣本文件為csv格式的文件,該建模數(shù)據(jù)樣本文件包含影響變量和目標(biāo)變量。
步驟S02按照設(shè)定的比例將建模數(shù)據(jù)樣本劃分為訓(xùn)練樣本和測試樣本:本步驟主要是進(jìn)行數(shù)據(jù)劃分,具體的,本步驟中,按照設(shè)定的比例將建模數(shù)據(jù)樣本劃分為訓(xùn)練樣本和測試樣本,該設(shè)定的比例為7:3,也就是按照7:3的比例把建模數(shù)據(jù)樣本劃分為訓(xùn)練樣本和測試樣本。當(dāng)然,實(shí)際應(yīng)用中,該設(shè)定比例可根據(jù)具體情況進(jìn)行相應(yīng)調(diào)整。
步驟S03采取眾數(shù)的方法對(duì)訓(xùn)練樣本和測試樣本進(jìn)行缺失值補(bǔ)全:本步驟主要是進(jìn)行數(shù)據(jù)預(yù)處理,具體的,本步驟中,采取眾數(shù)的方法對(duì)訓(xùn)練樣本和測試樣本進(jìn)行缺失值補(bǔ)全。
步驟S04對(duì)訓(xùn)練樣本中的連續(xù)型的影響變量做離散化處理:本步驟主要是進(jìn)行離散化處理,具體的,本步驟中,對(duì)訓(xùn)練樣本中的連續(xù)型的影響變量做離散化處理。
步驟S05計(jì)算離散化處理后的每個(gè)影響變量中各屬性的信息熵,并對(duì)缺失值補(bǔ)全后的數(shù)據(jù)進(jìn)行替換,并存儲(chǔ)替換規(guī)則:本步驟主要是進(jìn)行信息熵的計(jì)算,具體的,本步驟中,計(jì)算離散化處理后的每個(gè)影響變量中各屬性的信息熵,并對(duì)缺失值補(bǔ)全后的數(shù)據(jù)進(jìn)行替換,并且存儲(chǔ)替換規(guī)則。這里的影響變量就是用戶在前端界面輸入的字段,如年齡、性別等。
步驟S06采用二元邏輯回歸的方法固定建模數(shù)據(jù)樣本文件的最后一列為目標(biāo)變量,其他為自變量,利用訓(xùn)練樣本訓(xùn)練大數(shù)據(jù)精準(zhǔn)營銷模型:本步驟主要是進(jìn)行模型的訓(xùn)練,具體的,本步驟中,采用二元邏輯回歸的方法固定建模數(shù)據(jù)樣本文件的最后一列為目標(biāo)變量(y),其他為自變量(X1-Xn),其中,n為自變量的個(gè)數(shù),n為≥1的整數(shù),利用訓(xùn)練樣本訓(xùn)練大數(shù)據(jù)精準(zhǔn)營銷模型。當(dāng)y為0時(shí),表示壞樣本;當(dāng)y為1時(shí),表示好樣本。
步驟S07利用測試樣本對(duì)大數(shù)據(jù)精準(zhǔn)營銷模型進(jìn)行測試,并輸出測試結(jié)果,利用AUC值來判斷大數(shù)據(jù)精準(zhǔn)營銷模型的好壞:本步驟主要是進(jìn)行模型的測試,具體的,本步驟中,利用測試樣本對(duì)大數(shù)據(jù)精準(zhǔn)營銷模型進(jìn)行測試,并輸出測試結(jié)果,利用AUC值來判斷大數(shù)據(jù)精準(zhǔn)營銷模型的好壞,AUC值是一種用來度量分類模型好壞的一個(gè)標(biāo)準(zhǔn),本實(shí)施例中,當(dāng)AUC值小于0.6時(shí),說明測試效果不好,也即是確定該大數(shù)據(jù)精準(zhǔn)營銷模型的測試結(jié)果不好,建議重新輸入一些新的影響變量。當(dāng)然,上述的0.6也可以改成其他值,具體根據(jù)實(shí)際需求進(jìn)行調(diào)整即可。
步驟S08讀取目標(biāo)數(shù)據(jù)樣本文件并輸入目標(biāo)數(shù)據(jù)樣本:本步驟中,讀取目標(biāo)數(shù)據(jù)樣本文件并輸入目標(biāo)數(shù)據(jù)樣本,該目標(biāo)數(shù)據(jù)樣本文件包含與建模數(shù)據(jù)樣本一致的影響變量。
步驟S09利用統(tǒng)計(jì)的方法對(duì)目標(biāo)數(shù)據(jù)樣本進(jìn)行缺失值補(bǔ)全:本步驟主要是進(jìn)行數(shù)據(jù)預(yù)處理,具體是利用統(tǒng)計(jì)的方法對(duì)目標(biāo)數(shù)據(jù)樣本進(jìn)行缺失值補(bǔ)全。
步驟S10對(duì)目標(biāo)數(shù)據(jù)樣本中連續(xù)型的影響變量按照建模數(shù)據(jù)樣本的規(guī)則做離散化替換,替換成離散型數(shù)據(jù):本步驟主要是進(jìn)行離散化處理,具體的,本步驟中,對(duì)目標(biāo)數(shù)據(jù)樣本中連續(xù)型的影響變量按照建模數(shù)據(jù)樣本的規(guī)則做離散化替換,替換成離散型數(shù)據(jù)。
步驟S11按照替換規(guī)則對(duì)離散型數(shù)據(jù)做離散化替換:本步驟主要是進(jìn)行信息熵的替換,具體的,本步驟中,按照上述替換規(guī)則對(duì)離散型數(shù)據(jù)做離散化替換。
步驟S12計(jì)算目標(biāo)數(shù)據(jù)樣本中每一個(gè)目標(biāo)數(shù)據(jù)的概率值:本步驟中,計(jì)算目標(biāo)數(shù)據(jù)樣本中每一個(gè)目標(biāo)數(shù)據(jù)的概率值,也就是計(jì)算目標(biāo)數(shù)據(jù)樣本中每一個(gè)id的概率值,該id可以為用戶。
步驟S13輸出概率列表:本步驟中,輸出概率列表。
對(duì)比傳統(tǒng)的精準(zhǔn)營銷模型,本發(fā)明的方法采用信息熵技術(shù)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,使得該大數(shù)據(jù)精準(zhǔn)營銷模型的效果更加精準(zhǔn),并且對(duì)該大數(shù)據(jù)精準(zhǔn)營銷模型的整個(gè)流程進(jìn)行了封裝,加入了程序自動(dòng)化的思想,中間不需要任何的人工操作,操作較為簡便,既使是非分析人員也能使用模型。
對(duì)于本實(shí)施例而言,上述步驟S01還可進(jìn)一步細(xì)化,其細(xì)化后的流程圖如圖2所示。圖2中,該步驟S01進(jìn)一步包括:
步驟S101讀取建模數(shù)據(jù)樣本文件,并判斷是否找到建模數(shù)據(jù)樣本文件:本步驟中,讀取建模數(shù)據(jù)樣本文件,并判斷是否找到建模數(shù)據(jù)樣本文件,如果判斷的結(jié)果為是,則執(zhí)行步驟S103;否則,執(zhí)行步驟S102。
步驟S102退出:如果上述步驟S101的判斷結(jié)果為否,則執(zhí)行本步驟。本步驟中,退出。
步驟S103校驗(yàn)寫入的建模數(shù)據(jù)樣本是否具有目標(biāo)變量且目標(biāo)變量為二元變量:本步驟主要是對(duì)寫入的建模數(shù)據(jù)樣本進(jìn)行校驗(yàn),具體的,本步驟中,校驗(yàn)寫入的建模數(shù)據(jù)樣本是否符合要求,即是否具有目標(biāo)變量、目標(biāo)變量是否為二元變量,如果判斷的結(jié)果為是,即符合要求,則執(zhí)行步驟S02;否則,執(zhí)行步驟S104。
步驟S104報(bào)錯(cuò):如果上述步驟S103的判斷結(jié)果為否,即不符合要求,則執(zhí)行本步驟。本步驟中,進(jìn)行報(bào)錯(cuò),執(zhí)行完本步驟,返回步驟S101。這樣就可以完成對(duì)寫入的建模數(shù)據(jù)樣本的校驗(yàn)。
對(duì)于本實(shí)施例而言,上述步驟S08還可進(jìn)一步細(xì)化,其細(xì)化后的流程圖如圖3所示。圖3中,上述步驟S08進(jìn)一步包括:
步驟S801讀取目標(biāo)數(shù)據(jù)樣本文件,并判斷是否找到建模數(shù)據(jù)樣本文件:本步驟中,讀取目標(biāo)數(shù)據(jù)樣本文件,并判斷是否找到建模數(shù)據(jù)樣本文件,如果判斷的結(jié)果為是,則執(zhí)行步驟S803;否則,執(zhí)行步驟S802。
步驟S802退出:如果上述步驟S801的判斷結(jié)果為否,則執(zhí)行本步驟。本步驟中,退出。
步驟S803校驗(yàn)?zāi)繕?biāo)數(shù)據(jù)樣本文件中的字段與建模數(shù)據(jù)樣本是否一致:如果上述步驟S801的判斷結(jié)果為是,則執(zhí)行本步驟。本步驟主要就是對(duì)寫入的目標(biāo)數(shù)據(jù)樣本進(jìn)行校驗(yàn),具體的,本步驟中,校驗(yàn)?zāi)繕?biāo)數(shù)據(jù)樣本文件中的字段與建模數(shù)據(jù)樣本是否一致,如果一致,則執(zhí)行步驟S09;否則,執(zhí)行步驟S804。
步驟S804報(bào)錯(cuò):如果上述步驟S803的校驗(yàn)結(jié)果為不一致,則執(zhí)行本步驟。本步驟中,進(jìn)行報(bào)錯(cuò)。執(zhí)行完本步驟,返回步驟S801。這樣就完成了對(duì)寫入的目標(biāo)數(shù)據(jù)樣本的校驗(yàn)。
本實(shí)施例還涉及一種實(shí)現(xiàn)上述大數(shù)據(jù)精準(zhǔn)營銷模型的構(gòu)建方法的裝置,其結(jié)構(gòu)示意圖如圖4所示。圖4中,該裝置包括建模數(shù)據(jù)樣本輸入單元1、樣本劃分單元2、樣本缺失值補(bǔ)全單元3、離散處理單元4、信息熵計(jì)算替換單元5、模型訓(xùn)練單元6、測試單元7、目標(biāo)數(shù)據(jù)樣本輸入單元8、目標(biāo)數(shù)據(jù)補(bǔ)全單元9、離散化替換單元10、信息熵替換單元11、概率計(jì)算單元12和結(jié)果輸出單元13。
本實(shí)施例中,建模數(shù)據(jù)樣本輸入單元1用于讀取建模數(shù)據(jù)樣本文件并輸入建模數(shù)據(jù)樣本;上述建模數(shù)據(jù)樣本文件包含影響變量和目標(biāo)變量;樣本劃分單元2用于按照設(shè)定的比例將建模數(shù)據(jù)樣本劃分為訓(xùn)練樣本和測試樣本;該設(shè)定的比例為7:3,也就是按照7:3的比例把建模數(shù)據(jù)樣本劃分為訓(xùn)練樣本和測試樣本。當(dāng)然,實(shí)際應(yīng)用中,該設(shè)定比例可根據(jù)具體情況進(jìn)行相應(yīng)調(diào)整。樣本缺失值補(bǔ)全單元3用于采取眾數(shù)的方法對(duì)訓(xùn)練樣本和測試樣本進(jìn)行缺失值補(bǔ)全;離散處理單元4用于對(duì)訓(xùn)練樣本中的連續(xù)型的影響變量做離散化處理;信息熵計(jì)算替換單元5用于計(jì)算離散化處理后的每個(gè)影響變量中各屬性的信息熵,并對(duì)缺失值補(bǔ)全后的數(shù)據(jù)進(jìn)行替換,并存儲(chǔ)替換規(guī)則;模型訓(xùn)練單元6用于采用二元邏輯回歸的方法固定建模數(shù)據(jù)樣本文件的最后一列為目標(biāo)變量,其他為自變量,利用訓(xùn)練樣本訓(xùn)練大數(shù)據(jù)精準(zhǔn)營銷模型。
本實(shí)施例中,測試單元7用于利用測試樣本對(duì)大數(shù)據(jù)精準(zhǔn)營銷模型進(jìn)行測試,并輸出測試結(jié)果,利用AUC值來判斷大數(shù)據(jù)精準(zhǔn)營銷模型的好壞;本實(shí)施例中,當(dāng)AUC值小于0.6時(shí),說明測試效果不好,也即是確定該大數(shù)據(jù)精準(zhǔn)營銷模型的測試結(jié)果不好,建議重新輸入一些新的影響變量。當(dāng)然,上述的0.6也可以改成其他值,具體根據(jù)實(shí)際需求進(jìn)行調(diào)整即可。
本實(shí)施例中,目標(biāo)數(shù)據(jù)樣本輸入單元8用于讀取目標(biāo)數(shù)據(jù)樣本文件并輸入目標(biāo)數(shù)據(jù)樣本;上述目標(biāo)數(shù)據(jù)樣本文件包含影響變量;目標(biāo)數(shù)據(jù)補(bǔ)全單元9用于利用統(tǒng)計(jì)的方法對(duì)目標(biāo)數(shù)據(jù)樣本進(jìn)行缺失值補(bǔ)全;離散化替換單元10對(duì)目標(biāo)數(shù)據(jù)樣本中連續(xù)型的影響變量按照建模數(shù)據(jù)樣本的規(guī)則做離散化替換,替換成離散型數(shù)據(jù);信息熵替換單元11用于按照替換規(guī)則對(duì)離散型數(shù)據(jù)做離散化替換;概率計(jì)算單元12用于計(jì)算目標(biāo)數(shù)據(jù)樣本中每一個(gè)目標(biāo)數(shù)據(jù)的概率值;結(jié)果輸出單元13用于輸出概率列表。
對(duì)比傳統(tǒng)的精準(zhǔn)營銷模型,本發(fā)明的裝置采用信息熵技術(shù)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,使得該大數(shù)據(jù)精準(zhǔn)營銷模型的效果更加精準(zhǔn),并且對(duì)該大數(shù)據(jù)精準(zhǔn)營銷模型的整個(gè)流程進(jìn)行了封裝,加入了程序自動(dòng)化的思想,中間不需要任何的人工操作,操作較為簡便,既使是非分析人員也能使用模型。
本實(shí)施例中,建模數(shù)據(jù)樣本輸入單元1進(jìn)一步包括建模數(shù)據(jù)樣本文件讀取判斷模塊11和建模數(shù)據(jù)樣本校驗(yàn)?zāi)K12;其中,建模數(shù)據(jù)樣本文件讀取判斷模塊11用于讀取建模數(shù)據(jù)樣本文件,并判斷是否找到建模數(shù)據(jù)樣本文件,如是,進(jìn)入建模數(shù)據(jù)樣本校驗(yàn)?zāi)K12;否則,退出;建模數(shù)據(jù)樣本校驗(yàn)?zāi)K12用于校驗(yàn)寫入的建模數(shù)據(jù)樣本是否具有目標(biāo)變量且目標(biāo)變量為二元變量,如是,進(jìn)入樣本劃分單元;否則,報(bào)錯(cuò)后返回建模數(shù)據(jù)樣本文件讀取判斷模塊11。這樣就可以完成對(duì)寫入的建模數(shù)據(jù)樣本的校驗(yàn)。
本實(shí)施例中,目標(biāo)數(shù)據(jù)樣本輸入單元8進(jìn)一步包括目標(biāo)數(shù)據(jù)樣本文件讀取判斷模塊81和樣本判斷模塊82;其中,目標(biāo)數(shù)據(jù)樣本文件讀取判斷模塊81用于讀取目標(biāo)數(shù)據(jù)樣本文件,并判斷是否找到建模數(shù)據(jù)樣本文件,如是,進(jìn)入樣本判斷模塊82;否則,退出;樣本判斷模塊82用于校驗(yàn)?zāi)繕?biāo)數(shù)據(jù)樣本文件中的字段與建模數(shù)據(jù)樣本是否一致,如是,進(jìn)入目標(biāo)數(shù)據(jù)補(bǔ)全單元9;否則,報(bào)錯(cuò)后返回目標(biāo)數(shù)據(jù)樣本文件讀取判斷模塊81。這樣就完成了對(duì)寫入的目標(biāo)數(shù)據(jù)樣本的校驗(yàn)。
總之,本發(fā)明通過采用信息熵技術(shù)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,使得該大數(shù)據(jù)精準(zhǔn)營銷模型的效果更加精準(zhǔn),并且對(duì)該大數(shù)據(jù)精準(zhǔn)營銷模型的整個(gè)流程進(jìn)行了封裝,加入了程序自動(dòng)化的思想,中間不需要任何的人工操作,操作較為簡便,既使是非分析人員也能使用模型。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。