1.一種大數(shù)據(jù)精準(zhǔn)營銷模型的構(gòu)建方法,其特征在于,包括如下步驟:
A)讀取建模數(shù)據(jù)樣本文件并輸入建模數(shù)據(jù)樣本;所述建模數(shù)據(jù)樣本文件包含影響變量和目標(biāo)變量;
B)按照設(shè)定的比例將所述建模數(shù)據(jù)樣本劃分為訓(xùn)練樣本和測試樣本;
C)采取眾數(shù)的方法對所述訓(xùn)練樣本和測試樣本進行缺失值補全;
D)對所述訓(xùn)練樣本中的連續(xù)型的影響變量做離散化處理;
E)計算離散化處理后的每個影響變量中各屬性的信息熵,并對缺失值補全后的數(shù)據(jù)進行替換,并存儲替換規(guī)則;
F)采用二元邏輯回歸的方法固定所述建模數(shù)據(jù)樣本文件的最后一列為目標(biāo)變量,其他為自變量,利用所述訓(xùn)練樣本訓(xùn)練所述大數(shù)據(jù)精準(zhǔn)營銷模型;
G)利用所述測試樣本對所述大數(shù)據(jù)精準(zhǔn)營銷模型進行測試,并輸出測試結(jié)果,利用AUC值來判斷所述大數(shù)據(jù)精準(zhǔn)營銷模型的好壞;
H)讀取目標(biāo)數(shù)據(jù)樣本文件并輸入目標(biāo)數(shù)據(jù)樣本;所述目標(biāo)數(shù)據(jù)樣本文件包含影響變量;
I)利用統(tǒng)計的方法對所述目標(biāo)數(shù)據(jù)樣本進行缺失值補全;
J)對所述目標(biāo)數(shù)據(jù)樣本中連續(xù)型的影響變量按照所述建模數(shù)據(jù)樣本的規(guī)則做離散化替換,替換成離散型數(shù)據(jù);
K)按照所述替換規(guī)則對所述離散型數(shù)據(jù)做離散化替換;
L)計算所述目標(biāo)數(shù)據(jù)樣本中每一個目標(biāo)數(shù)據(jù)的概率值;
M)輸出概率列表。
2.根據(jù)權(quán)利要求1所述的大數(shù)據(jù)精準(zhǔn)營銷模型的構(gòu)建方法,其特征在于,所述步驟A)進一步包括:
A1)讀取建模數(shù)據(jù)樣本文件,并判斷是否找到所述建模數(shù)據(jù)樣本文件,如是,執(zhí)行步驟A2);否則,退出;
A2)校驗寫入的所述建模數(shù)據(jù)樣本是否具有所述目標(biāo)變量且所述目標(biāo)變量為二元變量,如是,執(zhí)行步驟B);否則,報錯后返回步驟A1)。
3.根據(jù)權(quán)利要求1或2所述的大數(shù)據(jù)精準(zhǔn)營銷模型的構(gòu)建方法,其特征在于,所述步驟H)進一步包括:
H1)讀取所述目標(biāo)數(shù)據(jù)樣本文件,并判斷是否找到所述建模數(shù)據(jù)樣本文件,如是,執(zhí)行步驟H2);否則,退出;
H2)校驗所述目標(biāo)數(shù)據(jù)樣本文件中的字段與所述建模數(shù)據(jù)樣本是否一致,如是,執(zhí)行步驟I);否則,報錯后返回步驟H1)。
4.根據(jù)權(quán)利要求1所述的大數(shù)據(jù)精準(zhǔn)營銷模型的構(gòu)建方法,其特征在于,所述設(shè)定的比例為7:3。
5.根據(jù)權(quán)利要求1所述的大數(shù)據(jù)精準(zhǔn)營銷模型的構(gòu)建方法,其特征在于,當(dāng)所述AUC值小于0.6時,確定所述大數(shù)據(jù)精準(zhǔn)營銷模型的測試結(jié)果不好。
6.一種實現(xiàn)如權(quán)利要求1所述的大數(shù)據(jù)精準(zhǔn)營銷模型的構(gòu)建方法的裝置,其特征在于,包括:
建模數(shù)據(jù)樣本輸入單元:用于讀取建模數(shù)據(jù)樣本文件并輸入建模數(shù)據(jù)樣本;所述建模數(shù)據(jù)樣本文件包含影響變量和目標(biāo)變量;
樣本劃分單元:用于按照設(shè)定的比例將所述建模數(shù)據(jù)樣本劃分為訓(xùn)練樣本和測試樣本;
樣本缺失值補全單元:用于采取眾數(shù)的方法對所述訓(xùn)練樣本和測試樣本進行缺失值補全;
離散處理單元:用于對所述訓(xùn)練樣本中的連續(xù)型的影響變量做離散化處理;
信息熵計算替換單元:用于計算離散化處理后的每個影響變量中各屬性的信息熵,并對缺失值補全后的數(shù)據(jù)進行替換,并存儲替換規(guī)則;
模型訓(xùn)練單元:用于采用二元邏輯回歸的方法固定所述建模數(shù)據(jù)樣本文件的最后一列為目標(biāo)變量,其他為自變量,利用所述訓(xùn)練樣本訓(xùn)練所述大數(shù)據(jù)精準(zhǔn)營銷模型;
測試單元:用于利用所述測試樣本對所述大數(shù)據(jù)精準(zhǔn)營銷模型進行測試,并輸出測試結(jié)果,利用AUC值來判斷所述大數(shù)據(jù)精準(zhǔn)營銷模型的好壞;
目標(biāo)數(shù)據(jù)樣本輸入單元:用于讀取目標(biāo)數(shù)據(jù)樣本文件并輸入目標(biāo)數(shù)據(jù)樣本;所述目標(biāo)數(shù)據(jù)樣本文件包含影響變量;
目標(biāo)數(shù)據(jù)補全單元:用于利用統(tǒng)計的方法對所述目標(biāo)數(shù)據(jù)樣本進行缺失值補全;
離散化替換單元:對所述目標(biāo)數(shù)據(jù)樣本中連續(xù)型的影響變量按照所述建模數(shù)據(jù)樣本的規(guī)則做離散化替換,替換成離散型數(shù)據(jù);
信息熵替換單元:用于按照所述替換規(guī)則對所述離散型數(shù)據(jù)做離散化替換;
概率計算單元:用于計算所述目標(biāo)數(shù)據(jù)樣本中每一個目標(biāo)數(shù)據(jù)的概率值;
結(jié)果輸出單元:用于輸出概率列表。
7.根據(jù)權(quán)利要求6所述的實現(xiàn)如權(quán)利要求1所述的大數(shù)據(jù)精準(zhǔn)營銷模型的構(gòu)建方法的裝置,其特征在于,所述建模數(shù)據(jù)樣本輸入單元進一步包括:
建模數(shù)據(jù)樣本文件讀取判斷模塊:用于讀取建模數(shù)據(jù)樣本文件,并判斷是否找到所述建模數(shù)據(jù)樣本文件,如是,進入建模數(shù)據(jù)樣本校驗?zāi)K;否則,退出;
建模數(shù)據(jù)樣本校驗?zāi)K:用于校驗寫入的所述建模數(shù)據(jù)樣本是否具有所述目標(biāo)變量且所述目標(biāo)變量為二元變量,如是,進入所述樣本劃分單元;否則,報錯后返回所述建模數(shù)據(jù)樣本文件讀取判斷模塊。
8.根據(jù)權(quán)利要求6或7所述的實現(xiàn)如權(quán)利要求1所述的大數(shù)據(jù)精準(zhǔn)營銷模型的構(gòu)建方法的裝置,其特征在于,所述目標(biāo)數(shù)據(jù)樣本輸入單元進一步包括:
目標(biāo)數(shù)據(jù)樣本文件讀取判斷模塊:用于讀取所述目標(biāo)數(shù)據(jù)樣本文件,并判斷是否找到所述建模數(shù)據(jù)樣本文件,如是,進入樣本判斷模塊;否則,退出;
樣本判斷模塊:用于校驗所述目標(biāo)數(shù)據(jù)樣本文件中的字段與所述建模數(shù)據(jù)樣本是否一致,如是,進入目標(biāo)數(shù)據(jù)補全單元;否則,報錯后返回所述目標(biāo)數(shù)據(jù)樣本文件讀取判斷模塊。
9.根據(jù)權(quán)利要求6所述的實現(xiàn)如權(quán)利要求1所述的大數(shù)據(jù)精準(zhǔn)營銷模型的構(gòu)建方法的裝置,其特征在于,所述設(shè)定的比例為7:3。
10.根據(jù)權(quán)利要求6所述的實現(xiàn)如權(quán)利要求1所述的大數(shù)據(jù)精準(zhǔn)營銷模型的構(gòu)建方法的裝置,其特征在于,當(dāng)所述AUC值小于0.6時,確定所述大數(shù)據(jù)精準(zhǔn)營銷模型的測試結(jié)果不好。