本發(fā)明主要涉及數(shù)據(jù)分析
技術(shù)領(lǐng)域:
,具體涉及一種查找價(jià)值用戶的數(shù)據(jù)處理方法和系統(tǒng)。
背景技術(shù):
:傳統(tǒng)劃分用戶價(jià)值的方法是基于個(gè)人主觀將不同維度的數(shù)據(jù)劃分范圍,然后加以組合,形成新的維度;傳統(tǒng)劃分方法有其自身的局限性:1.在分析過程中,遇到劃分?jǐn)?shù)據(jù)范圍的問題時(shí),往往憑借其中一個(gè)維度進(jìn)行篩選,而不能多個(gè)維度同時(shí)考慮,影響結(jié)論準(zhǔn)確;2.當(dāng)數(shù)據(jù)量大,數(shù)據(jù)較復(fù)雜時(shí),用傳統(tǒng)的劃分方法,會(huì)增加分析人員的負(fù)擔(dān),增加執(zhí)行成本。技術(shù)實(shí)現(xiàn)要素:本發(fā)明所要解決的技術(shù)問題是針對現(xiàn)有技術(shù)的不足,提供一種查找價(jià)值用戶的數(shù)據(jù)處理方法和系統(tǒng)。本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:一種查找價(jià)值用戶的數(shù)據(jù)處理方法,包括如下步驟:步驟s1:以用戶名為行、rfm業(yè)務(wù)指標(biāo)為列來構(gòu)建數(shù)據(jù)分析列表;步驟s2:根據(jù)每個(gè)用戶的rfm業(yè)務(wù)指標(biāo)以及設(shè)定的劃分閾值將數(shù)據(jù)分析列表中的數(shù)據(jù)劃分為主體用戶數(shù)據(jù)、高價(jià)值用戶數(shù)據(jù)和異常用戶數(shù)據(jù)三部分;步驟s3:將高價(jià)值用戶數(shù)據(jù)和異常用戶數(shù)據(jù)濾除,保留主體用戶數(shù)據(jù);步驟s4:根據(jù)kmeans聚類方法對主體用戶數(shù)據(jù)聚類處理,得到多個(gè)聚類簇,每個(gè)聚類簇包括一個(gè)聚類中心;步驟s5:根據(jù)ahp層次分析法對聚類中心進(jìn)行量化價(jià)值計(jì)算,根據(jù)量化價(jià)值的高低將主體用戶數(shù)據(jù)進(jìn)行歸類,得到價(jià)值用戶的種類。本發(fā)明的有益效果是:采用rfm業(yè)務(wù)指標(biāo)來從全局上考慮數(shù)據(jù)維度,并采用kmeans聚類方法,使數(shù)據(jù)自行成簇,避免了維度考慮單一的問題及人為造成的誤差影響,從而提高工作效率。在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可以做如下改進(jìn)。進(jìn)一步,所述數(shù)據(jù)分析列表為n*3的列表,其中n行分別為n個(gè)用戶名,3列為每個(gè)用戶名對應(yīng)r指標(biāo)、f指標(biāo)和m指標(biāo);所述rfm業(yè)務(wù)指標(biāo)包括r指標(biāo)、f指標(biāo)和m指標(biāo),r指標(biāo)為用戶最近充值日期至設(shè)定日期之間的間隔天數(shù),f指標(biāo)為用戶在充值天數(shù)內(nèi)成功充值的次數(shù),m指標(biāo)為用戶在充值天數(shù)內(nèi)成功充值的金額。采用上述進(jìn)一步方案的有益效果是:進(jìn)行多維度的數(shù)據(jù)挖掘和分析,避免考慮單一而影響數(shù)據(jù)的準(zhǔn)確性。進(jìn)一步,所述設(shè)定的劃分閾值包括第一劃分閾值和第二劃分閾值,第一劃分閾值為主體用戶與高價(jià)值用戶間的劃分閾值,第二劃分閾值為高價(jià)值用戶與異常用戶間的劃分閾值。閾值的確立可以根據(jù)具體業(yè)務(wù)要求來決定,比如業(yè)務(wù)目的要求很嚴(yán)格,那么閾值就取得保守些,如果業(yè)務(wù)目的是貪婪型的,那么閾值就取得偏大些。采用上述進(jìn)一步方案的有益效果是:通過閾值將數(shù)據(jù)分類,有利于分清哪部分?jǐn)?shù)據(jù)是主體用戶數(shù)據(jù)。進(jìn)一步,所述步驟s5具體包括:步驟s501:根據(jù)ahp層次分析法分別對聚類中心進(jìn)行加權(quán)計(jì)算處理,得到各聚類簇的量化價(jià)值;步驟s502:根據(jù)預(yù)設(shè)的業(yè)務(wù)分類數(shù)值和各聚類簇的量化價(jià)值的高低將各聚類簇歸類處理,得到主體用戶數(shù)據(jù)的高價(jià)值聚類簇和低價(jià)值聚類簇。采用上述進(jìn)一步方案的有益效果是:為方便各聚類簇之間的比較,對每個(gè)聚類簇進(jìn)行加權(quán)計(jì)算,確立權(quán)重,既考慮到了數(shù)據(jù)內(nèi)部的關(guān)系,也用到了業(yè)務(wù)方面的經(jīng)驗(yàn),使準(zhǔn)確性提高。進(jìn)一步,所述步驟s5還包括步驟s503:將得到的高價(jià)值聚類簇和低價(jià)值聚類簇重復(fù)執(zhí)行步驟s501加權(quán)計(jì)算處理和步驟s502歸類處理,得到主體用戶數(shù)據(jù)最終的高價(jià)值聚類簇和低價(jià)值聚類簇。采用上述進(jìn)一步方案的有益效果是:將已聚類過的聚類簇再次聚類,使聚類簇逐漸變少,便于理解。本發(fā)明解決上述技術(shù)問題的另一技術(shù)方案如下:一種查找價(jià)值用戶的數(shù)據(jù)處理系統(tǒng),包括:列表構(gòu)建模塊,用于以用戶名為行、rfm業(yè)務(wù)指標(biāo)為列來構(gòu)建數(shù)據(jù)分析列表;劃分模塊,用于根據(jù)每個(gè)用戶的rfm業(yè)務(wù)指標(biāo)以及設(shè)定的劃分閾值將數(shù)據(jù)分析列表中的數(shù)據(jù)劃分為主體用戶數(shù)據(jù)、高價(jià)值用戶數(shù)據(jù)和異常用戶數(shù)據(jù)三部分;濾除模塊,用于將高價(jià)值用戶數(shù)據(jù)和異常用戶數(shù)據(jù)濾除,保留主體用戶數(shù)據(jù);聚類模塊,用于根據(jù)kmeans聚類方法對主體用戶數(shù)據(jù)聚類處理,得到多個(gè)聚類簇,每個(gè)聚類簇包括一個(gè)聚類中心;歸類模塊,用于根據(jù)ahp層次分析法對各聚類中心進(jìn)行量化價(jià)值計(jì)算,并根據(jù)量化價(jià)值的高低將主體用戶數(shù)據(jù)進(jìn)行歸類,得到價(jià)值用戶的種類。在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可以做如下改進(jìn)。進(jìn)一步,列表構(gòu)建模塊中,所述數(shù)據(jù)分析列表為n*3的列表,n行分別為n個(gè)用戶名,3列為每個(gè)用戶名對應(yīng)r指標(biāo)、f指標(biāo)和m指標(biāo);所述rfm業(yè)務(wù)指標(biāo)包括r指標(biāo)、f指標(biāo)和m指標(biāo),r指標(biāo)為用戶最近充值日期至設(shè)定日期之間的間隔天數(shù),f指標(biāo)為用戶在充值天數(shù)內(nèi)成功充值的次數(shù),m指標(biāo)為用戶在充值天數(shù)內(nèi)成功充值的金額。進(jìn)一步,所述設(shè)定的劃分閾值包括第一劃分閾值和第二劃分閾值,第一劃分閾值為主體用戶與高價(jià)值用戶間的劃分閾值,第二劃分閾值為高價(jià)值用戶與異常用戶間的劃分閾值。進(jìn)一步,所述歸類模塊包括:計(jì)算單元,用于根據(jù)ahp層次分析法分別對聚類中心進(jìn)行加權(quán)計(jì)算處理,得到各聚類簇的量化價(jià)值;歸類單元,用于根據(jù)預(yù)設(shè)的業(yè)務(wù)分類數(shù)值和各聚類簇的量化價(jià)值的高低將各聚類簇歸類處理,得到主體用戶數(shù)據(jù)的高價(jià)值聚類簇和低價(jià)值聚類簇。進(jìn)一步,所述歸類模塊還包括調(diào)用單元,所述調(diào)用單元用于依次調(diào)用計(jì)算單元和歸類單元將得到的高價(jià)值聚類簇和低價(jià)值聚類簇再次進(jìn)行加權(quán)計(jì)算處理和歸類處理,得到主體用戶數(shù)據(jù)最終的高價(jià)值聚類簇和低價(jià)值聚類簇。附圖說明圖1為本發(fā)明實(shí)施例提供的數(shù)據(jù)處理方法的方法流程圖;圖2為本發(fā)明實(shí)施例提供的數(shù)據(jù)處理系統(tǒng)的模塊框圖。具體實(shí)施方式以下結(jié)合附圖對本發(fā)明的原理和特征進(jìn)行描述,所舉實(shí)例只用于解釋本發(fā)明,并非用于限定本發(fā)明的范圍。圖1為本發(fā)明實(shí)施例提供的數(shù)據(jù)處理方法的方法流程圖;如圖1所示,一種查找價(jià)值用戶的數(shù)據(jù)處理方法,包括如下步驟:步驟s1:以用戶名為行、rfm業(yè)務(wù)指標(biāo)為列來構(gòu)建數(shù)據(jù)分析列表;步驟s2:根據(jù)每個(gè)用戶的rfm業(yè)務(wù)指標(biāo)以及設(shè)定的劃分閾值將數(shù)據(jù)分析列表中的數(shù)據(jù)劃分為主體用戶數(shù)據(jù)、高價(jià)值用戶數(shù)據(jù)和異常用戶數(shù)據(jù)三部分;步驟s3:將高價(jià)值用戶數(shù)據(jù)和異常用戶數(shù)據(jù)濾除,保留主體用戶數(shù)據(jù);步驟s4:根據(jù)kmeans聚類方法對主體用戶數(shù)據(jù)聚類處理,得到多個(gè)聚類簇,每個(gè)聚類簇包括一個(gè)聚類中心;步驟s5:根據(jù)ahp層次分析法對聚類中心進(jìn)行量化價(jià)值計(jì)算,根據(jù)量化價(jià)值的高低將主體用戶數(shù)據(jù)進(jìn)行歸類,得到價(jià)值用戶的種類。上述實(shí)施例中,應(yīng)理解的,主體用戶數(shù)據(jù)一般為97%占比以上的用戶量、高價(jià)值用戶數(shù)據(jù)一般為3%以下的用戶量和異常用戶數(shù)據(jù)一般為0.1%以下的用戶量。步驟s2中,閾值的確立可以根據(jù)具體業(yè)務(wù)要求來決定,比如業(yè)務(wù)目的要求很嚴(yán)格,那么閾值就取得保守些,如果業(yè)務(wù)目的是貪婪型的,那么閾值就取得偏大些。上述實(shí)施例中,由于每聚類簇的聚類中心與總體均值比較后,只能大于或者小于,所以rfm共有2^3個(gè)類別,即kmeans聚類簇?cái)?shù)等于8。上述實(shí)施例中,所述步驟s3將主體用戶數(shù)據(jù)歸一化,來將高價(jià)值用戶數(shù)據(jù)和異常用戶數(shù)據(jù)濾除,保留主體用戶數(shù)據(jù);上述實(shí)施例中,采用rfm業(yè)務(wù)指標(biāo)來從全局上考慮數(shù)據(jù)維度,并采用kmeans聚類方法,使數(shù)據(jù)自行成簇,避免了維度考慮單一的問題及人為造成的誤差影響,從而提高工作效率??蛇x地,作為本發(fā)明的一個(gè)實(shí)施例,所述數(shù)據(jù)分析列表為n*3的列表,其中n行分別為n個(gè)用戶名,3列為每個(gè)用戶名對應(yīng)r指標(biāo)、f指標(biāo)和m指標(biāo);所述rfm業(yè)務(wù)指標(biāo)包括r指標(biāo)、f指標(biāo)和m指標(biāo),r指標(biāo)為用戶最近充值日期至設(shè)定日期之間的間隔天數(shù),f指標(biāo)為用戶在充值天數(shù)內(nèi)成功充值的次數(shù),m指標(biāo)為用戶在充值天數(shù)內(nèi)成功充值的金額;上述實(shí)施例中,具體的,r指標(biāo)為用戶在時(shí)間范圍內(nèi)的最后充值日期距離2016年9月1日的間隔天數(shù);f指標(biāo)為用戶在充值天數(shù)內(nèi)成功充值的次數(shù);m指標(biāo)為用戶在充值天數(shù)內(nèi)成功充值的金額;上述實(shí)施例中,進(jìn)行多維度的數(shù)據(jù)挖掘和分析,避免考慮單一而影響數(shù)據(jù)的準(zhǔn)確性??蛇x地,作為本發(fā)明的一個(gè)實(shí)施例,所述設(shè)定的劃分閾值包括第一劃分閾值和第二劃分閾值,第一劃分閾值為主體用戶與高價(jià)值用戶間的劃分閾值,第二劃分閾值為高價(jià)值用戶與異常用戶間的劃分閾值。具體的,第一劃分閾值小于第二劃分閾值。上述實(shí)施例中,通過閾值將數(shù)據(jù)分箱,有利于分清哪部分?jǐn)?shù)據(jù)是主體用戶數(shù)據(jù)??蛇x地,作為本發(fā)明的一個(gè)實(shí)施例,所述步驟s5具體包括:步驟s501:根據(jù)ahp層次分析法分別對聚類中心進(jìn)行加權(quán)計(jì)算處理,得到各聚類簇的量化價(jià)值;例如,聚類簇a的聚類中心為r=x1,f=x2,m=x3,ahp層次分析法得到的r,f,m權(quán)重為a,b,c,經(jīng)過加權(quán),聚類簇a的中心價(jià)值為ax1+bx2+cx3;步驟s502:根據(jù)預(yù)設(shè)的業(yè)務(wù)分類數(shù)值和各聚類簇的量化價(jià)值的高低將各聚類簇歸類處理,得到主體用戶數(shù)據(jù)的高價(jià)值聚類簇和低價(jià)值聚類簇。主體用戶數(shù)據(jù)的高價(jià)值聚類簇對應(yīng)極高價(jià)值用戶,低價(jià)值聚類簇對應(yīng)低價(jià)值用戶。具體的,上述實(shí)施例中,高價(jià)值聚類簇和低價(jià)值聚類簇是相對于主體用戶內(nèi)部的水平來說的,可以根據(jù)加權(quán)后的價(jià)值度來判斷,至于價(jià)值度的閾值,根據(jù)歷史數(shù)據(jù)來判斷,一般加權(quán)價(jià)值x<=0.2為低價(jià)值,0.2<x<=0.4為中價(jià)值用戶,0.4以上為高價(jià)值。上述實(shí)施例中,例如:ahp層次分析法中,利用表1,表1rfmrr/rr/fr/mff/rf/ff/mmm/rm/fm/mn階為3,ri為0.58,mi為每行乘積,r為0.635904,f為1.05984,m為1.483776,w為特征向量,w為3.179519,權(quán)重wr為0.2,權(quán)重wr為0.333333,權(quán)重wm為0.466667,經(jīng)計(jì)算后,改寫表1得到表2:表2rfmr10.600.43f1.6710.71m2.331.401上述實(shí)施例中,為方便各聚類簇之間的比較,對每個(gè)聚類簇進(jìn)行加權(quán)計(jì)算,確立權(quán)重,既考慮到了數(shù)據(jù)內(nèi)部的關(guān)系,也用到了業(yè)務(wù)方面的經(jīng)驗(yàn),使準(zhǔn)確性提高??蛇x地,作為本發(fā)明的一個(gè)實(shí)施例,所述步驟s5還包括步驟s503:將得到的高價(jià)值聚類簇和低價(jià)值聚類簇重復(fù)執(zhí)行步驟s501加權(quán)計(jì)算處理和步驟s502歸類處理,得到主體用戶數(shù)據(jù)最終的高價(jià)值聚類簇和低價(jià)值聚類簇。上述實(shí)施例中,步驟s502中得到的8個(gè)kmeans聚類簇,聚類簇?cái)?shù)目過多,不宜對聚類簇進(jìn)行分析,則繼續(xù)將8個(gè)kmeans聚類簇?cái)?shù)進(jìn)行歸類為3個(gè)kmeans聚類簇。上述實(shí)施例中,將已聚類過的聚類簇再次聚類,使聚類簇逐漸變少,便于理解。圖2為本發(fā)明實(shí)施例提供的數(shù)據(jù)處理系統(tǒng)的模塊框圖;可選地,作為本發(fā)明的另一個(gè)實(shí)施例,如圖2所示,一種查找價(jià)值用戶的數(shù)據(jù)處理系統(tǒng),包括:列表構(gòu)建模塊,用于以用戶名為行、rfm業(yè)務(wù)指標(biāo)為列來構(gòu)建數(shù)據(jù)分析列表;劃分模塊,用于根據(jù)每個(gè)用戶的rfm業(yè)務(wù)指標(biāo)以及設(shè)定的劃分閾值將數(shù)據(jù)分析列表中的數(shù)據(jù)劃分為主體用戶數(shù)據(jù)、高價(jià)值用戶數(shù)據(jù)和異常用戶數(shù)據(jù)三部分;濾除模塊,用于將高價(jià)值用戶數(shù)據(jù)和異常用戶數(shù)據(jù)濾除,保留主體用戶數(shù)據(jù);聚類模塊,用于根據(jù)kmeans聚類方法對主體用戶數(shù)據(jù)聚類處理,得到多個(gè)聚類簇,每個(gè)聚類簇包括一個(gè)聚類中心;歸類模塊,用于根據(jù)ahp層次分析法對各聚類中心進(jìn)行量化價(jià)值計(jì)算,并根據(jù)量化價(jià)值的高低將主體用戶數(shù)據(jù)進(jìn)行歸類,得到價(jià)值用戶的種類。可選地,作為本發(fā)明的一個(gè)實(shí)施例,列表構(gòu)建模塊中,所述數(shù)據(jù)分析列表為n*3的列表,其中n行分別為n個(gè)用戶名,3列為每個(gè)用戶名對應(yīng)r指標(biāo)、f指標(biāo)和m指標(biāo);所述rfm業(yè)務(wù)指標(biāo)包括r指標(biāo)、f指標(biāo)和m指標(biāo),r指標(biāo)為用戶最近充值日期至設(shè)定日期之間的間隔天數(shù),f指標(biāo)為用戶在充值天數(shù)內(nèi)成功充值的次數(shù),m指標(biāo)為用戶在充值天數(shù)內(nèi)成功充值的金額??蛇x地,作為本發(fā)明的一個(gè)實(shí)施例,所述設(shè)定的劃分閾值包括第一劃分閾值和第二劃分閾值,第一劃分閾值為主體用戶與高價(jià)值用戶間的劃分閾值,第二劃分閾值為高價(jià)值用戶與異常用戶間的劃分閾值。可選地,作為本發(fā)明的一個(gè)實(shí)施例,所述歸類模塊包括:計(jì)算單元,用于根據(jù)ahp層次分析法分別對聚類中心進(jìn)行加權(quán)計(jì)算處理,得到各聚類簇的量化價(jià)值;歸類單元,用于根據(jù)預(yù)設(shè)的業(yè)務(wù)分類數(shù)值和各聚類簇的量化價(jià)值的高低將各聚類簇歸類處理,得到主體用戶數(shù)據(jù)的高價(jià)值聚類簇和低價(jià)值聚類簇。可選地,作為本發(fā)明的一個(gè)實(shí)施例,所述歸類模塊還包括調(diào)用單元,所述調(diào)用單元用于依次調(diào)用計(jì)算單元和歸類單元將得到的高價(jià)值聚類簇和低價(jià)值聚類簇再次進(jìn)行加權(quán)計(jì)算處理和歸類處理,得到主體用戶數(shù)據(jù)最終的高價(jià)值聚類簇和低價(jià)值聚類簇。上述的查找價(jià)值用戶的數(shù)據(jù)處理方法和系統(tǒng)還可對低價(jià)值用戶分類與高(極高)價(jià)值用戶分類進(jìn)行歸類,得到該分類中價(jià)值用戶的種類,再分別制定營銷計(jì)劃。本發(fā)明采用rfm業(yè)務(wù)指標(biāo)來從全局上考慮數(shù)據(jù)維度,并采用kmeans聚類方法,使數(shù)據(jù)自行成簇,避免了維度考慮單一的問題及人為造成的誤差影響,從而提高工作效率。以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁12