本發(fā)明涉及企業(yè)客戶流失預(yù)測(cè),具體是指基于大數(shù)據(jù)的企業(yè)客戶流失預(yù)測(cè)方法及系統(tǒng)。
背景技術(shù):
1、企業(yè)客戶流失預(yù)測(cè)是通過數(shù)據(jù)分析和建模技術(shù),預(yù)測(cè)客戶可能會(huì)離開企業(yè)的概率,這種預(yù)測(cè)利用客戶的歷史行為、購(gòu)買模式和互動(dòng)記錄等信息來識(shí)別流失風(fēng)險(xiǎn);其幫助企業(yè)提前識(shí)別可能流失的客戶,從而采取相應(yīng)的挽留措施,減少收入損失,提高客戶滿意度,進(jìn)而增強(qiáng)企業(yè)競(jìng)爭(zhēng)力。
2、然而,傳統(tǒng)的企業(yè)客戶流失預(yù)測(cè)方法存在依賴于單一的客戶行為數(shù)據(jù)進(jìn)行分析,難以深入挖掘企業(yè)客戶流失的整體特征且易受環(huán)境波動(dòng)影響,導(dǎo)致模型預(yù)測(cè)準(zhǔn)確率低的技術(shù)問題;傳統(tǒng)的企業(yè)客戶流失預(yù)測(cè)方法存在僅考慮個(gè)體客戶的行為數(shù)據(jù),而忽視企業(yè)客戶之間的關(guān)聯(lián)性,無法全面捕捉客戶關(guān)聯(lián)性帶來的潛在流失風(fēng)險(xiǎn),降低了模型的精度和可靠性的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)上述情況,為克服現(xiàn)有技術(shù)的缺陷,本發(fā)明提供了基于大數(shù)據(jù)的企業(yè)客戶流失預(yù)測(cè)方法及系統(tǒng),針對(duì)傳統(tǒng)的企業(yè)客戶流失預(yù)測(cè)方法存在依賴于單一的客戶行為數(shù)據(jù)進(jìn)行分析,難以深入挖掘企業(yè)客戶流失的整體特征且易受環(huán)境波動(dòng)影響,導(dǎo)致模型預(yù)測(cè)準(zhǔn)確率低的技術(shù)問題,本方案創(chuàng)造性地采用了自組織神經(jīng)網(wǎng)絡(luò)模型進(jìn)行客戶特征聚合方法,將單一的難以準(zhǔn)確反映客戶流失的特征進(jìn)行聚合,得到更具代表性的聚合特征,提高了模型的準(zhǔn)確性;針對(duì)傳統(tǒng)的企業(yè)客戶流失預(yù)測(cè)方法存在僅考慮個(gè)體客戶的行為數(shù)據(jù),而忽視企業(yè)客戶之間的關(guān)聯(lián)性,無法全面捕捉客戶關(guān)聯(lián)性帶來的潛在流失風(fēng)險(xiǎn),降低了模型的精度和可靠性的技術(shù)問題,本方案創(chuàng)造性地采用了注意力圖卷積網(wǎng)絡(luò)模型進(jìn)行企業(yè)客戶流失預(yù)測(cè),通過基于客戶交互記錄構(gòu)造圖結(jié)構(gòu)數(shù)據(jù)并結(jié)合注意力機(jī)制動(dòng)態(tài)調(diào)整權(quán)重,提高了模型的預(yù)測(cè)精度和可靠性。
2、本發(fā)明采取的技術(shù)方案如下:本發(fā)明提供的基于大數(shù)據(jù)的企業(yè)客戶流失預(yù)測(cè)方法,該方法包括以下步驟:
3、步驟s1:數(shù)據(jù)采集;
4、步驟s2:數(shù)據(jù)預(yù)處理;
5、步驟s3:客戶特征聚合;
6、步驟s4:聚類處理;
7、步驟s5:企業(yè)客戶流失預(yù)測(cè)。
8、進(jìn)一步地,在步驟s1中,所述數(shù)據(jù)采集,用于采集企業(yè)客戶流失預(yù)測(cè)所需的客戶行為數(shù)據(jù),具體為通過采集,得到客戶行為數(shù)據(jù)集,所述客戶行為數(shù)據(jù)集,具體包括基本客戶信息、交易記錄、客戶間交互記錄、客戶產(chǎn)品使用數(shù)據(jù)、客戶反饋數(shù)據(jù)和客戶活躍數(shù)據(jù)。
9、進(jìn)一步地,在步驟s2中,所述數(shù)據(jù)預(yù)處理,用于對(duì)客戶行為數(shù)據(jù)進(jìn)行預(yù)處理,具體包括以下步驟:
10、步驟s21:數(shù)據(jù)清洗,用于清洗客戶行為數(shù)據(jù),具體為對(duì)所述客戶行為數(shù)據(jù)集進(jìn)行去除缺失值和重復(fù)值操作,得到初步處理數(shù)據(jù)集;
11、步驟s22:特征編碼,用于對(duì)初步處理數(shù)據(jù)進(jìn)行編碼,具體為采用獨(dú)熱編碼法對(duì)所述初步處理數(shù)據(jù)集進(jìn)行編碼,得到編碼數(shù)據(jù)集;
12、步驟s23:數(shù)據(jù)歸一化,用于歸一化編碼數(shù)據(jù),具體為采用最小-最大歸一化法對(duì)所述編碼數(shù)據(jù)集進(jìn)行歸一化,得到客戶特征集;
13、步驟s24:預(yù)處理,具體為通過所述數(shù)據(jù)清洗、所述特征編碼和所述數(shù)據(jù)歸一化,對(duì)所述客戶行為數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,得到客戶特征集。
14、進(jìn)一步地,在步驟s3中,所述客戶特征聚合,用于聚合客戶特征,具體為采用自組織神經(jīng)網(wǎng)絡(luò)模型處理所述客戶特征集,得到聚合客戶流失特征集;
15、所述客戶行為特征聚合,具體包括以下步驟:
16、步驟s31:初始化權(quán)重,用于隨機(jī)初始化自組織神經(jīng)網(wǎng)絡(luò)權(quán)重向量,表示如下:
17、;
18、式中,表示第i個(gè)節(jié)點(diǎn)的權(quán)重向量,表示從均勻分布[0,1]中隨機(jī)初始化第i個(gè)節(jié)點(diǎn)的權(quán)重向量;
19、步驟s32:尋找最優(yōu)節(jié)點(diǎn),所述最優(yōu)節(jié)點(diǎn),具體為與輸入特征歐氏距離最小的點(diǎn),計(jì)算歐氏距離所用公式如下:
20、;
21、式中,表示歐氏距離函數(shù),表示客戶的第j個(gè)特征,表示歐氏距離;
22、步驟s33:更新最優(yōu)節(jié)點(diǎn)權(quán)重,所用公式如下:
23、;
24、式中,表示客戶的第j個(gè)特征對(duì)應(yīng)最優(yōu)節(jié)點(diǎn)與第l個(gè)節(jié)點(diǎn)的鄰域函數(shù),表示客戶的第j個(gè)特征對(duì)應(yīng)最優(yōu)節(jié)點(diǎn)的位置向量,表示第l個(gè)節(jié)點(diǎn)的位置向量,表示初始鄰域?qū)挾?,表示用于控制領(lǐng)域?qū)挾葴p小速率的常數(shù),t表示時(shí)間步,表示第t+1個(gè)時(shí)間步客戶的第j個(gè)特征對(duì)應(yīng)最優(yōu)節(jié)點(diǎn)的權(quán)重向量,表示第t個(gè)時(shí)間步客戶的第j個(gè)特征對(duì)應(yīng)最優(yōu)節(jié)點(diǎn)的權(quán)重向量,表示學(xué)習(xí)率函數(shù);
25、步驟s34:構(gòu)造聚合客戶流失特征,步驟包括:
26、步驟s341:計(jì)算最小量化誤差,所用公式如下:
27、;
28、式中,表示客戶的第i個(gè)特征的最小量化誤差,表示客戶的第i個(gè)特征,表示客戶的第i個(gè)特征對(duì)應(yīng)最優(yōu)節(jié)點(diǎn)的權(quán)重向量;
29、步驟s342:局部加權(quán)回歸去噪,所用公式如下:
30、;
31、式中,表示客戶的第j個(gè)特征的最小量化誤差對(duì)客戶的第i個(gè)特征的最小量化誤差的影響權(quán)重,表示高斯核函數(shù),表示客戶的第j個(gè)特征的最小量化誤差,表示客戶的第i個(gè)特征的最小量化誤差的窗口寬度,表示去噪后的客戶的第i個(gè)特征的最小量化誤差,表示客戶的特征總數(shù);
32、步驟s343:聚合客戶流失特征構(gòu)造,具體為將去噪后的客戶的特征的最小量化誤差作為向量元素,構(gòu)造聚合客戶流失特征,得到聚合客戶流失特征集。
33、進(jìn)一步地,在步驟s4中,所述聚類處理,用于對(duì)目前客戶流失進(jìn)行分類,具體為構(gòu)建k均值聚類模型對(duì)所述聚合客戶流失特征集進(jìn)行初步分類,得到目前流失風(fēng)險(xiǎn)數(shù)據(jù)集,所述初步分類,具體為基于目前客戶流失風(fēng)險(xiǎn)分為五類,包括一級(jí)流失風(fēng)險(xiǎn)、二級(jí)流失風(fēng)險(xiǎn)、三級(jí)流失風(fēng)險(xiǎn)、四級(jí)流失風(fēng)險(xiǎn)和五級(jí)流失風(fēng)險(xiǎn),并作為數(shù)據(jù)標(biāo)簽,級(jí)別越高,客戶流失的可能性越大;
34、所述聚類處理,具體包括以下步驟:
35、步驟s41:初始化簇中心,具體為隨機(jī)選擇k個(gè)數(shù)據(jù)點(diǎn)作為初始簇中心,k表示分類種類數(shù):
36、步驟s42:分配簇,步驟包括:
37、步驟s421:計(jì)算數(shù)據(jù)點(diǎn)到簇中心的距離,所用公式如下:
38、;
39、式中,表示第h個(gè)數(shù)據(jù)點(diǎn)到第k個(gè)簇中心的距離,表示第h個(gè)數(shù)據(jù)點(diǎn),表示第k個(gè)簇中心;
40、步驟s422,分配數(shù)據(jù)點(diǎn)到簇,所用公式如下:
41、;
42、式中,表示第h個(gè)數(shù)據(jù)點(diǎn)的簇標(biāo)簽,表示使第h個(gè)數(shù)據(jù)點(diǎn)到第k個(gè)簇中心的距離最小的k的值;
43、步驟s43:更新簇中心,所用公式如下:
44、;
45、式中,表示更新后的簇中心,表示第k個(gè)簇中所有數(shù)據(jù)點(diǎn)組成的集合;
46、步驟s44:迭代更新,具體為不斷迭代更新k均值聚類模型直至簇中心的變化量小于閾值或達(dá)到最大迭代次數(shù);
47、步驟s45:初步分類,具體為通過所述初始化簇中心、所述分配簇、所述更新簇中心和所述迭代更新,構(gòu)建所述k均值聚類模型,并對(duì)所述聚合客戶流失特征集進(jìn)行初步分類,得到目前流失風(fēng)險(xiǎn)數(shù)據(jù)集。
48、進(jìn)一步地,在步驟s5中,所述企業(yè)客戶流失預(yù)測(cè),具體為構(gòu)建注意力圖卷積網(wǎng)絡(luò)模型,基于所述目前流失風(fēng)險(xiǎn)數(shù)據(jù)集進(jìn)行企業(yè)客戶流失預(yù)測(cè),得到客戶流失預(yù)測(cè)參考數(shù)據(jù),并基于所述客戶流失預(yù)測(cè)參考數(shù)據(jù)考量客戶流失風(fēng)險(xiǎn);
49、所述企業(yè)客戶流失預(yù)測(cè),具體包括以下步驟:
50、步驟s51:構(gòu)造圖結(jié)構(gòu)數(shù)據(jù),具體為構(gòu)造圖節(jié)點(diǎn)和邊,所述圖節(jié)點(diǎn)表示客戶,每個(gè)圖節(jié)點(diǎn)的特征為所述k均值聚類模型簇標(biāo)簽,連接具有相同k均值聚類模型簇標(biāo)簽和具有客戶交互記錄的圖節(jié)點(diǎn),得到圖結(jié)構(gòu)數(shù)據(jù);
51、步驟s52:構(gòu)造圖卷積層,所用公式如下:
52、;
53、式中,表示第v+1層圖卷積層的節(jié)點(diǎn)特征矩陣,表示第v層圖卷積層的節(jié)點(diǎn)特征矩陣,表示relu激活函數(shù),表示歸一化鄰接矩陣,表示第v+1層圖卷積層的權(quán)重矩陣;
54、步驟s53:構(gòu)造圖注意力層,步驟包括:
55、步驟s531:計(jì)算注意力系數(shù),所用公式如下:
56、;
57、式中,表示節(jié)點(diǎn)對(duì)節(jié)點(diǎn)的注意力系數(shù),表示帶泄露的relu激活函數(shù),av表示注意力向量,t表示轉(zhuǎn)置操作,am表示注意力權(quán)重,表示節(jié)點(diǎn)的特征向量,表示節(jié)點(diǎn)的特征向量;
58、步驟s532:歸一化注意力系數(shù),所用公式如下:
59、;
60、式中,表示節(jié)點(diǎn)對(duì)節(jié)點(diǎn)的歸一化注意力系數(shù),ni表示節(jié)點(diǎn)的鄰居節(jié)點(diǎn)集合,表示節(jié)點(diǎn)對(duì)節(jié)點(diǎn)的注意力系數(shù);
61、步驟s533:更新節(jié)點(diǎn)特征,所用公式如下:
62、;
63、式中,表示節(jié)點(diǎn)更新后的特征向量,
64、步驟s54:計(jì)算模型輸出,所用公式如下:
65、;
66、式中,y表示模型輸出的客戶流失預(yù)測(cè)參考數(shù)據(jù),表示softmax函數(shù),表示輸出權(quán)重矩陣,表示輸出層的輸入特征,表示輸出偏置項(xiàng);
67、步驟s55:設(shè)計(jì)損失函數(shù),所用公式如下:
68、;
69、式中,loss表示損失函數(shù)值,n表示樣本總數(shù),m表示類別總數(shù),表示樣本n屬于類別m的真實(shí)標(biāo)簽,表示模型對(duì)樣本n屬于類別m的預(yù)測(cè)概率;
70、步驟s56:預(yù)測(cè)客戶流失,具體為通過所述構(gòu)造圖結(jié)構(gòu)數(shù)據(jù)、所述構(gòu)造圖卷積層、所述構(gòu)造圖注意力層、所述計(jì)算模型輸出和所述設(shè)計(jì)損失函數(shù),進(jìn)行所述注意力圖卷積網(wǎng)絡(luò)模型的構(gòu)建,并基于所述目前流失風(fēng)險(xiǎn)數(shù)據(jù)集進(jìn)行企業(yè)客戶流失預(yù)測(cè),得到客戶流失預(yù)測(cè)參考數(shù)據(jù)以綜合考量客戶流失風(fēng)險(xiǎn)。
71、本發(fā)明提供的基于大數(shù)據(jù)的企業(yè)客戶流失預(yù)測(cè)系統(tǒng),包括數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊、客戶特征聚合模塊、聚類處理模塊和企業(yè)客戶流失預(yù)測(cè)模塊;
72、所述數(shù)據(jù)采集模塊,用于數(shù)據(jù)采集,通過數(shù)據(jù)采集,得到客戶行為數(shù)據(jù)集,并將所述客戶行為數(shù)據(jù)集發(fā)送至數(shù)據(jù)預(yù)處理模塊;
73、所述數(shù)據(jù)預(yù)處理模塊,用于數(shù)據(jù)預(yù)處理,通過數(shù)據(jù)預(yù)處理,得到客戶特征集,并將所述客戶特征集發(fā)送至客戶特征聚合模塊;
74、所述客戶特征聚合模塊,用于客戶特征聚合,通過采用自組織神經(jīng)網(wǎng)絡(luò)模型進(jìn)行客戶特征聚合,得到聚合客戶流失特征集,并將所述聚合客戶流失特征集發(fā)送至聚類處理模塊;
75、所述聚類處理模塊,用于進(jìn)行聚類處理,通過采用k均值聚類模型進(jìn)行初步分類,得到目前流失風(fēng)險(xiǎn)數(shù)據(jù)集,并將目前流失風(fēng)險(xiǎn)數(shù)據(jù)集發(fā)送至企業(yè)客戶流失預(yù)測(cè)模塊;
76、所述企業(yè)客戶流失預(yù)測(cè)模塊,用于企業(yè)客戶流失預(yù)測(cè),通過采用注意力圖卷積網(wǎng)絡(luò)模型進(jìn)行企業(yè)客戶流失預(yù)測(cè),得到客戶流失預(yù)測(cè)參考數(shù)據(jù)。
77、采用上述方案本發(fā)明取得的有益效果如下:
78、(1)針對(duì)傳統(tǒng)的企業(yè)客戶流失預(yù)測(cè)方法存在依賴于單一的客戶行為數(shù)據(jù)進(jìn)行分析,難以深入挖掘企業(yè)客戶流失的整體特征且易受環(huán)境波動(dòng)影響,導(dǎo)致模型預(yù)測(cè)準(zhǔn)確率低的技術(shù)問題,本方案創(chuàng)造性地采用了自組織神經(jīng)網(wǎng)絡(luò)模型進(jìn)行客戶特征聚合方法,將單一的難以準(zhǔn)確反映客戶流失的特征進(jìn)行聚合,得到更具代表性的聚合特征,提高了模型的準(zhǔn)確性。
79、(2)針對(duì)傳統(tǒng)的企業(yè)客戶流失預(yù)測(cè)方法存在僅考慮個(gè)體客戶的行為數(shù)據(jù),而忽視企業(yè)客戶之間的關(guān)聯(lián)性,無法全面捕捉客戶關(guān)聯(lián)性帶來的潛在流失風(fēng)險(xiǎn),降低了模型的精度和可靠性的技術(shù)問題,本方案創(chuàng)造性地采用了注意力圖卷積網(wǎng)絡(luò)模型進(jìn)行企業(yè)客戶流失預(yù)測(cè),通過基于客戶交互記錄構(gòu)造圖結(jié)構(gòu)數(shù)據(jù)并結(jié)合注意力機(jī)制動(dòng)態(tài)調(diào)整權(quán)重,提高了模型的預(yù)測(cè)精度和可靠性。