本發(fā)明涉及數(shù)據(jù)智能處理,具體涉及一種能夠高效挖掘多個物聯(lián)網(wǎng)細分行業(yè)產(chǎn)品潛在客戶的方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、物聯(lián)網(wǎng)行業(yè)正在經(jīng)歷蓬勃發(fā)展,社會上不斷涌現(xiàn)的應(yīng)用需求和方向使之衍生出了多個細分行業(yè)領(lǐng)域(如智能家居、智慧醫(yī)療、智能制造等),并促進了多種產(chǎn)品的誕生(如智能儀表、可穿戴設(shè)備、安防監(jiān)控終端等),一方面,不同細分行業(yè)領(lǐng)域下的產(chǎn)品數(shù)量眾多、功能和應(yīng)用場景各異,它們的使用對象以及這些對象的需求也存在不同的特點,但另一方面,特定產(chǎn)品之間又具有強關(guān)聯(lián)的特點(即應(yīng)用場景、使用對象等相似;例如,車載wifi和行車記錄儀)。
2、結(jié)合每種產(chǎn)品及其目標(biāo)受眾的特點、并利用大數(shù)據(jù)和人工智能技術(shù)構(gòu)建適用于對應(yīng)產(chǎn)品的潛在客戶挖掘模型,是開展精準(zhǔn)營銷活動的關(guān)鍵步驟,然而對于那些產(chǎn)品數(shù)量眾多且仍在不斷增長的企業(yè)來說,仍很難高效地為各個細分行業(yè)產(chǎn)品,尤其是新產(chǎn)品挖掘潛在客戶。
3、目前,業(yè)界主要采用兩類獨立的方式挖掘物聯(lián)網(wǎng)產(chǎn)品潛在客戶:一類是以分類為代表的有監(jiān)督方法,此類方法能夠結(jié)合產(chǎn)品和客戶特征進行建模、提供更加準(zhǔn)確、可解釋的效果,但需要對樣本進行大量標(biāo)注,然而有些產(chǎn)品,尤其是新上市產(chǎn)品的銷量數(shù)據(jù)匱乏,所能提供的樣本量一般不足以支持這些方法的應(yīng)用;另一類是以關(guān)聯(lián)規(guī)則為代表的無監(jiān)督方法,此類方法無需對樣本進行標(biāo)注、利用了特定物聯(lián)網(wǎng)產(chǎn)品之間存在強關(guān)聯(lián)的特點,但無法深入利用產(chǎn)品和客戶的特征,因此效果有限,另外在構(gòu)建潛在客戶挖掘模型時,目前主流的技術(shù)均只聚焦單個產(chǎn)品的潛在客戶挖掘,對挖掘的范圍和效率限制較大,且缺乏效果追蹤機制。
4、上述問題往往導(dǎo)致潛在客戶挖掘效果不理想,以及效率低下、難以優(yōu)化等結(jié)果。對于已經(jīng)擁有較多產(chǎn)品種類以及產(chǎn)品數(shù)量仍在不斷增長的企業(yè)來說,這些問題尤為明顯,可能直接導(dǎo)致無法及時有效地搶占市場先機。
5、為此,本技術(shù)特提出一種物聯(lián)網(wǎng)潛在客戶的挖掘方法、裝置、設(shè)備及存儲介質(zhì)以解決上述技術(shù)問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明的主要目的在于提供一種物聯(lián)網(wǎng)細分行業(yè)產(chǎn)品潛在客戶的挖掘方法、裝置、設(shè)備及存儲介質(zhì),以解決背景技術(shù)中所提出的技術(shù)問題。
2、本發(fā)明采用以下技術(shù)方案解決上述技術(shù)問題:
3、一種物聯(lián)網(wǎng)潛在客戶的挖掘方法,包括以下具體執(zhí)行步驟:
4、s1.從數(shù)據(jù)源采集各類原始數(shù)據(jù),并將其整理成產(chǎn)品銷售數(shù)據(jù)集和企業(yè)信息數(shù)據(jù)集;
5、s2.創(chuàng)建一組配置,用于指定各項關(guān)鍵操作的具體執(zhí)行方式;
6、s3.通過交叉驗證方法,確定使模型效果達到最優(yōu)的配置參數(shù)取值;
7、s4.開展關(guān)聯(lián)分析,為數(shù)據(jù)集內(nèi)每種產(chǎn)品找到具有強關(guān)聯(lián)的其他產(chǎn)品;
8、s5.為每種產(chǎn)品對應(yīng)的潛在客戶挖掘子模型,定義正樣本和負樣本,并完成數(shù)據(jù)擴增;
9、s6.對企業(yè)信息數(shù)據(jù)集進行特征工程,得到企業(yè)特征數(shù)據(jù)集;
10、s7.結(jié)合交叉驗證所得到的最優(yōu)算法參數(shù),訓(xùn)練得到最終模型;
11、s8.將企業(yè)特征數(shù)據(jù)集分別輸入各個子模型,并對輸出進行匯總,得到潛在客戶清單;
12、s9.保存配置和關(guān)鍵數(shù)據(jù),并分別賦予唯一標(biāo)識和版本號,實現(xiàn)版本控制。
13、優(yōu)選的,一種物聯(lián)網(wǎng)潛在客戶的挖掘裝置,用于執(zhí)行上述所述的物聯(lián)網(wǎng)潛在客戶的挖掘方法,且對應(yīng)s1~s9步驟設(shè)置以下單元模塊:數(shù)據(jù)采集單元,用于從數(shù)據(jù)源采集所需數(shù)據(jù);參數(shù)配置單元,用于指定潛在客戶挖掘的重要參數(shù);參數(shù)優(yōu)化單元,用于確定指定參數(shù)的最優(yōu)取值;關(guān)聯(lián)分析單元,用于對所有產(chǎn)品開展關(guān)聯(lián)分析,尋找關(guān)聯(lián)的產(chǎn)品集合;樣本標(biāo)注單元,用于對各種產(chǎn)品的客戶樣本進行標(biāo)注,并完成數(shù)據(jù)擴增;特征工程單元,用于提取、生成模型訓(xùn)練所需的數(shù)據(jù)特征;模型訓(xùn)練單元,用于訓(xùn)練多個產(chǎn)品對應(yīng)的潛在客戶挖掘模型;結(jié)果輸出單元,用于輸出多個產(chǎn)品的潛在客戶,挖掘模型的預(yù)測結(jié)果;版本控制單元,用于對配置參數(shù)、輸入數(shù)據(jù)和輸出結(jié)果進行保存、標(biāo)識,以及效果跟蹤、版本回退操作。
14、優(yōu)選的,所述關(guān)聯(lián)分析單元中尋找關(guān)聯(lián)的產(chǎn)品集合的具體操作步驟包括:
15、operate1.設(shè)置所有在售物聯(lián)網(wǎng)產(chǎn)品的集合為i={i1,i2,...,im},設(shè)置所有交易事務(wù)集合為t={t1,t2,...,tn},則每個交易ti內(nèi)的產(chǎn)品都是i的子集;
16、operate2.對i中兩組不同的產(chǎn)品若購買x的客戶往往也會購買y,則稱由它們所組成的集合為頻繁項集f,且兩者間會形成關(guān)聯(lián)規(guī)則x→y,若x∪y共含有k個產(chǎn)品,則f可被稱為頻繁k-項集,在該規(guī)則中,x、y分別稱為規(guī)則的前件、后件;
17、operate3.使用支持度和置信度分別衡量頻繁項集和關(guān)聯(lián)規(guī)則的質(zhì)量,若以σ表示涉及特定產(chǎn)品交易的計數(shù)函數(shù),則支持度s和置信度c可以分別表示為和其中n為交易事務(wù)數(shù)量。
18、優(yōu)選的,所述operate2步驟中頻繁項集的支持度需要達到配置指定的閾值smin,因此所述頻繁項集的獲得挖掘步驟具體包括:
19、a1.首先令k=1,此時生成所有頻繁k-項集集合
20、a2.當(dāng)時,重復(fù)以下過程:令k=k+1,生成所有候選項集集合遍歷事務(wù)集合t中的每個事務(wù)t,生成ck中所有屬于t的候選項集集合遍歷候選集集合ct中的每個項集c,對項集c進行計數(shù)σ(c)=σ(c)+1,生成此時所有頻繁k-項集集合
21、
22、a3.匯總除頻繁1-項集外的所有頻繁項集
23、優(yōu)選的,所述關(guān)聯(lián)規(guī)則的置信度需要達到配置指定的閾值cmin,因此所述關(guān)聯(lián)規(guī)則的獲得挖掘步驟具體包括:
24、b1.遍歷f總中的每個頻繁k-項集fk;
25、b2.令m=1,生成此時所有規(guī)則的1-項后件h1={i|i∈fk},如果k>m+1,則重復(fù)以下過程:生成所有候選規(guī)則后件集合遍歷規(guī)則后件集合hm+1中的每個后件hm+1,計算置信度c=σ(fk)/σ(fk-hm+1),如果c≥cmin,則輸出規(guī)則(fk-hm+1)→hm+1,否則從hm+1中刪除hm+1,最后令m=m+1;
26、b3.匯總所有關(guān)聯(lián)規(guī)則至r總。
27、優(yōu)選的,所述樣本標(biāo)注單元中對各種產(chǎn)品的客戶樣本進行標(biāo)注的具體操作步驟包括:
28、l1.將指定產(chǎn)品組成的項集記為x,此時項集中僅含一個產(chǎn)品,即|x|=1;
29、l2.將產(chǎn)品銷售數(shù)據(jù)集中存在x購買記錄的所有客戶歸入正樣本;
30、l3.將產(chǎn)品銷售數(shù)據(jù)集中的其他客戶歸入負樣本;
31、l4.由于每種物聯(lián)網(wǎng)產(chǎn)品均會存在各自對應(yīng)的正樣本和負樣本,因此對兩類樣本進行合并,即可形成對應(yīng)產(chǎn)品的客戶標(biāo)簽數(shù)據(jù)集,從而完成對客戶樣本的標(biāo)注處理。
32、優(yōu)選的,所述客戶樣本中若正樣本的數(shù)量低于配置中指定的樣本量閾值,則在所述l3步驟前執(zhí)行以下操作:
33、1)遍歷所有關(guān)聯(lián)規(guī)則r總,篩選出規(guī)則前件(或后件)等于x的關(guān)聯(lián)規(guī)則r關(guān)聯(lián)x={y|x→y∨y→x},并將r關(guān)聯(lián)x中所有的y視為關(guān)聯(lián)產(chǎn)品集合(|y|≥1);
34、2)將產(chǎn)品銷售數(shù)據(jù)集中,存在r關(guān)聯(lián)x中任意y的購買記錄的客戶歸入正樣本,實現(xiàn)數(shù)據(jù)擴增。
35、優(yōu)選的,所述參數(shù)優(yōu)化單元中采用交叉驗證方法確定所有尚未確定唯一取值的范圍參數(shù)的最優(yōu)取值作為模型效果達到最優(yōu)的配置參數(shù)取值,并對所述模型訓(xùn)練單元所訓(xùn)練得到的模型采用交叉驗證的方法實現(xiàn)參數(shù)組合評估和擇優(yōu)。
36、又一方面,本發(fā)明還公開一種計算機設(shè)備,包括內(nèi)存存儲器和處理器,所述內(nèi)存存儲器用于提供高帶寬、低延遲、非持久化的存儲功能,所述內(nèi)存存儲器存儲有計算機程序,所述處理器通過讀取并執(zhí)行所述內(nèi)存存儲器中的程序以實現(xiàn)上述裝置各個單元的功能。
37、再一方面,本發(fā)明還公開一種計算機可讀存儲介質(zhì),持久化存儲有程序及數(shù)據(jù),所述計算機程序被處理器讀取并執(zhí)行時,使得所述處理器實現(xiàn)上述裝置各個單元的功能。
38、由上述技術(shù)方案可知,本發(fā)明提供了一種物聯(lián)網(wǎng)潛在客戶的挖掘方法、裝置、設(shè)備及存儲介質(zhì)。與現(xiàn)有技術(shù)相比本發(fā)明的具有以下優(yōu)勢:
39、1.本發(fā)明通過設(shè)置關(guān)聯(lián)分析單元和樣本標(biāo)注單元,能夠提出一種無監(jiān)督關(guān)聯(lián)分析的數(shù)據(jù)擴增方法,并將其與有監(jiān)督分類算法結(jié)合,在訓(xùn)練潛在客戶挖掘模型之前完成數(shù)據(jù)擴增,使得樣本量能夠得到提升,從而能夠有效解決潛在客戶挖掘模型訓(xùn)練數(shù)據(jù)不足、效果低下的問題。
40、2.本發(fā)明通過設(shè)置關(guān)聯(lián)分析單元和樣本標(biāo)注單元,能夠利用物聯(lián)網(wǎng)產(chǎn)品間往往存在強關(guān)聯(lián)的特點,提出使用關(guān)聯(lián)分析方法,找到產(chǎn)品之間的關(guān)聯(lián)規(guī)則,針對買家數(shù)量較少的產(chǎn)品,加入關(guān)聯(lián)產(chǎn)品買家樣本實現(xiàn)數(shù)據(jù)擴增,使其樣本量達到有監(jiān)督學(xué)習(xí)算法的要求,進而提升模型的效果。
41、3.本發(fā)明在模型建立和訓(xùn)練的基礎(chǔ)上通過結(jié)合擴展的交叉驗證方法能夠在關(guān)聯(lián)分析單元中將關(guān)聯(lián)分析融入交叉驗證過程,使得基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)擴增方法的效果能夠被評價和優(yōu)化,最終有助于提高模型效果。
42、4.本發(fā)明方法能夠用于構(gòu)建同時覆蓋多種細分行業(yè)產(chǎn)品的潛在客戶挖掘模型,提高潛在客戶挖掘的覆蓋范圍和效率,并同時輸出各個產(chǎn)品的潛在客戶清單,適用面更廣。
43、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本發(fā)明的實施例的關(guān)鍵或重要特征,也不用于限制本發(fā)明的范圍。本發(fā)明的其它特征將通過以下的說明書而變得容易理解。