一種基于移動信令的大數(shù)據(jù)營銷方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于互聯(lián)網(wǎng)領(lǐng)域,更具體地,涉及一種基于移動信令的大數(shù)據(jù)營銷方法。
【背景技術(shù)】
[0002] 隨著信息技術(shù)的迅猛發(fā)展以及人們獲取信息手段的多樣化,社會各行各業(yè)都擁有 大量的信息數(shù)據(jù)。電信運(yùn)營商的數(shù)據(jù)倉庫中已經(jīng)累積大量原始數(shù)據(jù)未得利用,運(yùn)營商在經(jīng) 營過程中,已經(jīng)出現(xiàn)了大量客戶流失和業(yè)務(wù)收入下滑的現(xiàn)象。在使用現(xiàn)有業(yè)務(wù)支撐系統(tǒng)外, 更多的只能是通過相關(guān)報表看到這些現(xiàn)象發(fā)生的結(jié)果,再采取相應(yīng)的措施,并不能有一個 事先的預(yù)警,以至于不能及時采取相應(yīng)的戰(zhàn)略調(diào)整。另外,目前的業(yè)務(wù)支撐系統(tǒng)的數(shù)據(jù)處理 速度和響應(yīng)時間較慢,因此也導(dǎo)致管理層和決策層都不能及時地得到數(shù)據(jù)結(jié)果。
[0003] 為此,運(yùn)營商從戰(zhàn)略層面上對大數(shù)據(jù)展開部署,利用云計算的強(qiáng)大計算能力,迅速 處理大數(shù)據(jù)信息,關(guān)注實(shí)際業(yè)務(wù),進(jìn)行數(shù)據(jù)采集分析挖掘,將數(shù)據(jù)轉(zhuǎn)化為精準(zhǔn)營銷生產(chǎn)力。 目前,已有一些企業(yè)和研究機(jī)構(gòu)在大數(shù)據(jù)處理領(lǐng)域提出了一些發(fā)明申請。
[0004] 例如,在中國發(fā)明申請CN201210571477. 6中提出了一種基于PaaS平臺的大數(shù)據(jù) 處理方法,其中所述系統(tǒng)包括PaaS平臺服務(wù)器及其上構(gòu)建的多個Service服務(wù)器和與每個 Service服務(wù)器相關(guān)聯(lián)的hadoop集群。所述方法為用戶終端向PaaS平臺服務(wù)器發(fā)送數(shù)據(jù) 處理請求;PaaS平臺服務(wù)器解析所述數(shù)據(jù)處理請求,向相應(yīng)的Service服務(wù)器發(fā)送任務(wù)指 令;所述Service服務(wù)器調(diào)用其對應(yīng)的hadoop集群,去執(zhí)行所述數(shù)據(jù)處理請求所對應(yīng)的作 業(yè);所述hadoop集群將作業(yè)結(jié)果返回給所述Service服務(wù)器;所述Service服務(wù)器將作 業(yè)結(jié)果返回給PaaS平臺服務(wù)器;PaaS平臺服務(wù)器根據(jù)所述作業(yè)結(jié)果向用戶終端返回服務(wù) 響應(yīng)。然而,該方法只是提供一種大數(shù)據(jù)分布式處理實(shí)現(xiàn)系統(tǒng),卻并未說明具體大數(shù)據(jù)處理 的方法。
[0005] 中國發(fā)明申請CN201210590482. 1中提出了一種高精度多維計數(shù)布魯姆過濾器及 其大數(shù)據(jù)處理方法,所述方法為在高精度多維計數(shù)布魯姆過濾器中存儲一定規(guī)?;蚓哂邢?應(yīng)特性的多維屬性數(shù)據(jù)集;讀取需要處理的多維屬性大數(shù)據(jù)集;進(jìn)行高精度多維計數(shù)布魯 姆過濾器處理,包括多維元素查詢和更新等;輸出經(jīng)過處理后的多維屬性數(shù)據(jù)集。然而,該 方法是針對多維屬性數(shù)據(jù)集,進(jìn)行高精度多維計數(shù)布魯姆過濾器處理,在高精度多維計數(shù) 布魯姆過濾器中存儲一定規(guī)?;蚓哂邢鄳?yīng)特性的多維屬性數(shù)據(jù)集,待處理的多維屬性大數(shù) 據(jù)集需要滿足布魯姆過濾器的輸入格式要求;另外,該方法僅提供了一種數(shù)據(jù)價值"提純" 的方法,并未形成大數(shù)據(jù)處理框架系統(tǒng)。
【發(fā)明內(nèi)容】
[0006] 針對現(xiàn)有技術(shù)的以上缺陷或改進(jìn)需求,本發(fā)明提供了一種基于移動信令的大數(shù)據(jù) 營銷方法,其目的在于,能夠利用分布式存儲技術(shù)提高海量數(shù)據(jù)處理效率,同時,本發(fā)明能 夠?yàn)榇髷?shù)據(jù)提供精準(zhǔn)的處理模型,對不同的應(yīng)用場景具有通用性。
[0007] 為實(shí)現(xiàn)上述目的,按照本發(fā)明的一個方面,提供了一種基于移動信令的大數(shù)據(jù)營 銷方法,包括以下步驟:
[0008] (1)建立應(yīng)用類型模型庫和算法庫,其中應(yīng)用類型模型庫包含不同應(yīng)用類型的應(yīng) 用模型;
[0009] (2)對輸入數(shù)據(jù)進(jìn)行抽樣,對抽樣后的樣本數(shù)據(jù)進(jìn)行主成分分析PCA和關(guān)鍵字匹 配,以確定輸入數(shù)據(jù)的應(yīng)用類型,并根據(jù)該應(yīng)用類型確定其對應(yīng)的應(yīng)用模型;
[0010] (3)根據(jù)輸入數(shù)據(jù)的應(yīng)用類型進(jìn)行數(shù)據(jù)篩選;
[0011] (4)對步驟(3)得到的篩選后的數(shù)據(jù)進(jìn)行分片,并對分片后的數(shù)據(jù)進(jìn)行數(shù)據(jù)分布 式存儲處理;
[0012] (5)根據(jù)步驟(2)中的主成份分析結(jié)果得出應(yīng)用類型模型庫中不存在與輸入數(shù)據(jù) 的應(yīng)用類型相對應(yīng)的應(yīng)用模型;
[0013] (6)根據(jù)步驟(5)所得的組合分類算法的算法本身對輸入數(shù)據(jù)的格式要求,對輸 入數(shù)據(jù)進(jìn)行相應(yīng)數(shù)據(jù)變換以得到滿足分類算法輸入數(shù)據(jù)格式要求的輸入數(shù)據(jù);
[0014] (7)對樣本數(shù)據(jù)進(jìn)行模型訓(xùn)練,用訓(xùn)練后的模型對所有輸入數(shù)據(jù)進(jìn)行模型實(shí)施;
[0015] (8)對步驟(7)訓(xùn)練出來的模型進(jìn)行評估,將新模型加入應(yīng)用類型模型庫并更新 應(yīng)用類型模型庫;
[0016] (9)調(diào)用應(yīng)用類型模型庫中對應(yīng)的應(yīng)用模型對輸入數(shù)據(jù)進(jìn)行分析處理,發(fā)布數(shù)據(jù) 分析結(jié)果,并將結(jié)果反饋到輸入端,形成自動化閉環(huán)模型體系。
[0017] 優(yōu)選地,初始階段,應(yīng)用類型模型庫中沒有應(yīng)用模型,所有應(yīng)用模型均以增量的方 式被加入到應(yīng)用類型模型庫中;算法庫中包含不同的數(shù)據(jù)分類算法以及算法的適用場景, 可根據(jù)不同的應(yīng)用類型的場景及數(shù)據(jù)特征,自適應(yīng)地選取符合要求的算法。
[0018] 優(yōu)選地,步驟⑵包括以下子步驟:
[0019] (2. 1)采用自適應(yīng)漸進(jìn)抽樣法對輸入數(shù)據(jù)進(jìn)行抽樣,以得到η維樣本數(shù)據(jù)X= {Xl,x2,. . .,χη},其中X表示輸入數(shù)據(jù)中某個字段中的數(shù)據(jù),η為自然數(shù);
[0020] (2. 2)對η維樣本數(shù)據(jù)進(jìn)行主成分分析,以找到樣本數(shù)據(jù)中的關(guān)鍵字;
[0021] (2. 3)提取步驟(2. 2)中查找到的關(guān)鍵字與模型庫中關(guān)鍵字進(jìn)行匹配,并判斷模 型庫中是否存在與該關(guān)鍵字相應(yīng)的應(yīng)用模型,如果是則進(jìn)入步驟(9),否則進(jìn)入步驟(3)。
[0022] 優(yōu)選地,步驟(2. 2)具體為,首先是利用如下公式(1)計算η維樣本數(shù)據(jù)X的協(xié)方 差矩陣S;
[0023]
[0024]
[0025] 然后將S矩陣的特征值按照從大到小的順序排列: 果前m(其中1 <m<η)個特征值之和占總特征值之和的比率達(dá)到90%以上,則選擇輸入 數(shù)據(jù)中與前m個特征值對應(yīng)的字段為關(guān)鍵字。
[0026] 優(yōu)選地,步驟⑶包括以下子步驟:
[0027] (3. 1)根據(jù)查找到的樣本數(shù)據(jù)中的關(guān)鍵字,從輸入數(shù)據(jù)中提取與該關(guān)鍵字相對應(yīng) 的字段的原始數(shù)據(jù);
[0028] (3. 2)對提取出來的原始數(shù)據(jù)進(jìn)行K均值聚類,并根據(jù)聚類結(jié)果判斷離群點(diǎn)和重 復(fù)數(shù)據(jù)點(diǎn),將離群點(diǎn)和重復(fù)數(shù)據(jù)點(diǎn)刪除,對刪除離群點(diǎn)和重復(fù)數(shù)據(jù)點(diǎn)之后的數(shù)據(jù)進(jìn)行以下 處理:對于值不一致的數(shù)據(jù)點(diǎn)以及值缺失的數(shù)據(jù)點(diǎn)的值用樣本均值代替;
[0029] (3. 3)隨機(jī)抽取一部分清洗過的數(shù)據(jù)作為檢測數(shù)據(jù),利用切比雪夫定理對步驟 (3. 2)中清洗過的所有數(shù)據(jù)進(jìn)行檢測,并判斷數(shù)據(jù)錯誤率是否低于閾值0. 5%,若數(shù)據(jù)錯誤 率低于0.5%,則審核通過,然后進(jìn)入步驟(4),否則重復(fù)步驟(3.2);
[0030] 優(yōu)選地,步驟(4)具體為,首先檢測磁盤利用率,判斷磁盤空間是否滿足篩選后的 數(shù)據(jù)的存儲容量要求,若磁盤空間滿足要求,則將篩選后的數(shù)據(jù)存儲在指定磁盤;若磁盤空 間不滿足要求,則對篩選后的數(shù)據(jù)進(jìn)行分片,將分片數(shù)據(jù)分布存儲在指定終端。
[0031] 優(yōu)選地,步驟(5)包括以下子步驟:
[0032] (5. 1)根據(jù)輸入數(shù)據(jù)的統(tǒng)計特性及字段屬性在算法庫中選擇所有滿足要求的分 類算法,并用選擇出來的分類算法分別對樣本數(shù)據(jù)進(jìn)行分類,從而得到不同的分類結(jié)果,并 計算該分類結(jié)果的準(zhǔn)確率;
[0033] (5. 2)將所選的分類算法編碼為二進(jìn)制字符串;并將一元線性回歸方程作為適應(yīng) 度函數(shù)f(y),用于描述分類算法的分類結(jié)果的準(zhǔn)確率;
[0034] (5. 3)計算分類算法 丫;被選中的概率為f(y;) /(f(yj+f(y2) +· · ·+f(yn));
[0035] (5. 4)根據(jù)分類算法被選的概率大小對分類算法的二進(jìn)制編碼隨機(jī)的進(jìn)行交叉組 合,或者對分類算法的二進(jìn)制編碼進(jìn)行小范圍的變異,以產(chǎn)生分類結(jié)果,并將以上交叉組合 和變異的過程不斷重復(fù)下去,直到找出組合分類算法的近似最優(yōu)組合。
[0036] 優(yōu)選地,步驟(6)包括以下子步驟:
[0037] (6. 1)對所有數(shù)據(jù)進(jìn)行對象聚焦處理,并根據(jù)步驟(2)中的協(xié)方差矩陣S對聚焦處 理后的數(shù)據(jù)進(jìn)行降維;
[0038] (6. 2)按比例對降維后的連續(xù)數(shù)據(jù)進(jìn)行離散化,并對離散后的數(shù)據(jù)進(jìn)行變量變換, 以滿足組合分類算法的數(shù)據(jù)格式要求;
[0039] (6. 3)判斷處理后數(shù)據(jù)的數(shù)據(jù)格式是否滿足組合分類算法對輸入數(shù)據(jù)的格式要 求,若不滿足要求,則重復(fù)步驟(6. 1)-(6.2);若滿足要求,則進(jìn)入步驟(7)。
[0040] 優(yōu)選地,步驟(7)包括以下子步驟:
[0041]