本發(fā)明涉及大數(shù)據(jù)領域,特別是一種數(shù)據(jù)挖掘方法、裝置及系統(tǒng)。
背景技術:
:在大數(shù)據(jù)應用領域,往往可以根據(jù)用戶的各種行為特征將用戶群體劃分成若干類,以便于針對用戶群的特征進行精準式、個性化的服務。聚類是對用戶群體進行劃分一種方式。聚類是將數(shù)據(jù)對象分成類的過程,使同一個類中的對象具有很高的相似度,而使不同類中的對象高度相異。相異度通常使用距離來進行度量。聚類分析已廣泛應用于各大領域,例如市場研究、數(shù)據(jù)分析、模式識別等等。但是,聚類操作中針對用戶行為特征對用戶群體進行劃分的效果在很大程度上依賴于基礎數(shù)據(jù)的質量,現(xiàn)有的基于聚類算法的用戶群體劃分往往不能夠很好的反映用戶的行為特征,存在聚類不準確的問題,難以利用聚類結果對用戶群進行精準式、個性化的服務。技術實現(xiàn)要素:本發(fā)明的一個目的在于提高用戶群體劃分的準確度。根據(jù)本發(fā)明的一個方面,提出一種數(shù)據(jù)挖掘方法,包括:獲取用戶的預定行為數(shù)據(jù),預定行為數(shù)據(jù)包括預定行為的效用數(shù)據(jù)和預定行為的生成時間;根據(jù)每個用戶的預定行為數(shù)據(jù)的生成時間和預定行為數(shù)據(jù)的數(shù)量對用戶進行分類,確定目標用戶集合;根據(jù)預定行為數(shù)據(jù)生成目標用戶集合中每個用戶的單用戶特征向量;根據(jù)單用戶特征向量,基于聚類算法對目標用戶集合進行分級,確定分級用戶集合。可選地,預定行為數(shù)據(jù)還包括預定條件標識和效用抵扣數(shù)據(jù),根據(jù)預定條件標識識別第一預定行為數(shù)據(jù);單用戶特征向量包括第一特征向量指標、第二特征向量指標第三特征向量指標、第四特征向量指標、第五特征向量指標和/或第六特征向量指標;根據(jù)預定行為數(shù)據(jù)生成目標用戶集合中每個用戶的單用戶特征向量包括:根據(jù)用戶的第一預定行為數(shù)據(jù)的數(shù)量與預定行為數(shù)據(jù)的數(shù)量的比值確定用戶的第一特征向量指標;確定用戶的各個預定行為數(shù)據(jù)的效用抵扣數(shù)據(jù)與效用數(shù)據(jù)的比值,并將比值取均值,確定用戶的第二特征向量指標;根據(jù)用戶的效用抵扣數(shù)據(jù)之和與效用數(shù)據(jù)之和的比值確定用戶的第三特征向量指標;根據(jù)用戶的效用抵扣數(shù)據(jù)之和確定用戶的第四特征向量指標;根據(jù)用戶的第一預定行為數(shù)據(jù)的數(shù)量確定用戶的第五特征向量指標;和/或,根據(jù)用戶的存在第一預定行為數(shù)據(jù)的時間段的數(shù)量與從用戶入網開始經過的時間段數(shù)量的比值確定用戶的第六特征向量指標??蛇x地,根據(jù)單用戶特征向量,基于聚類算法對目標用戶集合進行分級,確定分級用戶集合包括:根據(jù)每個用戶的單用戶特征向量確定高密度區(qū)域用戶;從高密度區(qū)域用戶中選擇作為初始聚類中心的用戶,初始聚類中心的數(shù)量與預定分級數(shù)量相等;根據(jù)初始聚類中心,基于K均值算法確定分級用戶集合??蛇x地,在高密度區(qū)域用戶中選擇初始聚類中心包括:根據(jù)單用戶特征向量在高密度區(qū)域用戶中選擇密度參數(shù)最大的用戶作為第一初始聚類中心;從高密度區(qū)域用戶中選取距離第一初始聚類中心最遠的用戶作為第二初始聚類中心;從高密度區(qū)域用戶中選取距離第一初始聚類中心和第二初始聚類中心集合的距離最遠的用戶作為第三初始聚類中心;依次類推直至確定全部初始聚類中心。可選地,排除目標用戶集合中的異常用戶,異常用戶包括用戶的效用抵扣數(shù)據(jù)之和大于預定分位數(shù)的用戶;根據(jù)單用戶特征向量,基于聚類算法對目標用戶集合進行分級,確定分級用戶集合包括:根據(jù)排除異常用戶后的目標用戶集合中用戶的單用戶特征向量,基于聚類算法對目標用戶集合進行分級,確定分級用戶集合;基于預定策略為異常用戶選擇分級用戶集合,并將異常用戶并入分級用戶集合中。可選地,還包括:將單用戶特征向量中的特征向量指標進行數(shù)據(jù)標準化處理;根據(jù)單用戶特征向量,基于聚類算法對目標用戶集合進行分級,確定分級用戶集合包括:根據(jù)標準化處理后的單用戶特征向量,基于聚類算法對目標用戶集合進行分級,確定分級用戶集合。通過這樣的方法,可以先將用戶進行分類,在一個分類內進行用戶聚類,從而能夠選擇適合的目標用戶進行聚類分析,一方面能夠更有針對性,減少運算的數(shù)據(jù)量,另一方面能夠排除不同類的用戶數(shù)據(jù)對于聚類效果的干擾,使用戶群體劃分更加準確,便于根據(jù)用戶群體劃分的結果進行精準式、個性化的服務。根據(jù)本發(fā)明的另一個方面,提出一種數(shù)據(jù)挖掘裝置,包括:數(shù)據(jù)獲取模塊,用于獲取用戶的預定行為數(shù)據(jù),預定行為數(shù)據(jù)包括預定行為的效用數(shù)據(jù)和預定行為的生成時間;用戶分類模塊,用于根據(jù)每個用戶的預定行為數(shù)據(jù)的生成時間和預定行為數(shù)據(jù)的數(shù)量對用戶進行分類,確定目標用戶集合;特征向量生成模塊,用于根據(jù)預定行為數(shù)據(jù)生成目標用戶集合中每個用戶的單用戶特征向量;用戶分級模塊,用于根據(jù)單用戶特征向量,基于聚類算法對目標用戶集合進行分級,確定分級用戶集合??蛇x地,預定行為數(shù)據(jù)還包括預定條件標識和效用抵扣數(shù)據(jù),根據(jù)預定條件標識識別第一預定行為數(shù)據(jù);單用戶特征向量包括第一特征向量指標、第二特征向量指標第三特征向量指標、第四特征向量指標、第五特征向量指標和/或第六特征向量指標;根據(jù)預定行為數(shù)據(jù)生成目標用戶集合中每個用戶的單用戶特征向量包括:根據(jù)用戶的第一預定行為數(shù)據(jù)的數(shù)量與預定行為數(shù)據(jù)的數(shù)量的比值確定用戶的第一特征向量指標;確定用戶的各個預定行為數(shù)據(jù)的效用抵扣數(shù)據(jù)與效用數(shù)據(jù)的比值,并將比值取均值,確定用戶的第二特征向量指標;根據(jù)用戶的效用抵扣數(shù)據(jù)之和與效用數(shù)據(jù)之和的比值確定用戶的第三特征向量指標;根據(jù)用戶的效用抵扣數(shù)據(jù)之和確定用戶的第四特征向量指標;根據(jù)用戶的第一預定行為數(shù)據(jù)的數(shù)量確定用戶的第五特征向量指標;和/或,根據(jù)用戶的存在第一預定行為數(shù)據(jù)的時間段的數(shù)量與從用戶入網開始經過的時間段數(shù)量的比值確定用戶的第六特征向量指標。可選地,用戶分級模塊包括:高密度用戶確定單元,用于根據(jù)每個用戶的單用戶特征向量確定高密度區(qū)域用戶;初始中心確定單元,用于從高密度區(qū)域用戶中選擇作為初始聚類中心的用戶,初始聚類中心的數(shù)量與預定分級數(shù)量相等;聚類單元,用于根據(jù)初始聚類中心,基于K均值算法確定分級用戶集合??蛇x地,初始中心確定單元用于:根據(jù)單用戶特征向量在高密度區(qū)域用戶中選擇密度參數(shù)最大的用戶作為第一初始聚類中心;從高密度區(qū)域用戶中選取距離第一初始聚類中心最遠的用戶作為第二初始聚類中心;從高密度區(qū)域用戶中選取距離第一初始聚類中心和第二初始聚類中心集合的距離最遠的用戶作為第三初始聚類中心;依次類推直至確定全部初始聚類中心。可選地,還包括:異常用戶排除模塊,用于排除目標用戶集合中的異常用戶,異常用戶包括用戶的效用抵扣數(shù)據(jù)之和大于預定分位數(shù)的用戶;用戶分級模塊用于:根據(jù)排除異常用戶后的目標用戶集合中用戶的單用戶特征向量,基于聚類算法對目標用戶集合進行分級,確定分級用戶集合;基于預定策略為異常用戶選擇分級用戶集合,并將異常用戶并入分級用戶集合中。可選地,還包括:標準化處理模塊,用于將單用戶特征向量中的特征向量指標進行數(shù)據(jù)標準化處理;用戶分級模塊用于根據(jù)標準化處理后的單用戶特征向量,基于聚類算法對目標用戶集合進行分級,確定分級用戶集合。這樣的裝置可以先將用戶進行分類,在一個分類內進行用戶聚類,從而能夠選擇適合的目標用戶進行聚類分析,一方面能夠更有針對性,減少運算的數(shù)據(jù)量,另一方面能夠排除不同類的用戶數(shù)據(jù)對于聚類效果的干擾,使用戶群體劃分更加準確,便于根據(jù)用戶群體劃分結果進行精準式、個性化的服務。根據(jù)本發(fā)明的又一個方面,提出一種數(shù)據(jù)挖掘系統(tǒng),包括存儲器;以及耦接至存儲器的處理器,處理器被配置為基于存儲在存儲器的指令執(zhí)行如上文中提到的任意一種方法。這樣的系統(tǒng)可以先將用戶進行分類,在一個分類內進行用戶聚類,從而能夠選擇適合的目標用戶進行聚類分析,一方面能夠更有針對性,減少運算的數(shù)據(jù)量,另一方面能夠排除不同類的用戶數(shù)據(jù)對于聚類效果的干擾,使用戶群體劃分更加準確,便于根據(jù)用戶群體劃分結果進行精準式、個性化的服務。附圖說明此處所說明的附圖用來提供對本發(fā)明的進一步理解,構成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)明的不當限定。在附圖中:圖1為本發(fā)明的數(shù)據(jù)挖掘方法的一個實施例的流程圖。圖2為本發(fā)明的數(shù)據(jù)挖掘方法中用戶聚類的一個實施例的流程圖。圖3為本發(fā)明的數(shù)據(jù)挖掘方法的另一個實施例的流程圖。圖4為本發(fā)明的數(shù)據(jù)挖掘裝置的一個實施例的示意圖。圖5為本發(fā)明的數(shù)據(jù)挖掘裝置中用戶分級模塊的一個實施例的示意圖。圖6為本發(fā)明的數(shù)據(jù)挖掘裝置的另一個實施例的示意圖。圖7為本發(fā)明的數(shù)據(jù)挖掘系統(tǒng)的一個實施例的示意圖。圖8為本發(fā)明的數(shù)據(jù)挖掘系統(tǒng)的另一個實施例的示意圖。具體實施方式下面通過附圖和實施例,對本發(fā)明的技術方案做進一步的詳細描述。本發(fā)明的數(shù)據(jù)挖掘方法的一個實施例的流程圖如圖1所示。在步驟101中,獲取用戶的預定行為數(shù)據(jù),預定行為數(shù)據(jù)包括預定行為的效用數(shù)據(jù)和預定行為的生成時間。同一用戶可以有多條預定行為數(shù)據(jù),包括該預定行為數(shù)據(jù)的生成時間和效用數(shù)據(jù)。在一個實施例中,可以獲得多用戶的預定行為數(shù)據(jù)。在步驟102中,根據(jù)每個用戶的預定行為數(shù)據(jù)的生成時間和預定行為數(shù)據(jù)的數(shù)量對用戶進行分類,確定目標用戶集合。在一個實施例中,可以按照預定行為數(shù)據(jù)的生成時間進行分類,也可以按照預定行為數(shù)據(jù)的生成數(shù)量進行分類,或者將兩者結合進行更加細致的分類??梢园凑招枰x擇一個或多個分類分別作為目標用戶集合。在步驟103中,根據(jù)預定行為數(shù)據(jù)生成目標用戶集合中每個用戶的單用戶特征向量。在一個實施例中,可以根據(jù)預定行為數(shù)據(jù)的數(shù)量、預定行為數(shù)據(jù)的效用數(shù)據(jù)、生成時間所處的時間區(qū)間等確定單用戶特征向量。在步驟104中,根據(jù)單用戶特征向量,基于聚類算法對目標用戶集合進行分級,確定分級用戶集合,其中,分級用戶集合的數(shù)量與預定分級數(shù)量相等。在一個實施例中,可以選擇初始聚類中心,選擇的初始聚類中心的數(shù)量預定分級數(shù)量相同的初始中心點,采用K均值算法進行聚類操作。通過這樣的方法,可以先將用戶進行分類,在一個分類內進行用戶聚類,從而能夠選擇適合的目標用戶進行聚類分析,一方面能夠更有針對性,減少運算的數(shù)據(jù)量,另一方面能夠排除不同類的用戶數(shù)據(jù)對于聚類效果的干擾,使用戶群體劃分更加準確,便于根據(jù)用戶群體劃分的結果進行精準式、個性化的服務。在一個實施例中,可以設定預定時間閾值以及預定數(shù)量對用戶進行分類。若預定行為數(shù)據(jù)的生成時間均早于預定時間閾值,且預定行為數(shù)據(jù)的數(shù)量大于預定數(shù)量閾值時,確定用戶為第一類用戶;若預定行為數(shù)據(jù)的生成時間均早于預定時間閾值,且預定行為數(shù)據(jù)的數(shù)量不大于預定數(shù)量閾值時,確定用戶為第二類用戶;若存在預定行為數(shù)據(jù)的生成時間不早于預定時間閾值,且生成時間不早于預定時間閾值的預定行為數(shù)據(jù)的數(shù)量大于預定數(shù)量閾值時,確定用戶為第三類用戶;若存在預定行為數(shù)據(jù)的生成時間不早于預定時間閾值,且生成時間不早于預定時間閾值的預定行為數(shù)據(jù)的數(shù)量不大于預定數(shù)量閾值時,確定用戶為第四類用戶。通過這樣的方法,能夠根據(jù)預定行為數(shù)據(jù)的生成時間和預定行為數(shù)據(jù)的數(shù)量對用戶進行分類,選擇需要的類別的用戶作為目標用戶集合,或者可以對每個類別的用戶集合分別進行聚類操作,實現(xiàn)每個類別的用戶分級,從而能夠實現(xiàn)同類別的用戶的用戶分級,提高用戶分級的準確度。在一個實施例中,可以排除較長一段時間內沒有預定行為數(shù)據(jù)產生的用戶,由于這類用戶長時間沒有活動,因此進行用戶行為分析和數(shù)據(jù)挖掘的意義不大,從而能夠降低運算量,也能夠減少對分級效果的影響,且在數(shù)據(jù)應用過程中能夠減少運營成本。在一個實施例中,預定行為數(shù)據(jù)還包括預定條件標識和效用抵扣數(shù)據(jù)。效用抵扣數(shù)據(jù)可以是由于預定行為滿足了預定條件而產生的抵扣效用,如使效用數(shù)據(jù)比標準效用數(shù)據(jù)降低的額度等。在一個實施例中,可以通過預定行為數(shù)據(jù)的預定條件標識判斷預定行為是否符合預定條件,可以將符合預定條件的預定行為的預定行為數(shù)據(jù)稱為第一預定行為數(shù)據(jù)。單用戶特征向量可以反映符合預定條件的預定行為所占的比例、產生的影響,從而通過數(shù)據(jù)挖掘實現(xiàn)對用戶行為特點,特別是對預定條件的敏感度的分析。在一個實施例中,可以根據(jù)用戶的第一預定行為數(shù)據(jù)的數(shù)量與預定行為數(shù)據(jù)的數(shù)量的比值確定用戶的第一特征向量指標;在另一個實施例中,可以確定用戶的各個預定行為數(shù)據(jù)的效用抵扣數(shù)據(jù)與效用數(shù)據(jù)的比值,并將比值取均值,確定用戶的第二特征向量指標;在又一個實施例中,可以根據(jù)用戶的效用抵扣數(shù)據(jù)之和與效用數(shù)據(jù)之和的比值確定用戶的第三特征向量指標;在再一個實施例中,可以根據(jù)用戶的效用抵扣數(shù)據(jù)之和確定用戶的第四特征向量指標;還可以根據(jù)用戶的第一預定行為數(shù)據(jù)的數(shù)量確定用戶的第五特征向量指標;另外,還可以根據(jù)用戶的存在第一預定行為數(shù)據(jù)的時間段的數(shù)量與從用戶入網開始經過的時間段數(shù)量的比值確定用戶的第六特征向量指標。通過多個特征向量指標構成特征向量,能夠準確的刻畫出用戶對預定條件的敏感度,從而在聚類計算中,能夠得到顯著的體現(xiàn)用戶對于預定條件敏感度差異的用戶分級,便于以分級用戶為基礎開展有針對性的應用,對用戶開展有針對性的服務。本發(fā)明的數(shù)據(jù)挖掘方法中用戶分級的一個實施例的流程圖如圖2所示。在步驟201中,根據(jù)每個用戶的單用戶特征向量確定高密度區(qū)域用戶。在一個實施例中,可以以用戶的單用戶特征向量點為中心點,確定包括預定數(shù)量的其他用戶單用戶特征向量點的區(qū)域的半徑,若半徑小于預定閾值,則認為用戶為高密度區(qū)域用戶。在一個實施例中,可以以用戶的單用戶特征向量點為中心點,確定預定半徑的區(qū)域內其他用戶的單用戶特征向量點的數(shù)量,若該數(shù)量達到預定數(shù)量,則認為用戶為高密度區(qū)域用戶。在步驟202中,從高密度區(qū)域用戶中選擇作為初始聚類中心的用戶,初始聚類中心的數(shù)量與預定分級數(shù)量相等。例如,若需要將目標用戶集合中的用戶通過聚類分為五級,則需要在高密度區(qū)域中選取5個初始聚類中心。在步驟203中,根據(jù)初始聚類中心,基于K均值算法確定分級用戶集合。通常來講,高密度的數(shù)據(jù)區(qū)域會被低密度的數(shù)據(jù)區(qū)域分隔,這些位于低密度區(qū)域的數(shù)據(jù)點通常就稱為孤立點。目前已有的聚類算法大都是隨機地選取初始聚類中心,這忽視了數(shù)據(jù)的分布情況,由于K均值算法中初始聚類中心的選取對結果會產生影響,因此隨機的選取初始聚類中心會極大地影響最終的聚類效果。通過本發(fā)明實施例中的方法,能夠保證初始聚類中心為高密度區(qū)域用戶,避免將一些孤立用戶作為初始聚類中心造成用戶分級的不準確。在一個實施例中,可以基于用戶的單用戶特征向量進行運算,在高密度區(qū)域用戶中選擇密度參數(shù)最大的數(shù)據(jù)點作為第一初始聚類中心,并將第一初始聚類中心從高密度區(qū)域用戶中刪除;從高密度區(qū)域用戶中選取距離第一初始聚類中心最遠的用戶作為第二初始聚類中心,并將第二初始聚類中心從高密度區(qū)域用戶中刪除;從高密度區(qū)域用戶中選取距離第一初始聚類中心和第二初始聚類中心集合的距離最遠的用戶作為第三初始聚類中心,并將第三初始聚類中心從高密度區(qū)域用戶中刪除;依次類推直至確定全部初始聚類中心。通過這樣的方法,能夠在高密度區(qū)域用戶中選擇彼此距離最遠的用戶作為初始聚類中心,一方面能夠排除選擇孤立用戶作為初始聚類中心對聚類結果造成影響,另一方面由于彼此距離最遠的初始聚類中心點比隨機選取的要更具有代表性,通過此方法得到的初始聚類中心也更具有代表性,能夠優(yōu)化聚類效果,得到更有代表性的用戶分級結果。在一個實施例中,兩點之間的距離可以采用歐氏距離進行計算,具體實現(xiàn)公式如下:其中,x、y為兩點標識,(x1,x2……xn)為x的特征向量,x1、x2……xn為x的特征向量指標;(y1,y2……yn)為y的特征向量,y1、y2……yn為y的特征向量指標,n為特征向量的指標數(shù)量。一個數(shù)據(jù)點x與一個數(shù)據(jù)點集z之間的距離為該數(shù)據(jù)點與數(shù)據(jù)集中所有數(shù)據(jù)點最近的距離,計算公式如下:dist(x,z)=min(dist(x,y)),y∈z其中,y為z中的每一個點。兩個數(shù)據(jù)點集x、y之間的距離為最近的分別位于兩個數(shù)據(jù)點集中的兩個數(shù)據(jù)點之間的距離,計算公式如下:dist(x,y)=min(dist(u,v)),u∈x,v∈y其中,u為x中的每一個點,v為y中的每一個點。通過這樣的方法,能夠計算出每個數(shù)據(jù)點的密度參數(shù),然后根據(jù)數(shù)據(jù)點之間距離的計算、數(shù)據(jù)點與集合之間距離的計算,以及集合之間關系的計算確定初始聚類中心。在k均值算法中,計算每個數(shù)據(jù)點距離k個初始聚類中心的歐式距離,將數(shù)據(jù)點和與其距離最近的初始聚類中心點歸為一個簇,此時判斷是否達到停止聚類的條件即聚類中心不再發(fā)生變化,若滿足停止條件則退出,否則更新每個簇的聚類中心點,取每個簇內所有點的均值作為新的聚類中心,循環(huán)執(zhí)行上述運算過程,直至聚類中心不再發(fā)生變化。通過這樣的方法,能夠完成聚類操作,獲取分級用戶集合。在一個實施例中,不同用戶的特征指標中往往會出現(xiàn)一些遠遠偏離正常水平的極端大值和極端小值,通常將這些極端值稱為異常值。為了不使這些異常值影響后續(xù)聚類的效果,可以在聚類之前對異常值進行識別。在一個實施例中,可以將用戶的效用抵扣數(shù)據(jù)之和大于預定分位數(shù)的用戶作為異常用戶,將異常用戶從用于聚類運算的目標用戶集合中刪除。在根據(jù)排除異常用戶后的目標用戶集合中用戶的單用戶特征向量,基于聚類算法對目標用戶集合進行分級,確定分級用戶集合之后,可以為異常用戶選擇相似的分級用戶集合,并將異常用戶并入分級用戶集合中,如將用戶的效用抵扣數(shù)據(jù)之和大于預定分位數(shù)的用戶并入對預定條件極為敏感的分級用戶集合中;將效用抵扣數(shù)據(jù)為0的用戶并入對預定條件極為不敏感的分級用戶集合中。在一個實施例中,可以利用上文中提到的第二特征向量指標a進行異常用戶的分級,如表1所示,用戶i的第二特征向量指標為ai:ai≥a的均值+a的標準差對預定條件極度敏感a的均值≤ai<a的均值+a的標準差對預定條件高度敏感a的均值-a的標準差≤ai<a的均值對預定條件中度敏感ai<a的均值-a的標準差對預定條件輕度敏感ai=0對預定條件不敏感表1異常用戶歸類通過這樣的方法,一方面能夠排除異常用戶對聚類計算造成的影響;另一方面也能夠將異常用戶納入考慮范圍內,而不是進行簡單的剔除,從而提高了用戶分級結果的覆蓋范圍,避免對部分用戶的漏分析。在一個實施例中,進行聚類算法之前需要對特征向量指標數(shù)據(jù)進行標準化,以消除不同量綱對聚類結果帶來的影響,例如有些特征向量指標是百分比,有些特征向量指標是數(shù)量,有些特征向量指標是效用,這些指標之間無法直接進行比較,因此需要轉化成可比較、消除量綱影響的標準化特征向量指標數(shù)據(jù)。在一個實施例中,可以采用標準差標準化的方法對數(shù)據(jù)進行標準化,標準差標準化是指將特征向量指標數(shù)據(jù)減去該特征向量指標數(shù)據(jù)的均值,然后除以其標準差。均值是衡量數(shù)據(jù)分布的集中程度,計算公式為:均值標準差是衡量數(shù)據(jù)的離散程度,計算公式為:標準差根據(jù)標準差標準化計算公式:得到標準化后的特征向量指標數(shù)據(jù),其中,X1…Xi…Xn為特征向量指標數(shù)據(jù),i為1到n之間的自然數(shù),n為參與聚類的目標用戶集合中用戶的數(shù)量;Xscalei為將Xi標準化后的特征向量指標數(shù)據(jù)。通過這樣的方法,能夠將特征向量指標數(shù)據(jù)標準化處理后再進行聚類計算,從而消除不同量綱對聚類效果產生的影響,提高用戶分級的準確性和可靠性。本發(fā)明的數(shù)據(jù)挖掘方法的另一個實施例的流程圖如圖3所示。在步驟301中,獲取用戶的預定行為數(shù)據(jù),預定行為數(shù)據(jù)包括預定行為的效用數(shù)據(jù)和預定行為的生成時間。同一用戶可以有多條預定行為數(shù)據(jù),包括該預定行為數(shù)據(jù)的生成時間和效用數(shù)據(jù)。在一個實施例中,可以獲得多用戶的預定行為數(shù)據(jù)。在步驟302中,根據(jù)每個用戶的預定行為數(shù)據(jù)的生成時間和預定行為數(shù)據(jù)的數(shù)量對用戶進行分類,確定目標用戶集合。在一個實施例中,可以按照預定行為數(shù)據(jù)的生成時間進行分類,也可以按照預定行為數(shù)據(jù)的生成數(shù)量進行分類,或者將兩者結合進行更加細致的分類??梢园凑招枰x擇一個或多個分類分別作為目標用戶集合。在步驟303中,根據(jù)預定行為數(shù)據(jù)生成目標用戶集合中每個用戶的單用戶特征向量。在一個實施例中,可以根據(jù)預定行為數(shù)據(jù)的數(shù)量、預定行為數(shù)據(jù)的效用數(shù)據(jù)、生成時間所處的時間區(qū)間等確定單用戶特征向量。在步驟304中,將效用抵扣數(shù)據(jù)之和大于預定分位數(shù)的用戶作為異常用戶,將異常用戶從用于聚類運算的目標用戶集合中刪除。在步驟305中,對特征向量指標數(shù)據(jù)進行標準化,以消除不同量綱對聚類結果帶來的影響。在步驟306中,根據(jù)標準化后的單用戶特征向量,基于聚類算法對刪除異常用戶后的目標用戶集合進行分級,確定分級用戶集合,其中,分級用戶集合的數(shù)量與預定分級數(shù)量相等。在一個實施例中,可以選擇與預定分級數(shù)量的數(shù)量相同的初始聚類中心,采用K均值算法進行聚類操作。在一個實施例中,還可以為異常用戶選擇相似的分級用戶集合,并將異常用戶并入分級用戶集合中。通過這樣的方法,能夠先將用戶進行分類,在一個分類內進行用戶聚類,排除不同類的用戶數(shù)據(jù)對于聚類效果的干擾,使用戶群體劃分更加準確,便于根據(jù)用戶群體劃分的結果進行精準式、個性化的服務;能夠保證初始聚類中心為高密度區(qū)域用戶,避免將一些孤立點作為初始聚類中心造成用戶分級的不準確;能夠在排除異常用戶對聚類計算造成的影響的同時,將異常用戶納入考慮范圍內保證了用戶分級結果的覆蓋范圍;消除不同量綱對聚類效果產生的影響,提高用戶分級的準確性和可靠性。在一個實施例中,可以根據(jù)分級用戶集合最終的聚類中心確定不同的分級用戶集合對預定條件的敏感度。在一個實施例中,可以將幾個分級用戶集合的聚類中心分別在各個特征向量指標維度上求和,求和后按值的大小排序,值最大的聚類中心對應對預定條件極度敏感,以此類推,值最小的聚類中心對應對預定條件不敏感。通過這樣的方法,能夠對分級用戶集合賦予現(xiàn)實的意義,使用戶對不同分級用戶集合具有直觀的感受,從而實現(xiàn)對分級用戶集合進行有針對性的應用、服務。在電子商務領域,可以根據(jù)用戶的各種行為特征進行聚類,將購買用戶群體劃分成若干類,這樣也便于市場分析及運營人員清晰地了解顧客群的特征,以便進行精準式、個性化的營銷。促銷敏感度是衡量用戶對各類促銷優(yōu)惠的敏感程度的指標。有的用戶非常關注促銷優(yōu)惠力度大的商品,經常多次性的購買,或者每當系統(tǒng)對用戶發(fā)放優(yōu)惠券時,用戶就會利用優(yōu)惠券產生購買行為,表明此類用戶對促銷比較敏感;而有些用戶并不因商品是否參與促銷而進行購買,并且對優(yōu)惠券的發(fā)放也不感興趣,表明此類用戶對促銷優(yōu)惠并不敏感?;谶@樣的行為特征可以將用戶劃分為不同的群體,這便于實現(xiàn)對于用戶的精準營銷及個性化推薦,從而能夠引導部分用戶復購,提升交易額?,F(xiàn)有技術中會選取系統(tǒng)數(shù)據(jù)庫中的所有用戶,計算優(yōu)惠金額占比和優(yōu)惠訂單量占比這兩個指標,采用隨機選取初始聚類中心的方法,將用戶分為對促銷高度敏感、對促銷輕度敏感和對促銷不敏感三類。在本發(fā)明的一個實施例中,可以在用戶群中進行選擇,例如,將近3年有購物行為的用戶作為促銷敏感度識別的目標人群,一方面滿足用戶覆蓋率,另一方面,識別近3年沒有進行過購物的用戶的促銷敏感度已沒有意義,通過營銷很難會再引導其進行復購,這也會浪費營銷資源。然后,再對近3年有購物行為的用戶進行細分,可以根據(jù)用戶最后一次購買時間及購物頻次這兩個指標將這部分用戶劃分成四大類:近一年僅購買過一次的用戶;近一年有過復購行為的用戶;最后一次購買行為發(fā)生在一年之前且一年前僅購買過一次的用戶;最后一次購買行為發(fā)生在一年之前且一年前有過復購行為的用戶。然后根據(jù)實際的應用場景分別將這四大類用戶細分成5類:極度敏感、高度敏感、中度敏感、輕度敏感、不敏感。在一個實施例中,可以選取一個大類的用戶進行細分,也可以對每個大類的用戶分別進行細分。這樣將用戶進行精細劃分的目的在于便于業(yè)務應用方進行更加精準、精細、個性化的運營,以最大化的滿足營銷的需求。在一個實施例中,可以采用更加豐富的特征向量指標對用戶的促銷敏感類型來進行區(qū)分,如表2所示。表2用戶促銷敏感度類型選取的特征向量指標在一些情況下,例如,有的用戶僅購買過1次,而且這一單中的優(yōu)惠金額占原價的80%,但原價僅10元;而另一些用戶購買過多次且每次都是優(yōu)惠訂單,而且總的優(yōu)惠金額占原價的50%,但原價達10萬元,此時單純的依靠優(yōu)惠訂單占比和優(yōu)惠金額占比來判定用戶的促銷敏感類型是不準確的。本發(fā)明的實施例中的方法能夠采用更加豐富的指標衡量用戶的促銷敏感度,更加合理和準確。在一個實施例中,還可以根據(jù)總優(yōu)惠金額選取異常值,如通過分析各特征的數(shù)據(jù)分布發(fā)現(xiàn),總優(yōu)惠金額會出現(xiàn)一些極端大值,可以將優(yōu)惠金額大于優(yōu)惠金額0.995分位數(shù)的用戶列為異常用戶,這部分用戶不參與聚類,但在聚類結束后,可以根據(jù)平均每單優(yōu)惠金額占比進行歸類,確定歸屬于哪個分級用戶集合。如表3所示:用戶i平均每單優(yōu)惠金額ai≥a的均值+a的標準差極度敏感a的均值≤ai<a的均值+a的標準差高度敏感a的均值-a的標準差≤ai<a的均值中度敏感ai<a的均值-a的標準差輕度敏感ai=0不敏感表3促銷優(yōu)惠敏感度聚類中異常用戶歸類判斷其中,a為單用戶平均每單優(yōu)惠金額。原有實現(xiàn)方式并沒有對異常值進行處理,異常值會極大地影響聚類效果,這就會導致聚類的結果不佳。通過本發(fā)明實施例中的方法,能夠結合具體的業(yè)務應用場景對離群點進行識別,識別出離群點后并沒有進行簡單的剔除,而是對離群點也進行了促銷敏感類型的歸類,這樣提高了模型的用戶覆蓋率。本發(fā)明的數(shù)據(jù)挖掘裝置的一個實施例的示意圖如圖4所示。其中,數(shù)據(jù)獲取模塊401能夠獲取用戶的預定行為數(shù)據(jù),預定行為數(shù)據(jù)包括預定行為的效用數(shù)據(jù)和預定行為的生成時間。同一用戶可以有多條預定行為數(shù)據(jù),包括該預定行為數(shù)據(jù)的生成時間和效用數(shù)據(jù)。在一個實施例中,可以獲得多用戶的預定行為數(shù)據(jù)。用戶分類模塊402能夠根據(jù)每個用戶的預定行為數(shù)據(jù)的生成時間和預定行為數(shù)據(jù)的數(shù)量對用戶進行分類,確定目標用戶集合。在一個實施例中,可以按照預定行為數(shù)據(jù)的生成時間進行分類,也可以按照預定行為數(shù)據(jù)的生成數(shù)量進行分類,或者將兩者結合進行更加細致的分類??梢园凑招枰x擇一個或多個分類分別作為目標用戶集合。特征向量生成模塊403能夠根據(jù)預定行為數(shù)據(jù)生成目標用戶集合中每個用戶的單用戶特征向量。在一個實施例中,可以根據(jù)預定行為數(shù)據(jù)的數(shù)量、預定行為數(shù)據(jù)的效用數(shù)據(jù)、生成時間所處的時間區(qū)間等確定單用戶特征向量。用戶分級模塊404能夠根據(jù)單用戶特征向量,基于聚類算法對目標用戶集合進行分級,確定分級用戶集合,其中,分級用戶集合的數(shù)量與預定分級數(shù)量相等。在一個實施例中,可以選擇初始聚類中心,選擇的初始聚類中心的數(shù)量預定分級數(shù)量相同的初始中心點,采用K均值算法進行聚類操作。這樣的裝置可以先將用戶進行分類,在一個分類內進行用戶聚類,從而能夠選擇適合的目標用戶進行聚類分析,一方面能夠更有針對性,減少運算的數(shù)據(jù)量,另一方面能夠排除不同類的用戶數(shù)據(jù)對于聚類效果的干擾,使用戶群體劃分更加準確,便于根據(jù)用戶群體劃分的結果進行精準式、個性化的服務。在一個實施例中,可以設定預定時間閾值以及預定數(shù)量對用戶進行分類。若預定行為數(shù)據(jù)的生成時間均早于預定時間閾值,且預定行為數(shù)據(jù)的數(shù)量大于預定數(shù)量閾值時,確定用戶為第一類用戶;若預定行為數(shù)據(jù)的生成時間均早于預定時間閾值,且預定行為數(shù)據(jù)的數(shù)量不大于預定數(shù)量閾值時,確定用戶為第二類用戶;若存在預定行為數(shù)據(jù)的生成時間不早于預定時間閾值,且生成時間不早于預定時間閾值的預定行為數(shù)據(jù)的數(shù)量大于預定數(shù)量閾值時,確定用戶為第三類用戶;若存在預定行為數(shù)據(jù)的生成時間不早于預定時間閾值,且生成時間不早于預定時間閾值的預定行為數(shù)據(jù)的數(shù)量不大于預定數(shù)量閾值時,確定用戶為第四類用戶。這樣的裝置能夠根據(jù)預定行為數(shù)據(jù)的生成時間和預定行為數(shù)據(jù)的數(shù)量對用戶進行分類,選擇需要的類別的用戶作為目標用戶集合,或者可以對每個類別的用戶集合分別進行聚類操作,實現(xiàn)每個類別的用戶分級,從而能夠實現(xiàn)同類別的用戶的用戶分級,提高用戶分級的準確度。在一個實施例中,用戶分類模塊402可以排除較長一段時間內沒有預定行為數(shù)據(jù)產生的用戶,由于這類用戶長時間沒有活動,因此進行用戶行為分析和數(shù)據(jù)挖掘的意義不大,從而能夠降低運算量,也能夠減少對分級效果的影響,且在數(shù)據(jù)應用過程中能夠減少運營成本。在一個實施例中,預定行為數(shù)據(jù)還包括預定條件標識和效用抵扣數(shù)據(jù)。效用抵扣數(shù)據(jù)可以是由于預定行為滿足了預定條件而產生的抵扣效用,如使效用數(shù)據(jù)比標準效用數(shù)據(jù)降低的額度等。在一個實施例中,可以通過預定行為數(shù)據(jù)的預定條件標識判斷預定行為是否符合預定條件,可以將符合預定條件的預定行為的預定行為數(shù)據(jù)稱為第一預定行為數(shù)據(jù)。單用戶特征向量可以反映符合預定條件的預定行為所占的比例、產生的影響,從而通過數(shù)據(jù)挖掘實現(xiàn)對用戶行為特點,特別是對預定條件的敏感度的分析。在一個實施例中,可以根據(jù)用戶的第一預定行為數(shù)據(jù)的數(shù)量與預定行為數(shù)據(jù)的數(shù)量的比值確定用戶的第一特征向量指標;在另一個實施例中,可以確定用戶的各個預定行為數(shù)據(jù)的效用抵扣數(shù)據(jù)與效用數(shù)據(jù)的比值,并將比值取均值,確定用戶的第二特征向量指標;在又一個實施例中,可以根據(jù)用戶的效用抵扣數(shù)據(jù)之和與效用數(shù)據(jù)之和的比值確定用戶的第三特征向量指標;在再一個實施例中,可以根據(jù)用戶的效用抵扣數(shù)據(jù)之和確定用戶的第四特征向量指標;還可以根據(jù)用戶的第一預定行為數(shù)據(jù)的數(shù)量確定用戶的第五特征向量指標;另外,還可以根據(jù)用戶的存在第一預定行為數(shù)據(jù)的時間段的數(shù)量與從用戶入網開始經過的時間段數(shù)量的比值確定用戶的第六特征向量指標。通過用多個特征向量指標構成特征向量,能夠準確的刻畫出用戶對預定條件敏感度的特點,從而在聚類計算中,能夠得到顯著的體現(xiàn)用戶對于預定條件敏感度差異的用戶分級,便于以分級用戶為基礎開展有針對性的應用,對用戶開展有針對性的服務。本發(fā)明的數(shù)據(jù)挖掘裝置中用戶分級模塊的一個實施例的示意圖如圖5所示。其中,高密度用戶確定單元501能夠根據(jù)每個用戶的單用戶特征向量確定高密度區(qū)域用戶。在一個實施例中,可以以用戶的單用戶特征向量點為中心點,確定包括預定數(shù)量的其他用戶單用戶特征向量點的區(qū)域的半徑,若半徑小于預定閾值,則認為用戶為高密度區(qū)域用戶。在一個實施例中,可以以用戶的單用戶特征向量點為中心點,確定預定半徑的區(qū)域內其他用戶的單用戶特征向量點的數(shù)量,若該數(shù)量達到預定數(shù)量,則認為用戶為高密度區(qū)域用戶。初始中心確定單元502能夠從高密度區(qū)域用戶中選擇作為初始聚類中心的用戶,初始聚類中心的數(shù)量與預定分級數(shù)量相等。例如,若需要將目標用戶集合中的用戶通過聚類分為五級,則需要在高密度區(qū)域中選取5個初始聚類中心。聚類單元503能夠根據(jù)初始聚類中心,基于K均值算法確定分級用戶集合。這樣的裝置能夠保證初始聚類中心為高密度區(qū)域用戶,避免將一些孤立用戶作為初始聚類中心造成用戶分級的不準確。在一個實施例中,初始中心確定單元502可以基于用戶的單用戶特征向量進行運算,在高密度區(qū)域用戶中選擇密度參數(shù)最大的數(shù)據(jù)點作為第一初始聚類中心,并將第一初始聚類中心從高密度區(qū)域用戶中刪除;從高密度區(qū)域用戶中選取距離第一初始聚類中心最遠的用戶作為第二初始聚類中心,并將第二初始聚類中心從高密度區(qū)域用戶中刪除;從高密度區(qū)域用戶中選取距離第一初始聚類中心和第二初始聚類中心集合的距離最遠的用戶作為第三初始聚類中心,并將第三初始聚類中心從高密度區(qū)域用戶中刪除;依次類推直至確定全部初始聚類中心。這樣的裝置能夠在高密度區(qū)域用戶中選擇彼此距離最遠的用戶作為初始聚類中心,一方面能夠排除選擇孤立用戶作為初始聚類中心對聚類結果造成影響,另一方面由于彼此距離最遠的初始聚類中心點比隨機選取的要更具有代表性,通過此方法得到的初始聚類中心也更具有代表性,能夠優(yōu)化聚類效果,得到更有代表性的用戶分級結果。在一個實施例中,不同用戶的特征指標中往往會出現(xiàn)一些遠遠偏離正常水平的極端大值和極端小值,通常將這些極端值稱為異常值。為了不使這些異常值影響后續(xù)聚類的效果,可以在聚類之前對異常值進行識別。在一個實施例中,可以將用戶的效用抵扣數(shù)據(jù)之和大于預定分位數(shù)的用戶作為異常用戶,將異常用戶從用于聚類運算的目標用戶集合中刪除。在根據(jù)排除異常用戶后的目標用戶集合中用戶的單用戶特征向量,基于聚類算法對目標用戶集合進行分級,確定分級用戶集合之后,可以為異常用戶選擇相似的分級用戶集合,并將異常用戶并入分級用戶集合中,如將用戶的效用抵扣數(shù)據(jù)之和大于預定分位數(shù)的用戶并入對預定條件極為敏感的分級用戶集合中;將效用抵扣數(shù)據(jù)為0的用戶并入對預定條件極為不敏感的分級用戶集合中。在一個實施例中,可以根據(jù)用戶上述第二特征向量指標的值與目標用戶集合中第二特征指標的均值、標準差的大小關系確定異常用戶歸屬的分級用戶集合。這樣的裝置一方面能夠排除異常用戶對聚類計算造成的影響;另一方面也能夠將異常用戶納入考慮范圍內,而不是進行簡單的剔除,從而提高了用戶分級結果的覆蓋范圍,避免對部分用戶的漏分析。在一個實施例中,進行聚類算法之前需要對特征向量指標數(shù)據(jù)進行標準化,以消除不同量綱對聚類結果帶來的影響,例如有些特征向量指標是百分比,有些特征向量指標是數(shù)量,有些特征向量指標是效用,這些指標之間無法直接進行比較,因此需要轉化成可比較、消除量綱影響的標準化特征向量指標數(shù)據(jù)。在一個實施例中,可以包括標準化處理模塊,用于對數(shù)據(jù)進行標準化。在一個實施例中,標準化處理模塊可以采用標準差標準化的方法進行數(shù)據(jù)標準化處理。標準差標準化是指將特征向量指標數(shù)據(jù)減去該特征向量指標數(shù)據(jù)的均值,然后除以其標準差。均值是衡量數(shù)據(jù)分布的集中程度,計算公式為:均值標準差是衡量數(shù)據(jù)的離散程度,計算公式為:標準差根據(jù)標準差標準化計算公式:得到標準化后的特征向量指標數(shù)據(jù),其中,X1…Xi…Xn為特征向量指標數(shù)據(jù),i為自然數(shù),n為參與聚類的目標用戶集合中用戶的數(shù)量;Xscalei為將Xi標準化后的特征向量指標數(shù)據(jù)。這樣的裝置能夠將特征向量指標數(shù)據(jù)標準化處理后再進行聚類計算,從而消除不同量綱對聚類效果產生的影響,提高用戶分級的準確性和可靠性。本發(fā)明的數(shù)據(jù)挖掘裝置的另一個實施例的示意圖如圖6所示。其中,數(shù)據(jù)獲取模塊601、用戶分類模塊602和特征向量生成模塊603的結構和功能與圖4的實施例中相似。數(shù)據(jù)挖掘裝置還包括異常用戶排除模塊605和標準化處理模塊606。異常用戶排除模塊605能夠將效用抵扣數(shù)據(jù)之和大于預定分位數(shù)的用戶作為異常用戶,將異常用戶從用于聚類運算的目標用戶集合中刪除。標準化處理模塊606能夠對特征向量指標數(shù)據(jù)進行標準化,以消除不同量綱對聚類結果帶來的影響。用戶分級模塊604能夠根據(jù)標準化后的單用戶特征向量,基于聚類算法對刪除異常用戶后的目標用戶集合進行分級,確定分級用戶集合,還能夠為異常用戶選擇相似的分級用戶集合,并將異常用戶并入分級用戶集合中。這樣的裝置能夠先將用戶進行分類,在一個分類內進行用戶聚類,排除不同類的用戶數(shù)據(jù)對于聚類效果的干擾,使用戶群體劃分更加準確,便于根據(jù)用戶群體劃分的結果進行精準式、個性化的服務;能夠保證初始聚類中心為高密度區(qū)域用戶,避免將一些孤立點作為初始聚類中心造成用戶分級的不準確;能夠在排除異常用戶對聚類計算造成的影響的同時,將異常用戶納入考慮范圍內保證了用戶分級結果的覆蓋范圍;消除不同量綱對聚類效果產生的影響,提高用戶分級的準確性和可靠性。在一個實施例中,用戶分級模塊604可以根據(jù)分級用戶集合最終的聚類中心確定不同的分級用戶集合對預定條件的敏感度。在一個實施例中,可以將幾個分級用戶集合的聚類中心分別在各個特征向量指標維度上求和,求和后按值的大小排序,值最大的聚類中心對應對預定條件極度敏感,以此類推,值最小的聚類中心對應對預定條件不敏感。這樣的裝置,能夠對分級用戶集合賦予現(xiàn)實的意義,使用戶對不同分級用戶集合具有直觀的感受,從而實現(xiàn)對分級用戶集合進行有針對性的應用、服務。在一個實施例中,為了供各應用場景使用,可以將分級用戶集合數(shù)據(jù)加工成規(guī)范化的數(shù)據(jù)表,存儲在文件系統(tǒng)中,可通過數(shù)據(jù)庫系統(tǒng)直接調用,或者以應用程序接口的方式推送給業(yè)務應用,以方便針對用戶行為特點進行有針對的應用。本發(fā)明的數(shù)據(jù)挖掘系統(tǒng)的一個實施例的示意圖如圖7所示。該數(shù)據(jù)挖掘系統(tǒng)包括存儲器701和處理器702。其中:存儲器701可以是磁盤、閃存或其它任何非易失性存儲介質。存儲器系統(tǒng)運行的指令。處理器702耦接至存儲器701,可以作為一個或多個集成電路來實施,例如微處理器或微控制器。該處理器702用于執(zhí)行存儲器中存儲的指令,進而實現(xiàn)獲得高效、準確的分級用戶集合的目的。本發(fā)明的數(shù)據(jù)挖掘系統(tǒng)的又一個實施例的示意圖如圖8所示。數(shù)據(jù)挖掘裝置800包括存儲器810和處理器820。處理器820可以包括處理器820a、820b…820n。處理器820a-820n通過BUS總線830耦合至存儲器810?;诜植际绞降臄?shù)據(jù)挖掘系統(tǒng),能夠進行快速運算,提高了數(shù)據(jù)挖掘的運行效率。該數(shù)據(jù)挖掘系統(tǒng)800還可以通過存儲接口840連接至外部存儲裝置850以便調用外部數(shù)據(jù),還可以通過網絡接口860連接至網絡或者另外一臺計算機系統(tǒng)(未標出)。此處不再進行詳細介紹。在該實施例中,通過存儲器存儲數(shù)據(jù)指令,再通過處理器處理上述指令,進而實現(xiàn)高效、準確的用戶分級,便于根據(jù)用戶行為特點提供對應的服務。最后應當說明的是:以上實施例僅用以說明本發(fā)明的技術方案而非對其限制;盡管參照較佳實施例對本發(fā)明進行了詳細的說明,所屬領域的普通技術人員應當理解:依然可以對本發(fā)明的具體實施方式進行修改或者對部分技術特征進行等同替換;而不脫離本發(fā)明技術方案的精神,其均應涵蓋在本發(fā)明請求保護的技術方案范圍當中。當前第1頁1 2 3