亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

業(yè)務(wù)數(shù)據(jù)分類方法和裝置與流程

文檔序號:11831667閱讀:869來源:國知局
業(yè)務(wù)數(shù)據(jù)分類方法和裝置與流程

本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,特別涉及一種業(yè)務(wù)數(shù)據(jù)分類方法和裝置。



背景技術(shù):

數(shù)據(jù)聚類是數(shù)據(jù)挖掘和數(shù)據(jù)分類中采用的一種常規(guī)的技術(shù)。但是在對業(yè)務(wù)數(shù)據(jù)進行分類的過程中,業(yè)務(wù)數(shù)據(jù)通常是具有一定業(yè)務(wù)屬性的,而常規(guī)的聚類方法單純從數(shù)據(jù)層面去解決問題,忽略了數(shù)據(jù)的業(yè)務(wù)含義。例如,某些業(yè)務(wù)指標(biāo)特別高或者特別低的數(shù)據(jù)會被作為離群數(shù)據(jù)剔除,不再參與聚類,而這些被剔除的離群數(shù)據(jù)可能是業(yè)務(wù)價值較高的數(shù)據(jù)。

因此,按照常規(guī)的聚類方法進行分類,業(yè)務(wù)價值較高的數(shù)據(jù)無法體現(xiàn)其特有的價值,影響業(yè)務(wù)數(shù)據(jù)分類的準(zhǔn)確性。



技術(shù)實現(xiàn)要素:

本發(fā)明實施例所要解決的一個技術(shù)問題是:如何使業(yè)務(wù)數(shù)據(jù)分類的結(jié)果更準(zhǔn)確。

根據(jù)本發(fā)明實施例的第一個方面,提供一種業(yè)務(wù)數(shù)據(jù)分類方法,包括:獲取業(yè)務(wù)數(shù)據(jù),業(yè)務(wù)數(shù)據(jù)包括多個業(yè)務(wù)指標(biāo);根據(jù)設(shè)置的提取規(guī)則從業(yè)務(wù)數(shù)據(jù)中提取類別屬性符合預(yù)設(shè)條件的部分業(yè)務(wù)數(shù)據(jù)形成第一數(shù)據(jù)集合,提取規(guī)則是根據(jù)部分業(yè)務(wù)指標(biāo)設(shè)置的;未被提取的業(yè)務(wù)數(shù)據(jù)形成第二數(shù)據(jù)集合,對第二數(shù)據(jù)集合中的業(yè)務(wù)數(shù)據(jù)進行聚類;根據(jù)第二數(shù)據(jù)集合的聚類結(jié)果和第一數(shù)據(jù)集合確定業(yè)務(wù)數(shù)據(jù)分類結(jié)果。

在一個實施例中,根據(jù)設(shè)置的提取規(guī)則從業(yè)務(wù)數(shù)據(jù)中提取類別屬性符合預(yù)設(shè)條件的部分業(yè)務(wù)數(shù)據(jù)形成第一數(shù)據(jù)集合包括:根據(jù)設(shè)定的閾值提取單一業(yè)務(wù)指標(biāo)數(shù)據(jù)離群的業(yè)務(wù)數(shù)據(jù),形成第一數(shù)據(jù)集合;或者,根據(jù)多個業(yè)務(wù)指標(biāo)的邏輯運算結(jié)果提取出邏輯運算結(jié)果離群的業(yè)務(wù)數(shù)據(jù),形成第一數(shù)據(jù)集合;或者,根據(jù)單一業(yè)務(wù)指標(biāo)的數(shù)據(jù)分布情況,提取出單一業(yè)務(wù)指標(biāo)數(shù)據(jù)離群的業(yè)務(wù)數(shù)據(jù),形成第一數(shù)據(jù)集合。

在一個實施例中,根據(jù)第二數(shù)據(jù)集合的聚類結(jié)果和第一數(shù)據(jù)集合確定業(yè)務(wù)數(shù)據(jù)分類結(jié)果包括:第一數(shù)據(jù)集合包括一個或多個類,將第一數(shù)據(jù)集合中的各個類和第二數(shù)據(jù)集合中的各個類中類別屬性最接近的類進行合并,獲得業(yè)務(wù)數(shù)據(jù)分類結(jié)果。

在一個實施例中,將第一數(shù)據(jù)集合中的各個類和第二數(shù)據(jù)集合中的各個類中類別屬性最接近的類進行合并包括:獲取第一數(shù)據(jù)集合和第二數(shù)據(jù)集合中提取規(guī)則中涉及的業(yè)務(wù)指標(biāo)的平均特征,將第一數(shù)據(jù)集合和第二數(shù)據(jù)集合中平均特征最接近的類進行合并獲得業(yè)務(wù)數(shù)據(jù)分類結(jié)果,其中,平均特征是每個類的提取規(guī)則涉及的業(yè)務(wù)指標(biāo)的平均值或中心點;或者,將第一數(shù)據(jù)集合中的各個類和第二數(shù)據(jù)集合中的各個類中類別屬性最接近的類進行合并獲得業(yè)務(wù)數(shù)據(jù)分類結(jié)果,并使得分類結(jié)果中的各個業(yè)務(wù)數(shù)據(jù)分類之間的業(yè)務(wù)數(shù)據(jù)的數(shù)量差異符合預(yù)設(shè)范圍。

在一個實施例中,根據(jù)設(shè)置的提取規(guī)則從業(yè)務(wù)數(shù)據(jù)中提取類別屬性符合預(yù)設(shè)條件的部分業(yè)務(wù)數(shù)據(jù)形成第一數(shù)據(jù)集合包括:根據(jù)設(shè)置的不同的提取規(guī)則從業(yè)務(wù)數(shù)據(jù)中提取部分業(yè)務(wù)數(shù)據(jù)分別形成不同的類,不同的類形成第一數(shù)據(jù)集合。

在一個實施例中,在對第二數(shù)據(jù)集合中的業(yè)務(wù)數(shù)據(jù)進行聚類之前,方法還包括:從第二數(shù)據(jù)集合中篩選出離群的業(yè)務(wù)指標(biāo)數(shù)據(jù),將用于確定是否離群的業(yè)務(wù)指標(biāo)分界數(shù)據(jù)賦予離群的業(yè)務(wù)指標(biāo)數(shù)據(jù);或者,從第二數(shù)據(jù)集合中篩選出業(yè)務(wù)指標(biāo)的數(shù)據(jù)空值,計算該業(yè)務(wù)指標(biāo)中所有非空數(shù)據(jù)的均值,將均值賦予該業(yè)務(wù)指標(biāo)的數(shù)據(jù)空值。

在一個實施例中,對第二數(shù)據(jù)集合中的業(yè)務(wù)數(shù)據(jù)進行聚類包括:按照各個預(yù)定聚類個數(shù)分別對第二數(shù)據(jù)集合中的業(yè)務(wù)數(shù)據(jù)進行預(yù)聚類,計算每個預(yù)定聚類個數(shù)對應(yīng)的預(yù)聚類結(jié)果的輪廓系數(shù);按照預(yù)定聚類個數(shù)遞增的順序排列相應(yīng)的輪廓系數(shù),獲取輪廓系數(shù)中的若干極大值,并確定其中的最大值;將首次出現(xiàn)的符合預(yù)設(shè)條件的極大值對應(yīng)的預(yù)聚類個數(shù)作為實際聚類個數(shù),預(yù)設(shè)條件為極大值與最大值的差值小于預(yù)設(shè)值;采用實際聚類個數(shù)對第二數(shù)據(jù)集合中的業(yè)務(wù)數(shù)據(jù)進行聚類。

根據(jù)本發(fā)明實施例的第二個方面,提供一種業(yè)務(wù)數(shù)據(jù)分類裝置,包括:業(yè)務(wù)數(shù)據(jù)獲取模塊,用于獲取業(yè)務(wù)數(shù)據(jù),業(yè)務(wù)數(shù)據(jù)包括多個業(yè)務(wù)指標(biāo);業(yè)務(wù)數(shù)據(jù)提取模塊,用于根據(jù)設(shè)置的提取規(guī)則從業(yè)務(wù)數(shù)據(jù)中提取類別屬性符合預(yù)設(shè)條件的部分業(yè)務(wù)數(shù)據(jù)形成第一數(shù)據(jù)集合,提取規(guī)則是根據(jù)部分業(yè)務(wù)指標(biāo)設(shè)置的;業(yè)務(wù)數(shù)據(jù)聚類模塊,用于獲取由未被提取的業(yè)務(wù)數(shù)據(jù)形成的第二數(shù)據(jù)集合,對第二數(shù)據(jù)集合中的業(yè)務(wù)數(shù)據(jù)進行聚類;業(yè)務(wù)數(shù)據(jù)分類模塊,用于根據(jù)第二數(shù)據(jù)集合的聚類結(jié)果和第一數(shù)據(jù)集合確定業(yè)務(wù)數(shù)據(jù)分類結(jié)果。

在一個實施例中,業(yè)務(wù)數(shù)據(jù)提取模塊包括第一提取單元、第二提取單元和第三提取單元中的至少一個;其中,第一提取單元用于根據(jù)設(shè)定的閾值提取單一業(yè)務(wù)指標(biāo)數(shù)據(jù)離群的業(yè)務(wù)數(shù)據(jù),形成第一數(shù)據(jù)集合;第二提取單元用于根據(jù)多個業(yè)務(wù)指標(biāo)的邏輯運算結(jié)果提取出邏輯運算結(jié)果離群的業(yè)務(wù)數(shù)據(jù),形成第一數(shù)據(jù)集合;第三提取單元用于根據(jù)單一業(yè)務(wù)指標(biāo)的數(shù)據(jù)分布情況,提取出單一業(yè)務(wù)指標(biāo)數(shù)據(jù)離群的業(yè)務(wù)數(shù)據(jù),形成第一數(shù)據(jù)集合。

在一個實施例中,第一數(shù)據(jù)集合包括一個或多個類,業(yè)務(wù)數(shù)據(jù)分類模塊用于將第一數(shù)據(jù)集合中的各個類和第二數(shù)據(jù)集合中的各個類中類別屬性最接近的類進行合并,獲得業(yè)務(wù)數(shù)據(jù)分類結(jié)果。

在一個實施例中,業(yè)務(wù)數(shù)據(jù)分類模塊包括平均特征獲取單元和合并單元;平均特征獲取單元用于獲取第一數(shù)據(jù)集合和第二數(shù)據(jù)集合中提取規(guī)則中涉及的業(yè)務(wù)指標(biāo)的平均特征,其中,平均特征是每個類的提取規(guī)則涉及的業(yè)務(wù)指標(biāo)的平均值或中心點;合并單元用于將第一數(shù)據(jù)集合和第二數(shù)據(jù)集合中平均特征最接近的類進行合并獲得業(yè)務(wù)數(shù)據(jù)分類結(jié)果;或者,業(yè)務(wù)數(shù)據(jù)分類模塊用于將第一數(shù)據(jù)集合中的各個類和第二數(shù)據(jù)集合中的各個類中類別屬性最接近的類進行合并獲得業(yè)務(wù)數(shù)據(jù)分類結(jié)果,并使得分類結(jié)果中的各個業(yè)務(wù)數(shù)據(jù)分類之間的業(yè)務(wù)數(shù)據(jù)的數(shù)量差異符合預(yù)設(shè)范圍。

在一個實施例中,業(yè)務(wù)數(shù)據(jù)提取模塊用于根據(jù)設(shè)置的不同的提取規(guī)則從業(yè)務(wù)數(shù)據(jù)中提取部分業(yè)務(wù)數(shù)據(jù)分別形成不同的類,不同的類形成第一數(shù)據(jù)集合。

在一個實施例中,裝置還包括預(yù)處理模塊,預(yù)處理模塊包括離群點處理單元和/或空值處理單元;離群點處理單元用于從第二數(shù)據(jù)集合中篩選出離群的業(yè)務(wù)指標(biāo)數(shù)據(jù),將用于確定是否離群的業(yè)務(wù)指標(biāo)分界數(shù)據(jù)賦予離群的業(yè)務(wù)指標(biāo)數(shù)據(jù);空值處理單元用于從第二數(shù)據(jù)集合中篩選出業(yè)務(wù)指標(biāo)的數(shù)據(jù)空值,計算該業(yè)務(wù)指標(biāo)中所有非空數(shù)據(jù)的均值,將均值賦予該業(yè)務(wù)指標(biāo)的數(shù)據(jù)空值。

在一個實施例中,業(yè)務(wù)數(shù)據(jù)聚類模塊包括預(yù)聚類單元、輪廓系數(shù)計算單元、實際聚類個數(shù)確定單元、實際聚類單元;預(yù)聚類單元用于按照各個預(yù)定聚類個數(shù)分別對第二數(shù)據(jù)集合中的業(yè)務(wù)數(shù)據(jù)進行預(yù)聚類;輪廓系數(shù)計算單元用于根據(jù)于聚類結(jié)果計算每個預(yù)定聚類個數(shù)對應(yīng)的預(yù)聚類結(jié)果的輪廓系數(shù);實際聚類個數(shù)確定單元用于按照預(yù)定聚類個數(shù)遞增的順序排列相應(yīng)的輪廓系數(shù),獲取輪廓系數(shù)中的若干極大值,并確定其中的最大值,將首次出現(xiàn)的符合預(yù)設(shè)條件的極大值對應(yīng)的預(yù)聚類個數(shù)作為實際聚類個數(shù),預(yù)設(shè)條件為極大值與最大值的差值小于預(yù)設(shè)值;實際聚類單元用于采用實際聚類個數(shù)對第二數(shù)據(jù)集合中的業(yè)務(wù)數(shù)據(jù)進行聚類。

根據(jù)本發(fā)明實施例的第三個方面,提供一種業(yè)務(wù)數(shù)據(jù)分類裝置,包括:存儲器;以及耦接至存儲器的處理器,處理器被配置為基于存儲在存儲器中的指令,執(zhí)行前述任意一種業(yè)務(wù)數(shù)據(jù)分類方法。

本發(fā)明根據(jù)業(yè)務(wù)數(shù)據(jù)的部分業(yè)務(wù)指標(biāo)設(shè)置提取規(guī)則,并按照提取規(guī)則提取類別屬性明確的業(yè)務(wù)數(shù)據(jù),再根據(jù)未被提取的業(yè)務(wù)數(shù)據(jù)的聚類結(jié)果以及類別屬性明確的業(yè)務(wù)數(shù)據(jù)共同確定業(yè)務(wù)數(shù)據(jù)分類的結(jié)果,提高了業(yè)務(wù)數(shù)據(jù)分類的準(zhǔn)確性。

通過以下參照附圖對本發(fā)明的示例性實施例的詳細(xì)描述,本發(fā)明的其它特征及其優(yōu)點將會變得清楚。

附圖說明

為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明業(yè)務(wù)數(shù)據(jù)分類方法的一個實施例的流程圖。

圖2為本發(fā)明業(yè)務(wù)數(shù)據(jù)聚類方法的一個實施例的流程圖。

圖3為本發(fā)明業(yè)務(wù)數(shù)據(jù)分類裝置的一個實施例的結(jié)構(gòu)圖。

圖4為本發(fā)明業(yè)務(wù)數(shù)據(jù)分類裝置的另一個實施例的結(jié)構(gòu)圖

圖5為本發(fā)明業(yè)務(wù)數(shù)據(jù)分類裝置的又一個實施例的結(jié)構(gòu)圖

圖6為本發(fā)明業(yè)務(wù)數(shù)據(jù)分類裝置的再一個實施例的結(jié)構(gòu)圖。

具體實施方式

下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。以下對至少一個示例性實施例的描述實際上僅僅是說明性的,決不作為對本發(fā)明及其應(yīng)用或使用的任何限制?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。

除非另外具體說明,否則在這些實施例中闡述的部件和步驟的相對布置、數(shù)字表達(dá)式和數(shù)值不限制本發(fā)明的范圍。

同時,應(yīng)當(dāng)明白,為了便于描述,附圖中所示出的各個部分的尺寸并不是按照實際的比例關(guān)系繪制的。

對于相關(guān)領(lǐng)域普通技術(shù)人員已知的技術(shù)、方法和設(shè)備可能不作詳細(xì)討論,但在適當(dāng)情況下,所述技術(shù)、方法和設(shè)備應(yīng)當(dāng)被視為授權(quán)說明書的一部分。

在這里示出和討論的所有示例中,任何具體值應(yīng)被解釋為僅僅是示例性的,而不是作為限制。因此,示例性實施例的其它示例可以具有不同的值。

應(yīng)注意到:相似的標(biāo)號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨后的附圖中不需要對其進行進一步討論。

針對常規(guī)的聚類方法單純從數(shù)據(jù)層面去解決問題,忽略了數(shù)據(jù)的業(yè)務(wù)含義,使得業(yè)務(wù)價值較高的數(shù)據(jù)無法體現(xiàn)其特有的價值,從而影響業(yè)務(wù)數(shù)據(jù)分類的準(zhǔn)確性的問題,提出本發(fā)明。

圖1為本發(fā)明業(yè)務(wù)數(shù)據(jù)分類方法的一個實施例的流程圖。如圖1所示,該實施例的方法包括:

步驟S102,獲取業(yè)務(wù)數(shù)據(jù),業(yè)務(wù)數(shù)據(jù)包括多個業(yè)務(wù)指標(biāo)。

在一個實施例中,可以根據(jù)業(yè)務(wù)分類目的設(shè)置相關(guān)的業(yè)務(wù)指標(biāo),并獲取相關(guān)的業(yè)務(wù)數(shù)據(jù),業(yè)務(wù)數(shù)據(jù)具有多個維度,各個維度是與業(yè)務(wù)分類目的相關(guān)的各個業(yè)務(wù)指標(biāo)。

例如,某業(yè)務(wù)分類目的為根據(jù)用戶的活躍度劃分用戶等級,也即對用戶進行活躍度高低的分類,則業(yè)務(wù)數(shù)據(jù)例如可以包括用戶近一段時間的PV(Page View,頁面瀏覽量)、訂單總量、訂單總額、持續(xù)PV時間、商品收藏數(shù)量、注冊時間等能夠反映用戶活躍度的業(yè)務(wù)指標(biāo)。

其中,可以通過ETL(Extract-Transform-Load,抽取、轉(zhuǎn)換、加載)技術(shù)進行數(shù)據(jù)提取和指標(biāo)計算。例如,可以通過SQL語句中的WHERE條件限定所要獲取的業(yè)務(wù)指標(biāo)的條件,再將計算結(jié)果插入到目標(biāo)表結(jié)構(gòu)中。

其中,還可以為業(yè)務(wù)指標(biāo)選擇性地添加標(biāo)識信息,標(biāo)識該指標(biāo)值的大小和業(yè)務(wù)目的是否為正相關(guān)的。例如,對于根據(jù)活躍度為用戶進行分類的場景,PV越大表示用戶活躍度越高,相鄰登錄時間的間隔越大表示用戶的活躍度越低。添加標(biāo)識信息有助于后續(xù)步驟中提取規(guī)則的設(shè)置和使用。

步驟S104,根據(jù)設(shè)置的提取規(guī)則從業(yè)務(wù)數(shù)據(jù)中提取類別屬性符合預(yù)設(shè)條件的部分業(yè)務(wù)數(shù)據(jù)形成第一數(shù)據(jù)集合,提取規(guī)則是根據(jù)部分業(yè)務(wù)指標(biāo)設(shè)置的。

在業(yè)務(wù)數(shù)據(jù)中,存在類別屬性確定的業(yè)務(wù)數(shù)據(jù),也即通過這些數(shù)據(jù)的部分業(yè)務(wù)指標(biāo)的數(shù)值可以直接確定其所屬的業(yè)務(wù)類別。這類數(shù)據(jù)往往在某個或某些指標(biāo)上的數(shù)值過大或過小,從而被判定為離群點。例如,某用戶PV很小,但是訂單總量很高,同時訂單總額相對很低,即該用戶經(jīng)常進行購買,但是購買的商品為價格較低的日用快消品;另一用戶的PV較高,同時持續(xù)PV時間很長,但相較于其他用戶的訂單總量為均值或者偏小。從數(shù)據(jù)來看,上述兩位用戶都存在某一指標(biāo)極大或極小的情況。按照常規(guī)聚類方法,如果直接對包含上述兩個用戶的業(yè)務(wù)數(shù)據(jù)進行聚類,由于極端值的存在會使聚類效果較差;如果去除離群點后再聚類,雖然聚類效果較好,但是被去除的數(shù)據(jù)無法體現(xiàn)其特有的價值,影響業(yè)務(wù)數(shù)據(jù)分類的準(zhǔn)確性。因此,本發(fā)明打破常規(guī),將類別屬性確定的部分業(yè)務(wù)數(shù)據(jù)提取出來,并用于參與后續(xù)的業(yè)務(wù)數(shù)據(jù)分類。

步驟S106,未被提取的業(yè)務(wù)數(shù)據(jù)形成第二數(shù)據(jù)集合,對第二數(shù)據(jù)集合中的業(yè)務(wù)數(shù)據(jù)進行聚類。

形成第二數(shù)據(jù)集合的一種實現(xiàn)方式可以如下所示。定義原始的所有業(yè)務(wù)數(shù)據(jù)組成數(shù)據(jù)集O,第一數(shù)據(jù)集合為D,則第二數(shù)據(jù)集合可以通過以下SQL語句獲得:

SELECT*

FROM O

WHERE NOT EXISTS(SELECT NULL FROM D

WHERE O.ID=D.ID)

其中,針對第二數(shù)據(jù)集合的聚類方法例如可以采用Kmeans、Brich、Optics等聚類算法。以Kmeans算法為例,聚類過程如下:

1、隨機選擇k個類的初始中心,其中,k的值為確定的實際聚類個數(shù)。

2、對所有數(shù)據(jù)點,計算其到k個中心的距離,將該數(shù)據(jù)點歸屬到距離最短的中心所在類。

3、更新各個類的中心點。

4、判斷是否達(dá)到設(shè)定的收斂條件(或稱停止條件),如果不滿足,返回到2-3步驟進行繼續(xù)迭代;如果滿足,則停止迭代,該聚類中心為最優(yōu)聚類中心,聚類結(jié)果為最終的聚類結(jié)果。

步驟S108,根據(jù)第二數(shù)據(jù)集合的聚類結(jié)果和第一數(shù)據(jù)集合確定業(yè)務(wù)數(shù)據(jù)分類結(jié)果。

第一數(shù)據(jù)集合可以包括一個或多個類。當(dāng)?shù)谝粩?shù)據(jù)集合包括一個類時,第一數(shù)據(jù)集合中的所有業(yè)務(wù)數(shù)據(jù)作為一個整體,不再有更進一步的劃分。此時,第一數(shù)據(jù)集合中的業(yè)務(wù)數(shù)據(jù)具有相同的類別屬性,例如其中均為活躍度高的業(yè)務(wù)數(shù)據(jù)或者均為活躍度低的業(yè)務(wù)數(shù)據(jù)。當(dāng)?shù)谝粩?shù)據(jù)集合包括多個類時,同一個類中的業(yè)務(wù)數(shù)據(jù)具有相同的類別屬性。第一數(shù)據(jù)集合的類有不同的劃分和形成方法。例如,第一數(shù)據(jù)集合中的類可以是根據(jù)業(yè)務(wù)需要進行劃分的,或者,根據(jù)設(shè)置的不同的提取規(guī)則從業(yè)務(wù)數(shù)據(jù)中提取部分業(yè)務(wù)數(shù)據(jù)分別形成不同的類,各個不同的類形成第一數(shù)據(jù)集合。例如,第一數(shù)據(jù)集合中可以包括類A、類B和類C,三個類是分別根據(jù)不同的提取規(guī)則提取的。類A是訂單數(shù)量按照由大到小排序時位于前5%的業(yè)務(wù)數(shù)據(jù),類B是訂單數(shù)量按照由大到小排序時位于后5%的業(yè)務(wù)數(shù)據(jù),類C是收藏商品數(shù)量大于200并且收藏店鋪數(shù)量大于150的數(shù)據(jù)。顯然,類A和類C中的類別屬性是活躍度較高的,類B的類別屬性是活躍度較低的。從而,可以保留根據(jù)各個提取規(guī)則所獲取的類的特點,在后續(xù)步驟中能夠進行有針對性的合并。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)清楚,提取規(guī)則并不限于上述幾種規(guī)則。根據(jù)需要,可以采用其他的提取規(guī)則,這里不再贅述。

在一個實施例中,可以根據(jù)第二數(shù)據(jù)集合和第一數(shù)據(jù)集合中類的類別屬性近似程度,和/或,業(yè)務(wù)數(shù)據(jù)分類之間的業(yè)務(wù)數(shù)據(jù)數(shù)量的差異程度,對第二數(shù)據(jù)集合和第一數(shù)據(jù)集合中的類進行合并,確定出業(yè)務(wù)數(shù)據(jù)分類結(jié)果。例如,將第一數(shù)據(jù)集合中的各個類和第二數(shù)據(jù)集合中的各個類中類別屬性最接近的類進行合并,獲得業(yè)務(wù)數(shù)據(jù)分類結(jié)果。或者,將第一數(shù)據(jù)集合中的各個類和第二數(shù)據(jù)集合中的各個類中類別屬性最接近的類進行合并,并使得分類結(jié)果中的各個業(yè)務(wù)數(shù)據(jù)分類之間的業(yè)務(wù)數(shù)據(jù)的數(shù)量差異符合預(yù)設(shè)范圍?;蛘?,如果兩個集合的各類中業(yè)務(wù)數(shù)據(jù)數(shù)量差異較小,也可以不合并,將兩個集合的各類直接作為最終的業(yè)務(wù)數(shù)據(jù)分類結(jié)果。

上述實施例通過根據(jù)業(yè)務(wù)數(shù)據(jù)的部分業(yè)務(wù)指標(biāo)設(shè)置提取規(guī)則,并按照提取規(guī)則提取類別屬性明確的業(yè)務(wù)數(shù)據(jù),再根據(jù)未被提取的業(yè)務(wù)數(shù)據(jù)的聚類結(jié)果以及類別屬性明確的業(yè)務(wù)數(shù)據(jù)共同確定業(yè)務(wù)數(shù)據(jù)分類的結(jié)果,提高了業(yè)務(wù)數(shù)據(jù)分類的準(zhǔn)確性。

在步驟S104中,可以采用多種方法提取類別屬性符合預(yù)設(shè)條件的部分業(yè)務(wù)數(shù)據(jù)。下面介紹三種示例性的提取方法。

第一種方法為根據(jù)設(shè)定的閾值提取單一業(yè)務(wù)指標(biāo)數(shù)據(jù)離群的業(yè)務(wù)數(shù)據(jù)。該方法的一個應(yīng)用例可以為,將業(yè)務(wù)指標(biāo)超出預(yù)設(shè)的上限閾值和/或者低于預(yù)設(shè)的下限閾值的業(yè)務(wù)數(shù)據(jù)提取出來。

例如,連續(xù)登錄天數(shù)是體現(xiàn)用戶活躍度的一個十分直觀的業(yè)務(wù)指標(biāo),因此,可以根據(jù)業(yè)務(wù)需求設(shè)置上限閾值和下限閾值。當(dāng)用戶的連續(xù)登錄天數(shù)大多集中在一個月以內(nèi)時,可以結(jié)合這一現(xiàn)狀和業(yè)務(wù)需求,將連續(xù)登錄天數(shù)超過90天的用戶提取出來,提取的這些用戶顯然為活躍度很高的用戶。

從而,可以根據(jù)與業(yè)務(wù)目最相關(guān)的業(yè)務(wù)指標(biāo),將最直觀的高價值業(yè)務(wù)數(shù)據(jù)提取出來。

第二種方法為根據(jù)多個業(yè)務(wù)指標(biāo)的邏輯運算結(jié)果提取出邏輯運算結(jié)果離群的業(yè)務(wù)數(shù)據(jù)。該方法的一個應(yīng)用例可以為,將邏輯運算結(jié)果超出預(yù)設(shè)的上限閾值和/或者低于預(yù)設(shè)的下限閾值的業(yè)務(wù)數(shù)據(jù)提取出來。

以訂單總額和訂單數(shù)量這兩個業(yè)務(wù)指標(biāo)為例,雖然它們可以分別體現(xiàn)用戶的活躍度,然而,訂單總額和訂單數(shù)量之間的關(guān)系也可以反映用戶的活躍度,例如可以計算各個業(yè)務(wù)數(shù)據(jù)中訂單總額和訂單數(shù)量的比值,即計算每個用戶的平均訂單單價,如果平均訂單單價非常高,例如超過了5萬元,即可以將用戶劃分到活躍度高的類別。即,根據(jù)所有業(yè)務(wù)數(shù)據(jù)中訂單總額和訂單數(shù)量的比值是否離群,決定是否提取離群的比值所對應(yīng)的業(yè)務(wù)數(shù)據(jù)。

這種方法考慮了指標(biāo)間的運算關(guān)系,可以更靈活地提取數(shù)據(jù),擴展了提取規(guī)則的設(shè)置范圍。

第三種方法為根據(jù)單一業(yè)務(wù)指標(biāo)的數(shù)據(jù)分布情況,提取出單一業(yè)務(wù)指標(biāo)數(shù)據(jù)離群的業(yè)務(wù)數(shù)據(jù)。

例如,可以計算同一業(yè)務(wù)指標(biāo)上所有數(shù)據(jù)的均值和方差,將以均值為中心的預(yù)設(shè)浮動范圍之外的業(yè)務(wù)指標(biāo)數(shù)據(jù)確定為離群的業(yè)務(wù)指標(biāo)數(shù)據(jù),并提取出業(yè)務(wù)指標(biāo)數(shù)據(jù)離群的業(yè)務(wù)數(shù)據(jù),其中的預(yù)設(shè)浮動范圍可以根據(jù)方差的預(yù)設(shè)倍數(shù)確定。例如,計算連續(xù)登錄天數(shù)這一指標(biāo)中所有數(shù)據(jù)的均值和方差,將連續(xù)登錄天數(shù)大于均值+2*方差以及小于均值-2*方差的數(shù)據(jù)提取出來。

例如,還可以將同一業(yè)務(wù)指標(biāo)上所有數(shù)據(jù)按照大小順序依次排列,提取出業(yè)務(wù)指標(biāo)數(shù)據(jù)在預(yù)設(shè)上分位數(shù)上側(cè)和/或在預(yù)設(shè)下分位數(shù)下側(cè)的業(yè)務(wù)數(shù)據(jù)。例如,將大于95分位數(shù)或小于5分位數(shù)的數(shù)據(jù)提取出來,即將同一業(yè)務(wù)指標(biāo)的所有數(shù)據(jù)中最小的5%和最大的5%的數(shù)據(jù)提取出來。

這種方法通過業(yè)務(wù)數(shù)據(jù)的分布特性篩選出數(shù)值極大或極小的業(yè)務(wù)指標(biāo),適用于難以根據(jù)業(yè)務(wù)情況設(shè)置具體數(shù)值閾值的應(yīng)用場景。

在步驟S108中例如可以采用以下方法確定業(yè)務(wù)數(shù)據(jù)分類結(jié)果。

以下為如何根據(jù)業(yè)務(wù)指標(biāo)選取第二數(shù)據(jù)集合中的類與第一數(shù)據(jù)集合中的類進行合并的一個應(yīng)用例:首先,獲取第一數(shù)據(jù)集合和第二數(shù)據(jù)集合中提取規(guī)則中涉及的業(yè)務(wù)指標(biāo)的平均特征,平均特征是每個類的提取規(guī)則涉及的業(yè)務(wù)指標(biāo)的平均值或中心點;然后,將第一數(shù)據(jù)集合和第二數(shù)據(jù)集合中平均特征最接近的類進行合并獲得業(yè)務(wù)數(shù)據(jù)分類結(jié)果。

例如,第一數(shù)據(jù)集合中的類D是根據(jù)其中的訂單總額大于30萬元提取的。因此,在合并時將第二數(shù)據(jù)集合中的各個類按照訂單總額的平均值或者中心點進行由大到小的排序,排序結(jié)果中最大的類即為可以與類D進行合并的類。該方法同樣適用于提取規(guī)則涉及多個指標(biāo)時所提取的類的合并,例如第一數(shù)據(jù)集合中的類E是根據(jù)訂單總額指標(biāo)除以訂單數(shù)量指標(biāo)大于5萬確定的,則第二數(shù)據(jù)集合中的類的平均特征為類中各個業(yè)務(wù)數(shù)據(jù)的訂單總額指標(biāo)除以訂單數(shù)量的計算結(jié)果的平均值或者中心點。

通過計算各個類的平均特征,能夠客觀地確定與待合并的類在類別屬性上最相近的類,從而提高了合并的準(zhǔn)確性。

以下方法為決定是否進行類之間的合并的一個應(yīng)用例:將第一數(shù)據(jù)集合中的各個類和第二數(shù)據(jù)集合中的各個類中類別屬性最接近的類進行合并獲得業(yè)務(wù)數(shù)據(jù)分類結(jié)果,并使得分類結(jié)果中的各個業(yè)務(wù)數(shù)據(jù)分類之間的業(yè)務(wù)數(shù)據(jù)的數(shù)量差異符合預(yù)設(shè)范圍。即,如果第一數(shù)據(jù)集合中各個類的業(yè)務(wù)數(shù)據(jù)的數(shù)量以及第二數(shù)據(jù)集合中各個類的業(yè)務(wù)數(shù)據(jù)的數(shù)量之間的差異沒有超出預(yù)設(shè)范圍,則無需進行合并;如果超過了預(yù)設(shè)范圍,則合并類別屬性最接近的類。

上述合并操作的條件不僅適用于第一數(shù)據(jù)集合中的類與第二數(shù)據(jù)集合中的類之間,還可以用于第一數(shù)據(jù)集合本身的類之間,即,如果第一數(shù)據(jù)集合中的各個類數(shù)量均遠(yuǎn)小于第二數(shù)據(jù)集合中的類,可以將第一數(shù)據(jù)集合中具有同樣類別屬性的類進行合并,以使結(jié)果的數(shù)據(jù)均勻。

通過類之間數(shù)據(jù)量的差異決定是否進行合并,能夠使業(yè)務(wù)分類的結(jié)果更均勻,應(yīng)用性更好。

本發(fā)明還提供了對第二數(shù)據(jù)集合中的業(yè)務(wù)數(shù)據(jù)進行聚類的方法。

圖2為業(yè)務(wù)數(shù)據(jù)聚類方法的一個實施例的流程圖。如圖2所示,該實施例的方法包括:

步驟S2062,對第二數(shù)據(jù)集合中的業(yè)務(wù)數(shù)據(jù)進行預(yù)處理。

其中,預(yù)處理可以包括離群點處理、空值處理和標(biāo)準(zhǔn)化處理中的一個或多個。

離群點處理過程的一個應(yīng)用例如下所示:從第二數(shù)據(jù)集合中篩選出離群的業(yè)務(wù)指標(biāo)數(shù)據(jù),將用于確定是否離群的業(yè)務(wù)指標(biāo)分界數(shù)據(jù)賦予離群的業(yè)務(wù)指標(biāo)數(shù)據(jù)。例如,可以將大于同一業(yè)務(wù)指標(biāo)中所有數(shù)據(jù)的均值+方差的業(yè)務(wù)指標(biāo)賦予均值+方差,小于同一業(yè)務(wù)指標(biāo)中所有數(shù)據(jù)的均值-方差的業(yè)務(wù)指標(biāo)賦予均值-方差;還可以將大于同一業(yè)務(wù)指標(biāo)中所有數(shù)據(jù)的上四分位數(shù)的業(yè)務(wù)指標(biāo)賦予上四分位數(shù),小于同一業(yè)務(wù)指標(biāo)中所有數(shù)據(jù)的下四分位數(shù)的業(yè)務(wù)指標(biāo)賦予下四分位數(shù)。此外,還可以將大于同一業(yè)務(wù)指標(biāo)中所有數(shù)據(jù)的均值+方差的業(yè)務(wù)指標(biāo)賦予上四分位數(shù),小于同一業(yè)務(wù)指標(biāo)中所有數(shù)據(jù)的均值-方差的業(yè)務(wù)指標(biāo)賦予下四分位數(shù)。

由于在進行業(yè)務(wù)數(shù)據(jù)聚類之前已經(jīng)將業(yè)務(wù)類別屬性確定的數(shù)據(jù)提取出來,因此,此處進行預(yù)處理的數(shù)據(jù)為數(shù)值較均勻的數(shù)據(jù),對其進行離群點處理會產(chǎn)生更好的聚類效果,而不會影響業(yè)務(wù)數(shù)據(jù)分類的準(zhǔn)確性。

空值處理過程的一個應(yīng)用例如下所示:從第二數(shù)據(jù)集合中篩選出業(yè)務(wù)指標(biāo)的數(shù)據(jù)空值,計算該業(yè)務(wù)指標(biāo)中所有非空數(shù)據(jù)的均值,將均值賦予該業(yè)務(wù)指標(biāo)的數(shù)據(jù)空值。從而,使具有空值的數(shù)據(jù)在同一指標(biāo)的數(shù)據(jù)中處于平均水平,以提高聚類的準(zhǔn)確性。

對于完成離群點處理、空值處理等操作的數(shù)據(jù),還可以對其進行標(biāo)準(zhǔn)化或者規(guī)范化處理。標(biāo)準(zhǔn)化處理的一個應(yīng)用例為,對于同一業(yè)務(wù)指標(biāo),可以首先計算該業(yè)務(wù)指標(biāo)中所有數(shù)據(jù)的均值和方差,再將其中的每個業(yè)務(wù)指標(biāo)的原始數(shù)值替換為(原始數(shù)值-均值)/方差,從而統(tǒng)一參與聚類的業(yè)務(wù)數(shù)據(jù)的各個業(yè)務(wù)指標(biāo)的權(quán)重。

根據(jù)需要,本領(lǐng)域技術(shù)人員還可以采用其他數(shù)據(jù)預(yù)處理的方法,這里不再贅述。

步驟S2064,確定聚類的實際聚類個數(shù)。

在進行聚類之前,可以根據(jù)業(yè)務(wù)需求人工指定實際聚類的個數(shù),也可以采用以下預(yù)聚類的方法確定實際聚類個數(shù)。通過預(yù)聚類方法確定聚類個數(shù)的一個應(yīng)用例如下所示:

1.按照各個預(yù)定聚類個數(shù)分別對第二數(shù)據(jù)集合中的業(yè)務(wù)數(shù)據(jù)進行預(yù)聚類,計算每個預(yù)定聚類個數(shù)對應(yīng)的預(yù)聚類結(jié)果的輪廓系數(shù);

設(shè)參與聚類的業(yè)務(wù)數(shù)據(jù)總數(shù)為N。當(dāng)采用n作為預(yù)定聚類個數(shù)時,聚類結(jié)果的輪廓系數(shù)為f(n),聚類結(jié)果中第i個數(shù)據(jù)點的輪廓系數(shù)為Si,聚類結(jié)果和數(shù)據(jù)點的輪廓系數(shù)的計算方法分別如公式(1)和公式(2)所示:

f(n)=∑Si/N (1)

Si=(bi-ai)/max(ai,bi) (2)

其中,ai為第i個業(yè)務(wù)數(shù)據(jù)到類內(nèi)每個業(yè)務(wù)數(shù)據(jù)的距離的平均值;對于bi,首先求第i個業(yè)務(wù)數(shù)據(jù)到不包含該業(yè)務(wù)數(shù)據(jù)的各個類中每個業(yè)務(wù)數(shù)據(jù)的距離的平均值,將各個平均值的最小值作為bi

2.按照預(yù)定聚類個數(shù)遞增的順序排列相應(yīng)的輪廓系數(shù),獲取輪廓系數(shù)中的若干極大值,并確定其中的最大值;

上述步驟可以通過坐標(biāo)系較為直觀地表述出來。當(dāng)橫坐標(biāo)為預(yù)定聚類個數(shù),縱坐標(biāo)為輪廓系數(shù)時,將各個聚類結(jié)果對應(yīng)的數(shù)據(jù)點依次連接,縱坐標(biāo)大于相鄰兩點的數(shù)據(jù)點對應(yīng)的輪廓系數(shù)即為極大值,各個極大值中的最大值也是所有數(shù)據(jù)點中的極大值。

3.將首次出現(xiàn)的符合預(yù)設(shè)條件的極大值對應(yīng)的預(yù)聚類個數(shù)作為實際聚類個數(shù),預(yù)設(shè)條件為極大值與最大值的差值小于預(yù)設(shè)值。

輪廓系數(shù)用于衡量聚類結(jié)果中各個類本身的凝聚度以及不同類之間的分離度,因此通常將輪廓系數(shù)的最大值對應(yīng)的聚類個數(shù)作為實際聚類個數(shù)。然而,對于業(yè)務(wù)上的分類,在滿足了輪廓系數(shù)較大的情況下,還需要使聚類個數(shù)較小,以免聚類個數(shù)過多不利于業(yè)務(wù)分類結(jié)果的呈現(xiàn)。因此,本發(fā)明選取了在特定閾值以上的若干極大值,例如大于最大值減去0.1后所得值的極大值,再將符合上述條件的若干極大值所對應(yīng)的最小的聚類個數(shù)作為實際聚類個數(shù)。

確定實際聚類個數(shù)的一個應(yīng)用例為:首先判斷第一個極大值是否為最大值,如果是,則將最大值對應(yīng)的聚類個數(shù)作為實際聚類個數(shù);如果第一個極大值不是最大值,則將首次出現(xiàn)的與所述最大值的差距小于預(yù)設(shè)值的極大值對應(yīng)的聚類個數(shù)作為實際聚類個數(shù)。

步驟S2066,采用實際聚類個數(shù)對第二數(shù)據(jù)集合進行聚類。

通過采用上述方法,優(yōu)化了參與聚類的業(yè)務(wù)數(shù)據(jù)以及聚類方法,使得聚類的結(jié)果更準(zhǔn)確,從而提高了業(yè)務(wù)數(shù)據(jù)分類的準(zhǔn)確度。

圖3為本發(fā)明業(yè)務(wù)數(shù)據(jù)分類裝置的一個實施例的結(jié)構(gòu)圖。如圖3所示,該實施例的裝置包括:業(yè)務(wù)數(shù)據(jù)獲取模塊32,用于獲取業(yè)務(wù)數(shù)據(jù),業(yè)務(wù)數(shù)據(jù)包括多個業(yè)務(wù)指標(biāo);業(yè)務(wù)數(shù)據(jù)提取模塊34,用于根據(jù)設(shè)置的提取規(guī)則從業(yè)務(wù)數(shù)據(jù)中提取類別屬性符合預(yù)設(shè)條件的部分業(yè)務(wù)數(shù)據(jù)形成第一數(shù)據(jù)集合,提取規(guī)則是根據(jù)部分業(yè)務(wù)指標(biāo)設(shè)置的;業(yè)務(wù)數(shù)據(jù)聚類模塊36,用于獲取由未被提取的業(yè)務(wù)數(shù)據(jù)形成的第二數(shù)據(jù)集合,對第二數(shù)據(jù)集合中的業(yè)務(wù)數(shù)據(jù)進行聚類;業(yè)務(wù)數(shù)據(jù)分類模塊38,用于根據(jù)第二數(shù)據(jù)集合的聚類結(jié)果和第一數(shù)據(jù)集合確定業(yè)務(wù)數(shù)據(jù)分類結(jié)果。

通過根據(jù)業(yè)務(wù)數(shù)據(jù)的部分業(yè)務(wù)指標(biāo)設(shè)置提取規(guī)則,并按照提取規(guī)則提取類別屬性明確的業(yè)務(wù)數(shù)據(jù),再根據(jù)未被提取的業(yè)務(wù)數(shù)據(jù)的聚類結(jié)果以及類別屬性明確的業(yè)務(wù)數(shù)據(jù)共同確定業(yè)務(wù)數(shù)據(jù)分類的結(jié)果,提高了業(yè)務(wù)數(shù)據(jù)分類的準(zhǔn)確性。

其中,第一數(shù)據(jù)集合可以包括一個或多個類,業(yè)務(wù)數(shù)據(jù)分類模塊38用于將第一數(shù)據(jù)集合中的各個類和第二數(shù)據(jù)集合中的各個類中類別屬性最接近的類進行合并,獲得業(yè)務(wù)數(shù)據(jù)分類結(jié)果。從而,能夠提高業(yè)務(wù)分類結(jié)果的準(zhǔn)確性。

其中,業(yè)務(wù)數(shù)據(jù)提取模塊34可以用于根據(jù)設(shè)置的不同的提取規(guī)則從業(yè)務(wù)數(shù)據(jù)中提取部分業(yè)務(wù)數(shù)據(jù)分別形成不同的類,不同的類形成第一數(shù)據(jù)集合。從而,可以保留根據(jù)各個提取規(guī)則所獲取的類的特點,在后續(xù)步驟中能夠進行有針對性的合并。

圖4為本發(fā)明業(yè)務(wù)數(shù)據(jù)分類裝置的另一個實施例的結(jié)構(gòu)圖。如圖4所示,該實施例的業(yè)務(wù)數(shù)據(jù)提取模塊34可以包括第一提取單元442、第二提取單元444和第三提取單元446中的至少一個。

其中,第一提取單元442用于根據(jù)設(shè)定的閾值提取單一業(yè)務(wù)指標(biāo)數(shù)據(jù)離群的業(yè)務(wù)數(shù)據(jù),形成第一數(shù)據(jù)集合,從而可以根據(jù)與業(yè)務(wù)目最相關(guān)的業(yè)務(wù)指標(biāo),將最直觀的高價值業(yè)務(wù)數(shù)據(jù)提取出來。

第二提取單元444用于根據(jù)多個業(yè)務(wù)指標(biāo)的邏輯運算結(jié)果提取出邏輯運算結(jié)果離群的業(yè)務(wù)數(shù)據(jù),形成第一數(shù)據(jù)集合,第二提取單元444考慮了指標(biāo)間的運算關(guān)系,可以更靈活地提取數(shù)據(jù),擴展了提取規(guī)則的設(shè)置范圍。

第三提取單元446用于根據(jù)單一業(yè)務(wù)指標(biāo)的數(shù)據(jù)分布情況,提取出單一業(yè)務(wù)指標(biāo)數(shù)據(jù)離群的業(yè)務(wù)數(shù)據(jù),形成第一數(shù)據(jù)集合,適用于難以根據(jù)業(yè)務(wù)情況設(shè)置具體數(shù)值閾值的應(yīng)用場景。。

業(yè)務(wù)數(shù)據(jù)分類模塊38可以包括平均特征獲取單元482和合并單元484。平均特征獲取單元482用于獲取第一數(shù)據(jù)集合和第二數(shù)據(jù)集合中提取規(guī)則中涉及的業(yè)務(wù)指標(biāo)的平均特征,其中,平均特征是每個類的提取規(guī)則涉及的業(yè)務(wù)指標(biāo)的平均值或中心點;合并單元484用于將第一數(shù)據(jù)集合和第二數(shù)據(jù)集合中平均特征最接近的類進行合并獲得業(yè)務(wù)數(shù)據(jù)分類結(jié)果。通過計算各個類的平均特征,能夠客觀地確定與待合并的類在類別屬性上最相近的類,從而提高了合并的準(zhǔn)確性。

或者,業(yè)務(wù)數(shù)據(jù)分類模塊38也可以用于將第一數(shù)據(jù)集合中的各個類和第二數(shù)據(jù)集合中的各個類中類別屬性最接近的類進行合并獲得業(yè)務(wù)數(shù)據(jù)分類結(jié)果,并使得分類結(jié)果中的各個業(yè)務(wù)數(shù)據(jù)分類之間的業(yè)務(wù)數(shù)據(jù)的數(shù)量差異符合預(yù)設(shè)范圍。通過類之間數(shù)據(jù)的差異決定是否進行合并,能夠使業(yè)務(wù)分類的結(jié)果更均勻,應(yīng)用性更好。

該裝置還可以包括預(yù)處理模塊45,預(yù)處理模塊45包括離群點處理單元452和/或空值處理單元454。

離群點處理單元452用于從第二數(shù)據(jù)集合中篩選出離群的業(yè)務(wù)指標(biāo)數(shù)據(jù),將用于確定是否離群的業(yè)務(wù)指標(biāo)分界數(shù)據(jù)賦予離群的業(yè)務(wù)指標(biāo)數(shù)據(jù)。由于在進行業(yè)務(wù)數(shù)據(jù)聚類之前已經(jīng)將業(yè)務(wù)類別屬性確定的數(shù)據(jù)提取出來,因此,此處進行預(yù)處理的數(shù)據(jù)為數(shù)值較均勻的數(shù)據(jù),對其進行離群點處理會產(chǎn)生更好的聚類效果,而不會影響業(yè)務(wù)數(shù)據(jù)分類的準(zhǔn)確性。

空值處理單元454用于從第二數(shù)據(jù)集合中篩選出業(yè)務(wù)指標(biāo)的數(shù)據(jù)空值,計算該業(yè)務(wù)指標(biāo)中所有非空數(shù)據(jù)的均值,將均值賦予該業(yè)務(wù)指標(biāo)的數(shù)據(jù)空值。從而,使具有空值的數(shù)據(jù)在同一指標(biāo)的數(shù)據(jù)中處于平均水平,以提高聚類的準(zhǔn)確性。

其中,業(yè)務(wù)數(shù)據(jù)聚類模塊36可以包括預(yù)聚類單元462、輪廓系數(shù)計算單元464、實際聚類個數(shù)確定單元466、實際聚類單元468。預(yù)聚類單元462用于按照各個預(yù)定聚類個數(shù)分別對第二數(shù)據(jù)集合中的業(yè)務(wù)數(shù)據(jù)進行預(yù)聚類;輪廓系數(shù)計算單元464用于根據(jù)于聚類結(jié)果計算每個預(yù)定聚類個數(shù)對應(yīng)的預(yù)聚類結(jié)果的輪廓系數(shù);實際聚類個數(shù)確定單元466用于按照預(yù)定聚類個數(shù)遞增的順序排列相應(yīng)的輪廓系數(shù),獲取輪廓系數(shù)中的若干極大值,并確定其中的最大值,將首次出現(xiàn)的符合預(yù)設(shè)條件的極大值對應(yīng)的預(yù)聚類個數(shù)作為實際聚類個數(shù),預(yù)設(shè)條件為極大值與最大值的差值小于預(yù)設(shè)值;實際聚類單元468用于采用實際聚類個數(shù)對第二數(shù)據(jù)集合中的業(yè)務(wù)數(shù)據(jù)進行聚類。

通過采用上述方法,可以使聚類結(jié)果既具有較好的數(shù)學(xué)特性,也有較好的可用性。

圖5為本發(fā)明業(yè)務(wù)數(shù)據(jù)分類裝置的又一個實施例的結(jié)構(gòu)圖。如圖5所示,該實施例的裝置500包括:存儲器510以及耦接至該存儲器510的處理器520,處理器520被配置為基于存儲在存儲器510中的指令,執(zhí)行前述任意一個實施例中的業(yè)務(wù)數(shù)據(jù)分類方法。

其中,存儲器510例如可以包括系統(tǒng)存儲器、固定非易失性存儲介質(zhì)等。系統(tǒng)存儲器例如存儲有操作系統(tǒng)、應(yīng)用程序、引導(dǎo)裝載程序(Boot Loader)以及其他程序等。

圖6為本發(fā)明業(yè)務(wù)數(shù)據(jù)分類裝置的再一個實施例的結(jié)構(gòu)圖。如圖6所示,該實施例的裝置500包括:存儲器510以及處理器520,還可以包括輸入輸出接口630、網(wǎng)絡(luò)接口640、存儲接口650等。這些接口630,640,650以及存儲器510和處理器520之間例如可以通過總線660連接。其中,輸入輸出接口630為顯示器、鼠標(biāo)、鍵盤、觸摸屏等輸入輸出設(shè)備提供連接接口。網(wǎng)絡(luò)接口640為各種聯(lián)網(wǎng)設(shè)備提供連接接口。存儲接口650為SD卡、U盤等外置存儲設(shè)備提供連接接口。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)當(dāng)明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用非瞬時性存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實施的計算機程序產(chǎn)品的形式。

本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解為可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1