1.一種業(yè)務(wù)數(shù)據(jù)分類方法,其特征在于,包括:
獲取業(yè)務(wù)數(shù)據(jù),所述業(yè)務(wù)數(shù)據(jù)包括多個(gè)業(yè)務(wù)指標(biāo);
根據(jù)設(shè)置的提取規(guī)則從所述業(yè)務(wù)數(shù)據(jù)中提取類別屬性符合預(yù)設(shè)條件的部分業(yè)務(wù)數(shù)據(jù)形成第一數(shù)據(jù)集合,所述提取規(guī)則是根據(jù)部分業(yè)務(wù)指標(biāo)設(shè)置的;
未被提取的業(yè)務(wù)數(shù)據(jù)形成第二數(shù)據(jù)集合,對(duì)所述第二數(shù)據(jù)集合中的業(yè)務(wù)數(shù)據(jù)進(jìn)行聚類;
根據(jù)所述第二數(shù)據(jù)集合的聚類結(jié)果和所述第一數(shù)據(jù)集合確定業(yè)務(wù)數(shù)據(jù)分類結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)設(shè)置的提取規(guī)則從所述業(yè)務(wù)數(shù)據(jù)中提取類別屬性符合預(yù)設(shè)條件的部分業(yè)務(wù)數(shù)據(jù)形成第一數(shù)據(jù)集合包括:
根據(jù)設(shè)定的閾值提取單一業(yè)務(wù)指標(biāo)數(shù)據(jù)離群的業(yè)務(wù)數(shù)據(jù),形成第一數(shù)據(jù)集合;
或者,
根據(jù)多個(gè)業(yè)務(wù)指標(biāo)的邏輯運(yùn)算結(jié)果提取出所述邏輯運(yùn)算結(jié)果離群的業(yè)務(wù)數(shù)據(jù),形成第一數(shù)據(jù)集合;
或者,
根據(jù)單一業(yè)務(wù)指標(biāo)的數(shù)據(jù)分布情況,提取出單一業(yè)務(wù)指標(biāo)數(shù)據(jù)離群的業(yè)務(wù)數(shù)據(jù),形成第一數(shù)據(jù)集合。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述第二數(shù)據(jù)集合的聚類結(jié)果和所述第一數(shù)據(jù)集合確定業(yè)務(wù)數(shù)據(jù)分類結(jié)果包括:
所述第一數(shù)據(jù)集合包括一個(gè)或多個(gè)類,將第一數(shù)據(jù)集合中的各個(gè)類和第二數(shù)據(jù)集合中的各個(gè)類中類別屬性最接近的類進(jìn)行合并,獲得業(yè)務(wù)數(shù)據(jù)分類結(jié)果。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述將第一數(shù)據(jù)集合中的各個(gè)類和第二數(shù)據(jù)集合中的各個(gè)類中類別屬性最接近的類進(jìn)行合并包括:
獲取第一數(shù)據(jù)集合和第二數(shù)據(jù)集合中所述提取規(guī)則中涉及的業(yè)務(wù)指標(biāo)的平均特征,將第一數(shù)據(jù)集合和第二數(shù)據(jù)集合中所述平均特征最接近的類進(jìn)行合并獲得業(yè)務(wù)數(shù)據(jù)分類結(jié)果,其中,所述平均特征是每個(gè)類的所述提取規(guī)則涉及的業(yè)務(wù)指標(biāo)的平均值或中心點(diǎn);
或者,
將第一數(shù)據(jù)集合中的各個(gè)類和第二數(shù)據(jù)集合中的各個(gè)類中類別屬性最接近的類進(jìn)行合并獲得業(yè)務(wù)數(shù)據(jù)分類結(jié)果,并使得所述分類結(jié)果中的各個(gè)業(yè)務(wù)數(shù)據(jù)分類之間的業(yè)務(wù)數(shù)據(jù)的數(shù)量差異符合預(yù)設(shè)范圍。
5.根據(jù)權(quán)利要求3或4所述的方法,其特征在于,所述根據(jù)設(shè)置的提取規(guī)則從所述業(yè)務(wù)數(shù)據(jù)中提取類別屬性符合預(yù)設(shè)條件的部分業(yè)務(wù)數(shù)據(jù)形成第一數(shù)據(jù)集合包括:
根據(jù)設(shè)置的不同的提取規(guī)則從所述業(yè)務(wù)數(shù)據(jù)中提取部分業(yè)務(wù)數(shù)據(jù)分別形成不同的類,所述不同的類形成第一數(shù)據(jù)集合。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,在對(duì)所述第二數(shù)據(jù)集合中的業(yè)務(wù)數(shù)據(jù)進(jìn)行聚類之前,所述方法還包括:
從所述第二數(shù)據(jù)集合中篩選出離群的業(yè)務(wù)指標(biāo)數(shù)據(jù),將用于確定是否離群的業(yè)務(wù)指標(biāo)分界數(shù)據(jù)賦予離群的業(yè)務(wù)指標(biāo)數(shù)據(jù);
或者,
從所述第二數(shù)據(jù)集合中篩選出業(yè)務(wù)指標(biāo)的數(shù)據(jù)空值,計(jì)算該業(yè)務(wù)指標(biāo)中所有非空數(shù)據(jù)的均值,將均值賦予該業(yè)務(wù)指標(biāo)的數(shù)據(jù)空值。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述第二數(shù)據(jù)集合中的業(yè)務(wù)數(shù)據(jù)進(jìn)行聚類包括:
按照各個(gè)預(yù)定聚類個(gè)數(shù)分別對(duì)所述第二數(shù)據(jù)集合中的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)聚類,計(jì)算每個(gè)預(yù)定聚類個(gè)數(shù)對(duì)應(yīng)的預(yù)聚類結(jié)果的輪廓系數(shù);
按照預(yù)定聚類個(gè)數(shù)遞增的順序排列相應(yīng)的輪廓系數(shù),獲取所述輪廓系數(shù)中的若干極大值,并確定其中的最大值;
將首次出現(xiàn)的符合預(yù)設(shè)條件的極大值對(duì)應(yīng)的預(yù)聚類個(gè)數(shù)作為實(shí)際聚類個(gè)數(shù),所述預(yù)設(shè)條件為極大值與所述最大值的差值小于預(yù)設(shè)值;
采用所述實(shí)際聚類個(gè)數(shù)對(duì)第二數(shù)據(jù)集合中的業(yè)務(wù)數(shù)據(jù)進(jìn)行聚類。
8.一種業(yè)務(wù)數(shù)據(jù)分類裝置,其特征在于,包括:
業(yè)務(wù)數(shù)據(jù)獲取模塊,用于獲取業(yè)務(wù)數(shù)據(jù),所述業(yè)務(wù)數(shù)據(jù)包括多個(gè)業(yè)務(wù)指標(biāo);
業(yè)務(wù)數(shù)據(jù)提取模塊,用于根據(jù)設(shè)置的提取規(guī)則從所述業(yè)務(wù)數(shù)據(jù)中提取類別屬性符合預(yù)設(shè)條件的部分業(yè)務(wù)數(shù)據(jù)形成第一數(shù)據(jù)集合,所述提取規(guī)則是根據(jù)部分業(yè)務(wù)指標(biāo)設(shè)置的;
業(yè)務(wù)數(shù)據(jù)聚類模塊,用于獲取由未被提取的業(yè)務(wù)數(shù)據(jù)形成的第二數(shù)據(jù)集合,對(duì)所述第二數(shù)據(jù)集合中的業(yè)務(wù)數(shù)據(jù)進(jìn)行聚類;
業(yè)務(wù)數(shù)據(jù)分類模塊,用于根據(jù)所述第二數(shù)據(jù)集合的聚類結(jié)果和所述第一數(shù)據(jù)集合確定業(yè)務(wù)數(shù)據(jù)分類結(jié)果。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述業(yè)務(wù)數(shù)據(jù)提取模塊包括第一提取單元、第二提取單元和第三提取單元中的至少一個(gè);其中,
第一提取單元用于根據(jù)設(shè)定的閾值提取單一業(yè)務(wù)指標(biāo)數(shù)據(jù)離群的業(yè)務(wù)數(shù)據(jù),形成第一數(shù)據(jù)集合;
第二提取單元用于根據(jù)多個(gè)業(yè)務(wù)指標(biāo)的邏輯運(yùn)算結(jié)果提取出所述邏輯運(yùn)算結(jié)果離群的業(yè)務(wù)數(shù)據(jù),形成第一數(shù)據(jù)集合;
第三提取單元用于根據(jù)單一業(yè)務(wù)指標(biāo)的數(shù)據(jù)分布情況,提取出單一業(yè)務(wù)指標(biāo)數(shù)據(jù)離群的業(yè)務(wù)數(shù)據(jù),形成第一數(shù)據(jù)集合。
10.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述第一數(shù)據(jù)集合包括一個(gè)或多個(gè)類,所述業(yè)務(wù)數(shù)據(jù)分類模塊用于將第一數(shù)據(jù)集合中的各個(gè)類和第二數(shù)據(jù)集合中的各個(gè)類中類別屬性最接近的類進(jìn)行合并,獲得業(yè)務(wù)數(shù)據(jù)分類結(jié)果。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,
所述業(yè)務(wù)數(shù)據(jù)分類模塊包括平均特征獲取單元和合并單元;平均特征獲取單元用于獲取第一數(shù)據(jù)集合和第二數(shù)據(jù)集合中所述提取規(guī)則中涉及的業(yè)務(wù)指標(biāo)的平均特征,其中,所述平均特征是每個(gè)類的所述提取規(guī)則涉及的業(yè)務(wù)指標(biāo)的平均值或中心點(diǎn);合并單元用于將第一數(shù)據(jù)集合和第二數(shù)據(jù)集合中所述平均特征最接近的類進(jìn)行合并獲得業(yè)務(wù)數(shù)據(jù)分類結(jié)果;
或者,所述業(yè)務(wù)數(shù)據(jù)分類模塊用于將第一數(shù)據(jù)集合中的各個(gè)類和第二數(shù)據(jù)集合中的各個(gè)類中類別屬性最接近的類進(jìn)行合并獲得業(yè)務(wù)數(shù)據(jù)分類結(jié)果,并使得所述分類結(jié)果中的各個(gè)業(yè)務(wù)數(shù)據(jù)分類之間的業(yè)務(wù)數(shù)據(jù)的數(shù)量差異符合預(yù)設(shè)范圍。
12.根據(jù)權(quán)利要求10或11所述的裝置,其特征在于,所述業(yè)務(wù)數(shù)據(jù)提取模塊用于根據(jù)設(shè)置的不同的提取規(guī)則從所述業(yè)務(wù)數(shù)據(jù)中提取部分業(yè)務(wù)數(shù)據(jù)分別形成不同的類,所述不同的類形成第一數(shù)據(jù)集合。
13.根據(jù)權(quán)利要求8所述的裝置,其特征在于,還包括預(yù)處理模塊,所述預(yù)處理模塊包括離群點(diǎn)處理單元和/或空值處理單元;
離群點(diǎn)處理單元用于從所述第二數(shù)據(jù)集合中篩選出離群的業(yè)務(wù)指標(biāo)數(shù)據(jù),將用于確定是否離群的業(yè)務(wù)指標(biāo)分界數(shù)據(jù)賦予離群的業(yè)務(wù)指標(biāo)數(shù)據(jù);
空值處理單元用于從所述第二數(shù)據(jù)集合中篩選出業(yè)務(wù)指標(biāo)的數(shù)據(jù)空值,計(jì)算該業(yè)務(wù)指標(biāo)中所有非空數(shù)據(jù)的均值,將均值賦予該業(yè)務(wù)指標(biāo)的數(shù)據(jù)空值。
14.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述業(yè)務(wù)數(shù)據(jù)聚類模塊包括預(yù)聚類單元、輪廓系數(shù)計(jì)算單元、實(shí)際聚類個(gè)數(shù)確定單元、實(shí)際聚類單元;
預(yù)聚類單元用于按照各個(gè)預(yù)定聚類個(gè)數(shù)分別對(duì)所述第二數(shù)據(jù)集合中的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)聚類;
輪廓系數(shù)計(jì)算單元用于根據(jù)于聚類結(jié)果計(jì)算每個(gè)預(yù)定聚類個(gè)數(shù)對(duì)應(yīng)的預(yù)聚類結(jié)果的輪廓系數(shù);
實(shí)際聚類個(gè)數(shù)確定單元用于按照預(yù)定聚類個(gè)數(shù)遞增的順序排列相應(yīng)的輪廓系數(shù),獲取所述輪廓系數(shù)中的若干極大值,并確定其中的最大值,將首次出現(xiàn)的符合預(yù)設(shè)條件的極大值對(duì)應(yīng)的預(yù)聚類個(gè)數(shù)作為實(shí)際聚類個(gè)數(shù),所述預(yù)設(shè)條件為極大值與所述最大值的差值小于預(yù)設(shè)值;
實(shí)際聚類單元用于采用所述實(shí)際聚類個(gè)數(shù)對(duì)第二數(shù)據(jù)集合中的業(yè)務(wù)數(shù)據(jù)進(jìn)行聚類。
15.一種業(yè)務(wù)數(shù)據(jù)分類裝置,其特征在于,包括:
存儲(chǔ)器;以及
耦接至所述存儲(chǔ)器的處理器,所述處理器被配置為基于存儲(chǔ)在所述存儲(chǔ)器中的指令,執(zhí)行如權(quán)利要求1-7中任一項(xiàng)所述的業(yè)務(wù)數(shù)據(jù)分類方法。