1.一種人群聚類的方法,其特征在于,包括:
獲得針對人群的樣本集以及所述樣本集的聚類中心集,所述樣本集中每個樣本點包括人群中對應(yīng)的個人的描述信息,所述描述信息至少包括年齡信息、性別信息、愛好信息和消費金額信息;
針對所述樣本集中的每一個樣本點,依次遍歷聚類中心集中的每一個聚類中心點,確定所述每一個樣本點與所述聚類中心集中距離最近的聚類中心點,并將所述每一個樣本點劃分到所述聚類中心集中距離最近的聚類中心點對應(yīng)的集合中,獲得所述聚類中心集中的每一個聚類中心點對應(yīng)的聚類集;
獲得所述聚類集中樣本點的平均值,并根據(jù)所述平均值更新所述聚類中心集;
根據(jù)第一聚類中心點上一次更新前后的自身差值獲取第一距離的預(yù)測值;其中,所述第一距離為需要進行數(shù)據(jù)聚類的樣本點與所述第一聚類中心點之間的距離,所述第一聚類中心點為聚類距離遍歷中與所述樣本點距離最近的聚類中心點;
根據(jù)第二距離、所述第一聚類中心點上一次更新前后的自身差值以及第二聚類中心點上一次更新前后的自身差值獲取第三距離的預(yù)測值,其中,所述第二距離為上一次聚類距離遍歷過程中所述第一聚類中心點與第二聚類中心點之間的距離,所述第二聚類中心點為當(dāng)前聚類距離遍歷過程中待遍歷的聚類中心點;
按照三角形不等式規(guī)則將所述第一距離的預(yù)測值與所述第三距離的預(yù)測值進行比較;
若所述第三距離的預(yù)測值大于或者等于兩倍的所述第一距離的預(yù)測值,則將所述第二聚類中心點丟棄,以便進行聚類距離遍歷時,不再計算所述樣本點與所述第二聚類中心點之間的距離以及所述第二聚類中心點與其他待遍歷聚類中心點之間的距離;
基于已丟棄所述第二聚類中心點的聚類中心集進行所述距離遍歷,獲得所述樣本集的聚類結(jié)果,所述聚類結(jié)果包括以所述年齡信息、所述性別信息、所述愛好信息和所述消費金額信息為基準(zhǔn)維度對所述人群中的每一個人進行聚類后的聚類信息。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述獲得所述樣本集的聚類結(jié)果之后,所述方法還包括:
對所述聚類結(jié)果進行分析,以對所述聚類方法進行評價。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對所述聚類結(jié)果進行分析,以對所述聚類方法進行評價,具體包括:
通過熵值驗證算法或純度驗證算法對所述聚類結(jié)果進行分析;
在所述熵值驗證算法獲得的所述聚類結(jié)果的熵值小于第一預(yù)設(shè)值時,確定所述聚類方法滿足預(yù)設(shè)需求;或者
在所述純度驗證算法獲得的所述聚類結(jié)果的純度大于第二預(yù)設(shè)值時,確定所述聚類方法滿足所述預(yù)設(shè)需求。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
若所述第三距離的預(yù)測值小于兩倍的所述第一距離的預(yù)測值,則根據(jù)上一次更新后的所述第一聚類中心點對所述第二聚類中心點進行數(shù)據(jù)聚類處理。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)上一次更新后的所述第一聚類中心點對所述第二聚類中心點進行數(shù)據(jù)聚類處理,包括:
計算所述上一次更新后的所述第一聚類中心點與所述樣本點之間的距離,得到第一距離的實際值;
按照三角形不等式規(guī)則將所述第一距離的實際值與所述第三距離的預(yù)測值進行比較;
若所述第三距離的預(yù)測值大于或者等于兩倍的所述第一距離的實際值,則將所述第二聚類中心點丟棄,以便進行聚類距離遍歷時,不再計算所述樣本點與所述第二聚類中心點之間的距離以及所述第二聚類中心點與其他待遍歷聚 類中心點之間的距離;
若所述第三距離的預(yù)測值小于兩倍的所述第一距離的實際值,則計算第四距離,并確定所述第四距離是否小于所述第一距離的實際值;其中,所述第四距離為所述樣本點與所述第二聚類中心點的距離;
若所述第四距離小于所述第一距離的實際值,則將所述第二聚類中心點確定為當(dāng)前距離遍歷過程中與所述樣本點距離最近的聚類中心點;
若所述第四距離大于或者等于所述第一距離的實際值,則將所述上一次更新后的所述第一聚類中心點確定為當(dāng)前距離遍歷過程中與所述樣本點距離最近的聚類中心點。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述將所述第二聚類中心點確定為當(dāng)前距離遍歷過程中與所述樣本點距離最近的聚類中心點,包括:
若所述第四距離小于所述第一距離的實際值,并且當(dāng)前聚類距離遍歷完成,則將所述第二聚類中心點賦值給所述上一次更新后的所述第一聚類中心點,以及將所述第四距離賦值給所述第一距離的實際值;
若所述第四距離小于所述第一距離的實際值,并且當(dāng)前聚類距離遍歷未完成,則將所述第二聚類中心點賦值給所述上一次更新后的所述第一聚類中心點,以及將所述第四距離賦值給所述第一距離的實際值,并基于賦值后的第一聚類中心點及賦值后的第一距離的實際值繼續(xù)遍歷所述當(dāng)前聚類中心集中的下一個聚類中心點。
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,將所述上一次更新后的所述第一聚類中心點確定為當(dāng)前距離遍歷過程中與所述樣本點距離最近的聚類中心點,包括:
若所述第四距離大于或者等于所述第一距離的實際值,并且當(dāng)前聚類距離遍歷完成,則將所述上一次更新后的所述第一聚類中心點確定為當(dāng)前距離遍歷過程中與所述樣本點距離最近的聚類中心點;
若所述第四距離大于或者等于所述第一距離的實際值,并且當(dāng)前聚類距離 遍歷未完成,則基于所述上一次更新后的所述第一聚類中心點以及所述第一距離的實際值繼續(xù)遍歷所述當(dāng)前聚類中心集中的下一個聚類中心點。
8.根據(jù)權(quán)利要求6或7所述的方法,其特征在于,在計算第四距離之前,所述方法還包括:
計算第五距離,所述第五距離為所述第二聚類中心點與所述上一次更新后的所述第一聚類中心點之間的距離;
按照三角形不等式規(guī)則將所述第一距離的實際值與所述第五距離進行比較;
若所述第五距離大于或者等于兩倍的所述第一距離的實際值,則將所述第二聚類中心點丟棄,以便進行聚類遍歷時,不再計算所述樣本點與所述第二聚類中心點之間的距離以及所述第二聚類中心點與其他待遍歷聚類中心點之間的距離;
所述計算第四距離,包括:
若所述第五距離小于兩倍的所述第一距離的實際值,則執(zhí)行所述計算所述第四距離。
9.根據(jù)權(quán)利要求1-7中任一項所述的方法,其特征在于,所述根據(jù)第二距離、所述第一聚類中心點上一次更新前后的自身差值以及第二聚類中心點上一次更新前后的自身差值獲取第三距離的預(yù)測值,包括:
獲取所述第一聚類中心點上一次更新前對應(yīng)的值及更新后對應(yīng)的值,并計算所述第一聚類中心點更新前后之間的第一差值;
獲取所述第二聚類中心點上一次更新前對應(yīng)的值及更新后對應(yīng)的值,并計算所述第二聚類中心點更新前后之間的第二差值;
將所述第二距離與所述第一差值及所述第二差值進行減法計算,獲得所述第三距離的預(yù)測值。
10.一種人群聚類的裝置,其特征在于,包括:
獲得單元,用于獲得針對人群的樣本集以及所述樣本集的聚類中心集,所 述樣本集中每個樣本點包括人群中對應(yīng)的個人的描述信息,所述描述信息至少包括年齡信息、性別信息、愛好信息和消費金額信息;
聚類集獲得單元,用于針對所述樣本集中的每一個樣本點,依次遍歷聚類中心集中的每一個聚類中心點,確定所述每一個樣本點與所述聚類中心集中距離最近的聚類中心點,并將所述每一個樣本點劃分到所述聚類中心集中距離最近的聚類中心點對應(yīng)的集合中,獲得所述聚類中心集中的每一個聚類中心點對應(yīng)的聚類集;
平均值獲得單元,用于獲得所述聚類集中樣本點的平均值,并根據(jù)所述平均值更新所述聚類中心集;
第一獲取單元,用于根據(jù)第一聚類中心點上一次更新前后的自身差值獲取第一距離的預(yù)測值;其中,所述第一距離為需要進行數(shù)據(jù)聚類的樣本點與所述第一聚類中心點之間的距離,所述第一聚類中心點為聚類距離遍歷中與所述樣本點距離最近的聚類中心點;
第二獲取單元,用于根據(jù)第二距離、所述第一聚類中心點上一次更新前后的自身差值以及第二聚類中心點上一次更新前后的自身差值獲取第三距離的預(yù)測值,其中,所述第二距離為上一次聚類距離遍歷過程中所述第一聚類中心點與第二聚類中心點之間的距離,所述第二聚類中心點為當(dāng)前聚類距離遍歷過程中待遍歷的聚類中心點;
比較單元,用于按照三角形不等式規(guī)則將所述第一獲取單元獲取的所述第一距離的預(yù)測值與所述第二獲取單元獲取的所述第三距離的預(yù)測值進行比較;
丟棄單元,用于當(dāng)所述比較單元比較的所述第三距離的預(yù)測值大于或者等于兩倍的所述第一距離的預(yù)測值時,將所述第二聚類中心點丟棄,以便進行聚類距離遍歷時,不再計算所述樣本點與所述第二聚類中心點之間的距離以及所述第二聚類中心點與其他待遍歷聚類中心點之間的距離;
聚類結(jié)果獲得單元,用于基于已丟棄所述第二聚類中心點的聚類中心集進行所述距離遍歷,獲得所述樣本集的聚類結(jié)果,所述聚類結(jié)果包括以所述年齡 信息、所述性別信息、所述愛好信息和所述消費金額信息為基準(zhǔn)維度對所述人群中的每一個人進行聚類后的聚類信息。