技術總結
本發(fā)明公開了一種基于分布式計算平臺改進的k均值聚類方法,針對海量數(shù)據(jù)處理慢的問題引入了分布式計算平臺Spark的,針對迭代次數(shù)過多的問題,引入卡洛斯卡爾算法,針對沒有考慮向量各特征間的相關性,引入谷本距離。首先,通過克洛斯卡爾算法來對隨機選取的k個點來構造最小生成樹并求出對應的權值和,重復n次,然后按照這n次得到的權值和,從中選取出最大的權值和并且確保由k個點組成的邊之間的距離值相差不大,這樣可以保證簇心相對均勻分布,最后使用經(jīng)谷本距離改進后的k均值算法進行聚類運算。
技術研發(fā)人員:紀小展;張成;徐平平;戴磊
受保護的技術使用者:上海凌科智能科技有限公司
文檔號碼:201610541225
技術研發(fā)日:2016.07.11
技術公布日:2016.12.07