技術(shù)特征:
技術(shù)總結(jié)
本發(fā)明提供一種基于MapReduce的大規(guī)模數(shù)據(jù)分布式聚類處理方法,包括對大規(guī)模數(shù)據(jù)以等規(guī)模不重復(fù)的原則進(jìn)行抽樣;向MapReduce分布式并行框架輸入抽樣數(shù)據(jù)并計算抽樣數(shù)據(jù)的局部密度和平均密度;找出局部密度大于平均密度的所有抽樣數(shù)據(jù)作為每個簇的初始聚類中心點的候選點集合并反饋給主節(jié)點,選取每兩個相鄰候選點之間距離大于2倍設(shè)定范圍的所有候選點作為初始聚類中心點;利用MapReduce分布式并行框架進(jìn)行并行聚類任務(wù),針對每個簇計算數(shù)據(jù)間距離的平均值來更新聚類中心點;子節(jié)點應(yīng)用誤差平方和準(zhǔn)則函數(shù)判斷是否繼續(xù)迭代;各子節(jié)點根據(jù)聚類中心點對大規(guī)模數(shù)據(jù)進(jìn)行聚類。本發(fā)明實現(xiàn)并行聚類,減少聚類迭代次數(shù),提高聚類準(zhǔn)確率和并行聚類效率。
技術(shù)研發(fā)人員:高天寒;孔雪
受保護(hù)的技術(shù)使用者:東北大學(xué)
技術(shù)研發(fā)日:2017.06.02
技術(shù)公布日:2017.10.24