亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于分布式計算平臺的層次聚類改進(jìn)方法與流程

文檔序號:12034732閱讀:650來源:國知局
基于分布式計算平臺的層次聚類改進(jìn)方法與流程

本發(fā)明屬于大數(shù)據(jù)聚類算法技術(shù)領(lǐng)域,特別是基于分布式計算平臺的層次聚類方法。



背景技術(shù):

birch(balancediterativereducingandclusteringusinghierarchies)自其產(chǎn)生就受到了廣泛的關(guān)注,它克服了凝聚聚類方法所面臨的兩個困難:(1)可伸縮性;(2)不能撤銷先前步驟所做的工作。聚類算法birch來源于zhang、ramakrishnan和livny的工作,他們創(chuàng)建的birch算法的最終結(jié)果是建立一棵類似b樹的聚類特征樹。聚類特征cf(clusterfeature)是birch算法的核心概念。cf正是采用三元組(n,ls,ss)的方式才達(dá)到了壓縮數(shù)據(jù)集的效果,從而使birch算能夠在有限的內(nèi)存和低io開銷的情況下得以運(yùn)行。也正是源于birch算法的這些優(yōu)勢,越來越多的研究者也將目光投向了birch算法的并行化研究。

隨著大數(shù)據(jù)技術(shù)的快速發(fā)展和日漸成熟,目前的birch算法還是無法解決將散列數(shù)據(jù)聚合成統(tǒng)一的簇,仍依賴于輸入數(shù)據(jù)的順序,亟待一個良好的算法來解決這個存在的問題。



技術(shù)實現(xiàn)要素:

本發(fā)明的目的是提供一種適用于對大數(shù)據(jù)聚類的性能提高的有效執(zhí)行方法,以實現(xiàn)在當(dāng)今大數(shù)據(jù)時代對大數(shù)據(jù)挖掘聚類進(jìn)行更精準(zhǔn)性的操作,對以前的birch聚類算法輸入數(shù)據(jù)的處理,保證聚類的準(zhǔn)確及離群點處理。

基于分布式計算平臺的層次聚類改進(jìn)方法,包括,

s1、主節(jié)點和從節(jié)點上分別安裝有hadoop和spark集群,通過hdfs獲取數(shù)據(jù);

s2、采用k-均值算法將數(shù)據(jù)聚類為n個簇,n的范圍為3~5的正整數(shù);

s3、對n個簇進(jìn)行全排列,形成順序不同的n!個序列,再利用birch算法在spark平臺上計算,spark平臺利用分區(qū)的調(diào)配,并行化進(jìn)行計算;

s4、對s3的計算結(jié)果根據(jù)數(shù)據(jù)簇的緊密性進(jìn)行篩選,保留數(shù)據(jù)簇緊密性最好且離群點個數(shù)最少的一組數(shù)據(jù),所述數(shù)據(jù)簇的緊密性指計算數(shù)據(jù)簇的中心點到數(shù)據(jù)簇各個點的距離和。

s3中所述利用birch算法在spark平臺上計算的具體過程為:程序被提交到spark平臺后,為程序分配資源,將程序轉(zhuǎn)換并執(zhí)行,程序中有多個任務(wù),每個任務(wù)根據(jù)數(shù)據(jù)集的寬依賴關(guān)系切分為若干stage,每個stage中包含一組task,每個task對應(yīng)一個分區(qū),最后task被封裝好后放入executor的線程池中進(jìn)行并行化計算。

本發(fā)明是一種適用于數(shù)據(jù)挖掘算法中層次聚類算法的改進(jìn)優(yōu)化方案,該方案基于k-均值算法和birch算法,首先對聚類數(shù)據(jù)使用k-均值算法進(jìn)行聚合分類,然后對處理后的數(shù)據(jù)進(jìn)行分簇排序,最后再利用birch算法進(jìn)行聚合,從而增強(qiáng)數(shù)據(jù)聚合的質(zhì)量,提高聚合效率。為大數(shù)據(jù)聚類再次打下基礎(chǔ)。

附圖說明

圖1為本發(fā)明基于分布式計算平臺的層次聚類改進(jìn)方法流程圖;

圖2為圖1實施例中并行化處理流程圖。

具體實施方式

為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。

該基于spark平臺的針對于birch算法進(jìn)行改進(jìn)的方案,包含在以下具體步驟中:

步驟1、數(shù)據(jù)來源:平臺包括安裝有ubuntu系統(tǒng)的虛擬機(jī)集群,共三臺主機(jī),一個主節(jié)點,兩個從節(jié)點。

步驟2、主節(jié)點和從節(jié)點分別安裝hadoop和spark集群,程序從hdfs上獲取給定的實驗數(shù)據(jù)。

步驟3、針對讀取的數(shù)據(jù),首先利用k-均值算法,將數(shù)據(jù)粗略的聚類為n個簇,其中n為引入的參數(shù),對于n的取值,取3,4,5最合適。

步驟4、針對n個簇,對數(shù)據(jù)進(jìn)行全排列,形成順序不同的n!個序列。

步驟5、將n!個序列依次利用birch算法在spark平臺上計算,spark平臺利用分區(qū)的調(diào)配,并行化進(jìn)行計算。

步驟6、記錄計算后的結(jié)果,進(jìn)行比較篩選。保留聚類效果最好的一組數(shù)據(jù)。

步驟2-2中對k-均值算法的結(jié)果進(jìn)行全排列,獲取到數(shù)據(jù)的所有排列序列,最后利用birch算法來處理,總能找到最優(yōu)的一組數(shù)據(jù),有效的提高了聚類的質(zhì)量。



技術(shù)特征:

技術(shù)總結(jié)
本發(fā)明公開一種基于分布式計算平臺的層次聚類改進(jìn)方法,采用K?均值算法將數(shù)據(jù)聚類為N個簇,對N個簇進(jìn)行全排列,形成順序不同的N!個序列,再利用BIRCH算法在Spark平臺上計算,Spark平臺利用分區(qū)的調(diào)配,并行化進(jìn)行計算;根據(jù)數(shù)據(jù)簇的緊密性對結(jié)果進(jìn)行篩選,保留數(shù)據(jù)簇緊密性最好且離群點個數(shù)最少的一組數(shù)據(jù)。本發(fā)明增強(qiáng)數(shù)據(jù)聚合的質(zhì)量,提高了聚合效率。

技術(shù)研發(fā)人員:肖甫;劉磊;王少輝;沙樂天;王汝傳
受保護(hù)的技術(shù)使用者:南京郵電大學(xué)
技術(shù)研發(fā)日:2017.06.01
技術(shù)公布日:2017.10.24
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1