基于分布式計算平臺的層次聚類改進(jìn)方法與流程

文檔序號：12034732閱讀：650來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于大數(shù)據(jù)聚類算法技術(shù)領(lǐng)域，特別是基于分布式計算平臺的層次聚類方法。

背景技術(shù)：

birch(balancediterativereducingandclusteringusinghierarchies)自其產(chǎn)生就受到了廣泛的關(guān)注，它克服了凝聚聚類方法所面臨的兩個困難：(1)可伸縮性；(2)不能撤銷先前步驟所做的工作。聚類算法birch來源于zhang、ramakrishnan和livny的工作，他們創(chuàng)建的birch算法的最終結(jié)果是建立一棵類似b樹的聚類特征樹。聚類特征cf(clusterfeature)是birch算法的核心概念。cf正是采用三元組(n，ls，ss)的方式才達(dá)到了壓縮數(shù)據(jù)集的效果，從而使birch算能夠在有限的內(nèi)存和低io開銷的情況下得以運(yùn)行。也正是源于birch算法的這些優(yōu)勢，越來越多的研究者也將目光投向了birch算法的并行化研究。

隨著大數(shù)據(jù)技術(shù)的快速發(fā)展和日漸成熟，目前的birch算法還是無法解決將散列數(shù)據(jù)聚合成統(tǒng)一的簇，仍依賴于輸入數(shù)據(jù)的順序，亟待一個良好的算法來解決這個存在的問題。

技術(shù)實現(xiàn)要素：

本發(fā)明的目的是提供一種適用于對大數(shù)據(jù)聚類的性能提高的有效執(zhí)行方法，以實現(xiàn)在當(dāng)今大數(shù)據(jù)時代對大數(shù)據(jù)挖掘聚類進(jìn)行更精準(zhǔn)性的操作，對以前的birch聚類算法輸入數(shù)據(jù)的處理，保證聚類的準(zhǔn)確及離群點處理。

基于分布式計算平臺的層次聚類改進(jìn)方法，包括，

s1、主節(jié)點和從節(jié)點上分別安裝有hadoop和spark集群，通過hdfs獲取數(shù)據(jù)；

s2、采用k-均值算法將數(shù)據(jù)聚類為n個簇，n的范圍為3～5的正整數(shù)；

s3、對n個簇進(jìn)行全排列，形成順序不同的n！個序列，再利用birch算法在spark平臺上計算，spark平臺利用分區(qū)的調(diào)配，并行化進(jìn)行計算；

s4、對s3的計算結(jié)果根據(jù)數(shù)據(jù)簇的緊密性進(jìn)行篩選，保留數(shù)據(jù)簇緊密性最好且離群點個數(shù)最少的一組數(shù)據(jù)，所述數(shù)據(jù)簇的緊密性指計算數(shù)據(jù)簇的中心點到數(shù)據(jù)簇各個點的距離和。

s3中所述利用birch算法在spark平臺上計算的具體過程為：程序被提交到spark平臺后，為程序分配資源，將程序轉(zhuǎn)換并執(zhí)行，程序中有多個任務(wù)，每個任務(wù)根據(jù)數(shù)據(jù)集的寬依賴關(guān)系切分為若干stage，每個stage中包含一組task，每個task對應(yīng)一個分區(qū)，最后task被封裝好后放入executor的線程池中進(jìn)行并行化計算。

本發(fā)明是一種適用于數(shù)據(jù)挖掘算法中層次聚類算法的改進(jìn)優(yōu)化方案，該方案基于k-均值算法和birch算法，首先對聚類數(shù)據(jù)使用k-均值算法進(jìn)行聚合分類，然后對處理后的數(shù)據(jù)進(jìn)行分簇排序，最后再利用birch算法進(jìn)行聚合，從而增強(qiáng)數(shù)據(jù)聚合的質(zhì)量，提高聚合效率。為大數(shù)據(jù)聚類再次打下基礎(chǔ)。

附圖說明

圖1為本發(fā)明基于分布式計算平臺的層次聚類改進(jìn)方法流程圖；

圖2為圖1實施例中并行化處理流程圖。

具體實施方式

為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白，以下結(jié)合附圖及實施例，對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解，此處所描述的具體實施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。

該基于spark平臺的針對于birch算法進(jìn)行改進(jìn)的方案，包含在以下具體步驟中：

步驟1、數(shù)據(jù)來源：平臺包括安裝有ubuntu系統(tǒng)的虛擬機(jī)集群，共三臺主機(jī)，一個主節(jié)點，兩個從節(jié)點。

步驟2、主節(jié)點和從節(jié)點分別安裝hadoop和spark集群，程序從hdfs上獲取給定的實驗數(shù)據(jù)。

步驟3、針對讀取的數(shù)據(jù)，首先利用k-均值算法，將數(shù)據(jù)粗略的聚類為n個簇，其中n為引入的參數(shù)，對于n的取值，取3,4,5最合適。

步驟4、針對n個簇，對數(shù)據(jù)進(jìn)行全排列，形成順序不同的n！個序列。

步驟5、將n！個序列依次利用birch算法在spark平臺上計算，spark平臺利用分區(qū)的調(diào)配，并行化進(jìn)行計算。

步驟6、記錄計算后的結(jié)果，進(jìn)行比較篩選。保留聚類效果最好的一組數(shù)據(jù)。

步驟2-2中對k-均值算法的結(jié)果進(jìn)行全排列，獲取到數(shù)據(jù)的所有排列序列，最后利用birch算法來處理，總能找到最優(yōu)的一組數(shù)據(jù)，有效的提高了聚類的質(zhì)量。

技術(shù)特征：

技術(shù)總結(jié)
本發(fā)明公開一種基于分布式計算平臺的層次聚類改進(jìn)方法，采用K?均值算法將數(shù)據(jù)聚類為N個簇，對N個簇進(jìn)行全排列，形成順序不同的N！個序列，再利用BIRCH算法在Spark平臺上計算，Spark平臺利用分區(qū)的調(diào)配，并行化進(jìn)行計算；根據(jù)數(shù)據(jù)簇的緊密性對結(jié)果進(jìn)行篩選，保留數(shù)據(jù)簇緊密性最好且離群點個數(shù)最少的一組數(shù)據(jù)。本發(fā)明增強(qiáng)數(shù)據(jù)聚合的質(zhì)量，提高了聚合效率。

技術(shù)研發(fā)人員：肖甫;劉磊;王少輝;沙樂天;王汝傳
受保護(hù)的技術(shù)使用者：南京郵電大學(xué)
技術(shù)研發(fā)日：2017.06.01
技術(shù)公布日：2017.10.24

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：肖甫;劉磊;王少輝;沙樂天;王汝傳
技術(shù)所有人：南京郵電大學(xué)
我是此專利的發(fā)明人

上一篇：分布式光伏遠(yuǎn)程設(shè)計SaaS系統(tǒng)及方法與流程
上一篇：基于軌跡編碼的軌跡查詢方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

層次聚類算法相關(guān)技術(shù)

層次聚類相關(guān)技術(shù)

層次聚類分析相關(guān)技術(shù)

層次聚類方法相關(guān)技術(shù)

層次聚類法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于分布式計算平臺的層次聚類改進(jìn)方法與流程