基于空間最短距離平均的密度自適應(yīng)無監(jiān)督聚類方法
【專利摘要】本發(fā)明公開一種基于空間最短距離平均的密度自適應(yīng)無監(jiān)督聚類方法,步驟如下:計(jì)算空間中任意兩點(diǎn)間最短距離平均,生成距離矩陣;根據(jù)距離密度和矩陣用遞歸擴(kuò)散的方法尋找高密聚類區(qū);根據(jù)最短距離平均倍數(shù)系數(shù)步長調(diào)整距離密度范圍;根據(jù)設(shè)定的最小聚類數(shù)和最大聚類數(shù)穩(wěn)定寬度判斷聚類過程是否結(jié)束;根據(jù)在不同密度范圍下得到的聚類數(shù),按照聚類密度變化的次序?qū)垲悢?shù)繪制曲線;根據(jù)聚類數(shù)變化曲線中的聚類數(shù)穩(wěn)定窗口識(shí)別主要聚類和離群點(diǎn);根據(jù)聚類數(shù)變化曲線中聚類數(shù)穩(wěn)定區(qū)域出現(xiàn)的先后次序繪制聚類層次樹圖;根據(jù)聚類層次樹圖差分計(jì)算出不同層次的聚類,得到最終的聚類及離群點(diǎn)。
【專利說明】基于空間最短距離平均的密度自適應(yīng)無監(jiān)督聚類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】,具體涉及一種適應(yīng)性廣泛、能自主識(shí)別聚類的基于空間最短距離平均的密度自適應(yīng)無監(jiān)督聚類方法。
【背景技術(shù)】
[0002]隨著計(jì)算機(jī)和通信技術(shù)的發(fā)展及其應(yīng)用的普及,每時(shí)每刻都在產(chǎn)生大量的數(shù)據(jù),對(duì)大數(shù)據(jù)進(jìn)行處理、挖掘并發(fā)現(xiàn)有用的信息是一個(gè)重要的課題。從人類認(rèn)知客觀事物并獲得有效信息的角度,聚類是一種非常有效的學(xué)習(xí)和認(rèn)知手段,同樣對(duì)數(shù)據(jù)進(jìn)行聚類挖掘也是計(jì)算機(jī)獲得有效認(rèn)知的一種重要手段。目前已經(jīng)存在的一些聚類技術(shù),往往缺乏足夠的可適應(yīng)性,對(duì)形狀、密度等聚類特征有特定的要求,同時(shí)對(duì)聚類存在的自主發(fā)現(xiàn)也存在著一定的困難,往往需要輔助的指標(biāo)判斷或用人工干預(yù)的辦法進(jìn)行不斷的嘗試。
【發(fā)明內(nèi)容】
[0003]本發(fā)明是為了解決現(xiàn)有技術(shù)所存在的上述技術(shù)問題,提供一種適應(yīng)性廣泛、能自主識(shí)別聚類的基于空間最短距離平均的密度自適應(yīng)無監(jiān)督聚類方法。
[0004]本發(fā)明的技術(shù)解決方案是:一種基于空間最短距離平均的密度自適應(yīng)無監(jiān)督聚類方法,其特征在于按照如下步驟進(jìn)行:
a.計(jì)算空間中任意兩點(diǎn)間最短距離平均,同時(shí)生成距離矩陣;
b.根據(jù)距離密度和距離矩陣采用遞歸擴(kuò)散的方法尋找高密聚類區(qū);
c.根據(jù)最短距離平均倍數(shù)系數(shù)步長調(diào)整距`離密度范圍,適應(yīng)不同密度聚類區(qū);
d.根據(jù)設(shè)定的最小聚類數(shù)和最大聚類數(shù)穩(wěn)定寬度判斷聚類過程是否結(jié)束;
e.根據(jù)在不同密度范圍下得到的聚類數(shù),按照聚類密度變化的次序?qū)垲悢?shù)繪制曲
線.f.根據(jù)聚類數(shù)變化曲線中的聚類數(shù)穩(wěn)定窗口識(shí)別主要聚類和離群點(diǎn);
g.根據(jù)聚類數(shù)變化曲線中聚類數(shù)穩(wěn)定區(qū)域出現(xiàn)的先后次序繪制聚類層次樹圖;
h.根據(jù)聚類層次樹圖差分計(jì)算出不同層次的聚類,得到最終的聚類及離群點(diǎn)。
所述a步驟如下:
對(duì)空間中的每一點(diǎn)尋找到其他點(diǎn)的最短距離,將尋找過程中計(jì)算得到的距離記入距離矩陣,最后根據(jù)所有點(diǎn)的最短距離求平均值得到最短距離平均
_ ;最短距離平均-定義如下:
【權(quán)利要求】
1.一種基于空間最短距離平均的密度自適應(yīng)無監(jiān)督聚類方法,其特征在于按照如下步驟進(jìn)行: a.計(jì)算空間中任意兩點(diǎn)間最短距離平均,同時(shí)生成距離矩陣; b.根據(jù)距離密度和距離矩陣采用遞歸擴(kuò)散的方法尋找高密聚類區(qū); c.根據(jù)最短距離平均倍數(shù)系數(shù)步長調(diào)整距離密度范圍,適應(yīng)不同密度聚類區(qū); d.根據(jù)設(shè)定的最小聚類數(shù)和最大聚類數(shù)穩(wěn)定寬度判斷聚類過程是否結(jié)束; e.根據(jù)在不同密度范圍下得到的聚類數(shù),按照聚類密度變化的次序?qū)垲悢?shù)繪制曲線.f.根據(jù)聚類數(shù)變化曲線中的聚類數(shù)穩(wěn)定窗口識(shí)別主要聚類和離群點(diǎn); g.根據(jù)聚類數(shù)變化曲線中聚類數(shù)穩(wěn)定區(qū)域出現(xiàn)的先后次序繪制聚類層次樹圖; h.根據(jù)聚類層次樹圖差分計(jì)算出不同層次的聚類,得到最終的聚類及離群點(diǎn)。
2.根據(jù)權(quán)利要求1所述基于空間最短距離平均的密度自適應(yīng)無監(jiān)督聚類方法,其特征在于所述a步驟如下: 對(duì)空間中的每一點(diǎn)尋找到其他點(diǎn)的最短距離,將尋找過程中計(jì)算得到的距離記入距離矩陣,最后根據(jù)所有點(diǎn)的最短距離求平均值得到最短距離平均5 ;最短距離平均(?定義如下:
3.根據(jù)權(quán)利要求2所述基于空間最短距離平均的密度自適應(yīng)無監(jiān)督聚類方法,其特征在于所述b步驟如下:從空間中任意點(diǎn)開始,通過比對(duì)基于最短距離平均的密度范圍和兩點(diǎn)間的距離遞歸尋找與自己鄰近的高密點(diǎn),跳過已標(biāo)記聚類的點(diǎn)和低密點(diǎn)。
4.根據(jù)權(quán)利要求3所述基于空間最短距離平均的密度自適應(yīng)無監(jiān)督聚類方法,其特征在于所述c步驟如下:根據(jù)設(shè)定的步長對(duì)最短距離平均的倍數(shù)系數(shù)進(jìn)行調(diào)整,逐步擴(kuò)大點(diǎn)間聚類的距離范圍,用來適應(yīng)同一聚類內(nèi)部密度不均勻的情況,同時(shí)保證不同聚類間的區(qū)別,聚類密度G定義為:
5.根據(jù)權(quán)利要求4所述基于空間最短距離平均的密度自適應(yīng)無監(jiān)督聚類方法,其特征在于所述d步驟如下:設(shè)定最小分類個(gè)數(shù)作為聚類過程的結(jié)束條件,或者把聚類過程中聚類個(gè)數(shù)相對(duì)穩(wěn)定的次數(shù)稱為聚類穩(wěn)定窗口,當(dāng)聚類穩(wěn)定窗口寬度大于所設(shè)定的最大聚類穩(wěn)定窗口寬度時(shí)聚類過程結(jié)束,其中最小分類個(gè)數(shù)定義為Cmin,聚類穩(wěn)定窗口最大寬度定義/V max ο
【文檔編號(hào)】G06F19/00GK103761419SQ201310735562
【公開日】2014年4月30日 申請(qǐng)日期:2013年12月28日 優(yōu)先權(quán)日:2013年12月28日
【發(fā)明者】張大為, 項(xiàng)明 申請(qǐng)人:遼寧師范大學(xué)