基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法
【專利摘要】本發(fā)明公開了一種基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法,提出了采用動態(tài)包圍盒最大間隙切分的獲得初始種子點的方法,即先在多維特征空間中計算數(shù)據(jù)的包圍盒,并將該包圍盒內(nèi)的數(shù)據(jù)點向最長軸進行投影,找出相鄰投影點最大間距位置對該包圍盒進行一分為二,如此遞歸,直到將整個空間切分成足夠多的子空間,最后計算出子空間的中心作為初始種子點;本發(fā)明還針對同一個聚類被碎化成多個類的現(xiàn)象,提出采用距離半徑分析法對聚類進行合并操作,能夠自適應的將碎分的各個類組建成一個完整的聚類。本發(fā)明可以避免隨機化種子點造成的遺漏現(xiàn)象,可以避免聚類碎化現(xiàn)象,有利于快速的獲得真實的聚類結(jié)果。
【專利說明】基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法
【技術領域】
[0001] 本發(fā)明涉及一種基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法,屬于數(shù)據(jù)挖 掘【技術領域】。
【背景技術】
[0002] 聚類(Clustering)是將一批現(xiàn)實或抽象的數(shù)據(jù)對象分組成為多個類或簇的過 程,是人們認識和探索事物之間內(nèi)在聯(lián)系的有效手段。通常采用的聚類方法有K-means、 IS0DATA和模糊聚類等。K-means是一種基于均方誤差(MSE)最小化準則的聚類方法,但此 類算法存在兩個主要缺陷:l)K-mean S需要事先確定確切的類別數(shù),但在實際應用中,很難 確定這個參數(shù);2)容易產(chǎn)生所謂的"壞單元" (dead unit)現(xiàn)象。如果某個初始聚類中心給 得不合適,將導致沒有任何輸入數(shù)據(jù)歸屬于該初始中心,該初始中心成為一個"壞單元"。為 了克服這些缺陷,研究者提出了競爭學習(Competitive Learning, CL)聚類算法,例如: 頻率敏感競爭學習算法(Frequency sensitive competitive algorithm, FSCL)米用減少 頻繁獲勝種子獲勝率的機制來解決壞單元問題;次勝者受罰競爭學習(Rival Penalizing Competitive Learning, RPCL)算法采用對次優(yōu)種子點的排斥機制將冗余種子點推離輸入 樣本空間,從而實現(xiàn)類別數(shù)目的自動確定;次勝者受罰的約束競爭學習(Rival penalized controlled competitive learning, RPCCL)是RPCL的改進,實現(xiàn)了反學習率的自動確定, 避免RPCL對反學習率敏感的缺陷問題;基于代價函數(shù)極小化準則的距離敏感(Distance sensitive DSRPL)算法。雖然這些改進的競爭學習算法提高了一些性能,但仍然存在收 斂性問題,另外由于算法中的排斥機制引起聚類中心定位偏差。競爭與合作學習的算法 (Competitive and cooperative learning, CCL)則引入合作機制,避免冗余種子點被排斥 出輸入樣本空間,同時又保證聚類中心的準確定位;同時CCL算法也避免了 RPCCL聚類算 法的不收斂性問題。但CCL算法仍然存在一些不可避免的問題:1)具有初始種子點敏感問 題。通常的聚類算法采用隨機化方法獲得初始種子點,導致算法迭代次數(shù)和聚類結(jié)果的不 穩(wěn)定;2)無法適用于分布不平衡的異構數(shù)據(jù),有些數(shù)據(jù)點稀少的聚類無法正確識別;3)聚 類結(jié)果碎化問題。CCL算法有時會導致本來屬于同一個聚類的數(shù)據(jù)被分解成為多個子類。 從直觀上來看,這些數(shù)據(jù)應該屬于同一個類別。
[0003] 以上這些問題的存在,影響CCL聚類算法的使用效果和實用價值,有必要對CCL算 法的這些缺陷進行改良。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的在于提供一種基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法, 對原始CCL聚類算法進行有針對性的改進,更加快速的獲得真實的聚類結(jié)果。
[0005] 為達到上述目的,本發(fā)明采用的技術方案如下:
[0006] 基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法,包括以下步驟:
[0007] 1)設定初始聚類類別數(shù)K ;
[0008] 2)對N個輸入數(shù)據(jù)進行分析,采用動態(tài)包圍盒最大間隙切分算法初始化K個種子 點,具體步驟如下:
[0009] 2-1)將輸入數(shù)據(jù)作為多維空間的點,計算能包含所有輸入數(shù)據(jù)的最小外包矩形;
[0010] 2-2)比較最小外包矩形各個維度上的長度,選擇長度最大對應的維度為切分軸;
[0011] 2-3)將所有輸入數(shù)據(jù)點投影到該切分軸,,然后將投影點按照由小到大的順序進 行排列;
[0012] 2-4)計算前后兩個相鄰投影點之間的距離,選擇距離最大的兩個相鄰投影點作為 切分位置,將輸入數(shù)據(jù)沿著該切分軸分成兩個子集;
[0013] 2-5)選擇所有子集中包圍盒體積最大的那個子集再次執(zhí)行步驟2-1) - 2-4),對 該子集進行一分為二;
[0014] 2-6)重復步驟2-5),直到獲得Κ個子集為止;
[0015] 2-7)計算所獲得的Κ個子集的幾何中心,作為初始種子點;
[0016] 3)令每個初始種子點的獲勝次數(shù)nk = 1,k = 0, . . .,Κ ;
[0017] 4)對于當前輸入數(shù)據(jù)Xi,計算指標函數(shù)I(j|Xi):
[0018]
【權利要求】
1.基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法,其特征在于,包括以下步驟: 1) 設定初始聚類類別數(shù)K; 2) 對N個輸入數(shù)據(jù)進行分析,采用動態(tài)包圍盒最大間隙切分算法初始化K個種子點,具 體步驟如下: 2-1)將輸入數(shù)據(jù)作為多維空間的點,計算能包含所有輸入數(shù)據(jù)的最小外包矩形; 2-2)比較最小外包矩形各個維度上的長度,選擇長度最大對應的維度為切分軸; 2-3)將所有輸入數(shù)據(jù)點投影到該切分軸,,然后將投影點按照由小到大的順序進行排 列; 2-4)計算前后兩個相鄰投影點之間的距離,選擇距離最大的兩個相鄰投影點作為切分 位置,將輸入數(shù)據(jù)沿著該切分軸分成兩個子集; 2-5)選擇所有子集中包圍盒體積最大的那個子集再次執(zhí)行步驟2-1) - 2-4),對該子 集進行一分為二; 2-6)重復步驟2-5),直到獲得K個子集為止; 2-7)計算所獲得的K個子集的幾何中心,作為初始種子點; 3) 令每個初始種子點的獲勝次數(shù)nk = 1,k = 0,. . .,K ; 4) 對于當前輸入數(shù)據(jù)Xi,計算指標函數(shù)I(j|xi):
其中,cp表示第p個種子點,rp表示第p個種子點的相對獲勝率,
np為第p個種子點的獲勝次數(shù), 找出滿足指標函數(shù)I (j I Xi) = 1的種子點,記為獲勝種子點cw; 5) 查找以獲勝種子點cw為中心,以| |cw_Xi| |為半徑的圓內(nèi)的所有種子點,形成合作群 體; 6) 對合作群體內(nèi)的所有種子點按如下公式進行更新:
其中,表示更新前的種子點,cr表示更新后的種子點,n為學習率參數(shù); 7) 按下式更新獲勝種子點cw的獲勝次數(shù),
其中,為更新前獲勝種子點Cw的獲勝次數(shù),《:Γ為更新后獲勝種子點Cw的獲勝次 數(shù); 8) 重復步驟4)一步驟7),直到種子點不再變化; 9) 剔除重復種子點; 10) 進行聚類合并操作,形成最終聚類結(jié)果: 假設完成迭代和重復種子點刪除之后,最終得到Μ個種子點,稱為聚類中心,記為dm,m =1…M,M< K,然后將每個輸入數(shù)據(jù)標記為所屬的聚類中心,聚類合并的具體操作如下: 10-1)根據(jù)輸入數(shù)據(jù)所屬的聚類中心的標記信息Lab (Xi),計算每個聚類中心所能覆蓋 的半徑 Rm, m = 1···Μ ; 10-2)取出兩個聚類中心d,和dt,q e [1,Μ],t e [1,Μ],且滿足q < t,計算它們之間 的歐式距離Dqt,若滿足下列條件: Dqt彡Rq或者Dqt彡Rt 則將輸入數(shù)據(jù)中標記信息Lab (Xi)為t的輸入數(shù)據(jù)都重新標記為q,即將t類合并到q 類; 10-3)對所有的兩個聚類中心進行所述步驟10-2)的操作,直到?jīng)]有可合并的聚類為 止; 10-4)重新計算經(jīng)合并后的各個類的聚類中心,獲得最終Η個(HSM)聚類中心。
2. 根據(jù)權利要求1所述的基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法,其特征 在于,所述步驟1)中所述初始聚類類別數(shù)Κ遠大于實際類別數(shù)Κ'
3. 根據(jù)權利要求1所述的基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法,其特征 在于,所述步驟6)中學習率參數(shù)η的取值為0.001。
4. 根據(jù)權利要求1所述的基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法,其特征 在于,所述步驟9)中剔除重復種子點是指將收斂到相同的位置的多個種子點進行刪除,只 保留其中的一個。
5. 根據(jù)權利要求1所述的基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法,其特征 在于,所述步驟10)中,將每個輸入數(shù)據(jù)標記為所屬的聚類中心是指對所有的輸入數(shù)據(jù) Xi, 計算它與哪個聚類中心最近,假設Xi與第s個聚類中心最近,則將Xi的標記Lab (Xi)置為 s,表示該輸入數(shù)據(jù)屬于第s個聚類中心: Lcib (x^) - s〇
6. 根據(jù)權利要求1所述的基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法,其特征 在于,所述步驟10-1)中,半徑Rm的計算方法為:求出第m個聚類中心與屬于該聚類中心的 所有輸入數(shù)據(jù)間的距離值,取其中的最大值作為半徑R m。
【文檔編號】G06F17/30GK104143009SQ201410419179
【公開日】2014年11月12日 申請日期:2014年8月22日 優(yōu)先權日:2014年8月22日
【發(fā)明者】陳仁喜, 周紹光 申請人:河海大學