基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法

文檔序號：6624448閱讀：291來源：國知局

基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法
【專利摘要】本發(fā)明公開了一種基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法，提出了采用動態(tài)包圍盒最大間隙切分的獲得初始種子點的方法，即先在多維特征空間中計算數(shù)據(jù)的包圍盒，并將該包圍盒內(nèi)的數(shù)據(jù)點向最長軸進行投影，找出相鄰投影點最大間距位置對該包圍盒進行一分為二，如此遞歸，直到將整個空間切分成足夠多的子空間，最后計算出子空間的中心作為初始種子點；本發(fā)明還針對同一個聚類被碎化成多個類的現(xiàn)象，提出采用距離半徑分析法對聚類進行合并操作，能夠自適應的將碎分的各個類組建成一個完整的聚類。本發(fā)明可以避免隨機化種子點造成的遺漏現(xiàn)象，可以避免聚類碎化現(xiàn)象，有利于快速的獲得真實的聚類結(jié)果。
【專利說明】基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法

【技術領域】
[0001] 本發(fā)明涉及一種基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法，屬于數(shù)據(jù)挖掘【技術領域】。

【背景技術】
[0002] 聚類（Clustering)是將一批現(xiàn)實或抽象的數(shù)據(jù)對象分組成為多個類或簇的過程，是人們認識和探索事物之間內(nèi)在聯(lián)系的有效手段。通常采用的聚類方法有K-means、 IS0DATA和模糊聚類等。K-means是一種基于均方誤差（MSE)最小化準則的聚類方法，但此類算法存在兩個主要缺陷：l)K-mean S需要事先確定確切的類別數(shù)，但在實際應用中，很難確定這個參數(shù)；2)容易產(chǎn)生所謂的"壞單元" (dead unit)現(xiàn)象。如果某個初始聚類中心給得不合適，將導致沒有任何輸入數(shù)據(jù)歸屬于該初始中心，該初始中心成為一個"壞單元"。為了克服這些缺陷，研究者提出了競爭學習（Competitive Learning, CL)聚類算法，例如：頻率敏感競爭學習算法（Frequency sensitive competitive algorithm, FSCL)米用減少頻繁獲勝種子獲勝率的機制來解決壞單元問題；次勝者受罰競爭學習（Rival Penalizing Competitive Learning, RPCL)算法采用對次優(yōu)種子點的排斥機制將冗余種子點推離輸入樣本空間，從而實現(xiàn)類別數(shù)目的自動確定；次勝者受罰的約束競爭學習（Rival penalized controlled competitive learning, RPCCL)是RPCL的改進，實現(xiàn)了反學習率的自動確定，避免RPCL對反學習率敏感的缺陷問題；基于代價函數(shù)極小化準則的距離敏感（Distance sensitive DSRPL)算法。雖然這些改進的競爭學習算法提高了一些性能，但仍然存在收斂性問題，另外由于算法中的排斥機制引起聚類中心定位偏差。競爭與合作學習的算法 (Competitive and cooperative learning, CCL)則引入合作機制，避免冗余種子點被排斥出輸入樣本空間，同時又保證聚類中心的準確定位；同時CCL算法也避免了 RPCCL聚類算法的不收斂性問題。但CCL算法仍然存在一些不可避免的問題：1)具有初始種子點敏感問題。通常的聚類算法采用隨機化方法獲得初始種子點，導致算法迭代次數(shù)和聚類結(jié)果的不穩(wěn)定；2)無法適用于分布不平衡的異構數(shù)據(jù)，有些數(shù)據(jù)點稀少的聚類無法正確識別；3)聚類結(jié)果碎化問題。CCL算法有時會導致本來屬于同一個聚類的數(shù)據(jù)被分解成為多個子類。從直觀上來看，這些數(shù)據(jù)應該屬于同一個類別。
[0003] 以上這些問題的存在，影響CCL聚類算法的使用效果和實用價值，有必要對CCL算法的這些缺陷進行改良。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的在于提供一種基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法，對原始CCL聚類算法進行有針對性的改進，更加快速的獲得真實的聚類結(jié)果。
[0005] 為達到上述目的，本發(fā)明采用的技術方案如下：
[0006] 基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法，包括以下步驟：
[0007] 1)設定初始聚類類別數(shù)K ;
[0008] 2)對N個輸入數(shù)據(jù)進行分析，采用動態(tài)包圍盒最大間隙切分算法初始化K個種子點，具體步驟如下：
[0009] 2-1)將輸入數(shù)據(jù)作為多維空間的點，計算能包含所有輸入數(shù)據(jù)的最小外包矩形；
[0010] 2-2)比較最小外包矩形各個維度上的長度，選擇長度最大對應的維度為切分軸；
[0011] 2-3)將所有輸入數(shù)據(jù)點投影到該切分軸，，然后將投影點按照由小到大的順序進行排列；
[0012] 2-4)計算前后兩個相鄰投影點之間的距離，選擇距離最大的兩個相鄰投影點作為切分位置，將輸入數(shù)據(jù)沿著該切分軸分成兩個子集；
[0013] 2-5)選擇所有子集中包圍盒體積最大的那個子集再次執(zhí)行步驟2-1) - 2-4)，對該子集進行一分為二；
[0014] 2-6)重復步驟2-5)，直到獲得Κ個子集為止；
[0015] 2-7)計算所獲得的Κ個子集的幾何中心，作為初始種子點；
[0016] 3)令每個初始種子點的獲勝次數(shù)nk = 1，k = 0, . . .，Κ ;
[0017] 4)對于當前輸入數(shù)據(jù)Xi，計算指標函數(shù)I(j|Xi):
[0018]

【權利要求】
1.基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法，其特征在于，包括以下步驟： 1) 設定初始聚類類別數(shù)K; 2) 對N個輸入數(shù)據(jù)進行分析，采用動態(tài)包圍盒最大間隙切分算法初始化K個種子點，具體步驟如下： 2-1)將輸入數(shù)據(jù)作為多維空間的點，計算能包含所有輸入數(shù)據(jù)的最小外包矩形； 2-2)比較最小外包矩形各個維度上的長度，選擇長度最大對應的維度為切分軸； 2-3)將所有輸入數(shù)據(jù)點投影到該切分軸，，然后將投影點按照由小到大的順序進行排列； 2-4)計算前后兩個相鄰投影點之間的距離，選擇距離最大的兩個相鄰投影點作為切分位置，將輸入數(shù)據(jù)沿著該切分軸分成兩個子集； 2-5)選擇所有子集中包圍盒體積最大的那個子集再次執(zhí)行步驟2-1) - 2-4)，對該子集進行一分為二； 2-6)重復步驟2-5)，直到獲得K個子集為止； 2-7)計算所獲得的K個子集的幾何中心，作為初始種子點； 3) 令每個初始種子點的獲勝次數(shù)nk = 1，k = 0,. . .，K ; 4) 對于當前輸入數(shù)據(jù)Xi,計算指標函數(shù)I(j|xi):
其中，cp表示第p個種子點，rp表示第p個種子點的相對獲勝率，
np為第p個種子點的獲勝次數(shù)，找出滿足指標函數(shù)I (j I Xi) = 1的種子點，記為獲勝種子點cw; 5) 查找以獲勝種子點cw為中心，以| |cw_Xi| |為半徑的圓內(nèi)的所有種子點，形成合作群體； 6) 對合作群體內(nèi)的所有種子點按如下公式進行更新：
其中，表示更新前的種子點，cr表示更新后的種子點，n為學習率參數(shù)； 7) 按下式更新獲勝種子點cw的獲勝次數(shù)，
其中，為更新前獲勝種子點Cw的獲勝次數(shù)，《：Γ為更新后獲勝種子點Cw的獲勝次數(shù)； 8) 重復步驟4)一步驟7)，直到種子點不再變化； 9) 剔除重復種子點； 10) 進行聚類合并操作，形成最終聚類結(jié)果：假設完成迭代和重復種子點刪除之后，最終得到Μ個種子點，稱為聚類中心，記為dm，m =1…M，M< K，然后將每個輸入數(shù)據(jù)標記為所屬的聚類中心，聚類合并的具體操作如下： 10-1)根據(jù)輸入數(shù)據(jù)所屬的聚類中心的標記信息Lab (Xi)，計算每個聚類中心所能覆蓋的半徑 Rm, m = 1···Μ ; 10-2)取出兩個聚類中心d,和dt，q e [1，Μ]，t e [1，Μ]，且滿足q < t，計算它們之間的歐式距離Dqt，若滿足下列條件： Dqt彡Rq或者Dqt彡Rt 則將輸入數(shù)據(jù)中標記信息Lab (Xi)為t的輸入數(shù)據(jù)都重新標記為q，即將t類合并到q 類； 10-3)對所有的兩個聚類中心進行所述步驟10-2)的操作，直到?jīng)]有可合并的聚類為止； 10-4)重新計算經(jīng)合并后的各個類的聚類中心，獲得最終Η個（HSM)聚類中心。
2. 根據(jù)權利要求1所述的基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法，其特征在于，所述步驟1)中所述初始聚類類別數(shù)Κ遠大于實際類別數(shù)Κ'
3. 根據(jù)權利要求1所述的基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法，其特征在于，所述步驟6)中學習率參數(shù)η的取值為0.001。
4. 根據(jù)權利要求1所述的基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法，其特征在于，所述步驟9)中剔除重復種子點是指將收斂到相同的位置的多個種子點進行刪除，只保留其中的一個。
5. 根據(jù)權利要求1所述的基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法，其特征在于，所述步驟10)中，將每個輸入數(shù)據(jù)標記為所屬的聚類中心是指對所有的輸入數(shù)據(jù) Xi，計算它與哪個聚類中心最近，假設Xi與第s個聚類中心最近，則將Xi的標記Lab (Xi)置為 s，表示該輸入數(shù)據(jù)屬于第s個聚類中心： Lcib (x^) - s〇
6. 根據(jù)權利要求1所述的基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法，其特征在于，所述步驟10-1)中，半徑Rm的計算方法為：求出第m個聚類中心與屬于該聚類中心的所有輸入數(shù)據(jù)間的距離值，取其中的最大值作為半徑R m。
【文檔編號】G06F17/30GK104143009SQ201410419179
【公開日】2014年11月12日申請日期:2014年8月22日優(yōu)先權日:2014年8月22日
【發(fā)明者】陳仁喜, 周紹光申請人:河海大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：陳仁喜;周紹光
技術所有人：河海大學
我是此專利的發(fā)明人

上一篇：觸控顯示裝置及其驅(qū)動方法
上一篇：應用軟件的安裝方法和應用軟件的安裝裝置制造方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于動態(tài)包圍盒最大間隙切分的競爭合作聚類方法