專利名稱:一種改進親和矩陣的多路譜聚類方法
技術(shù)領(lǐng)域:
本發(fā)明屬于聚類分析技術(shù)領(lǐng)域,尤其涉及一種改進親和矩陣的多路譜聚類方法。
背景技術(shù):
聚類分析是數(shù)據(jù)挖掘研究和應用中的一個重要部分,在模式識別和人工智能等領(lǐng) 域,聚類方法又被稱為一種無監(jiān)督的學習。聚類分析是將數(shù)據(jù)對象分組成多個類或多個簇, 在同一個簇中的對象具有較高的相似度,而不同簇中的對象差別較大。傳統(tǒng)的聚類分析方 法,如K-means、EM等都是建立在凸球形的樣本空間上,當樣本空間非凸時,該方法易陷入 局部最優(yōu)。為了能在任意形狀的樣本空間上聚類,且收斂于全局最優(yōu),一類新型的聚類方 法-譜聚類被提出。譜聚類根據(jù)樣本間的相似關(guān)系建立親和矩陣,通過求解拉普拉斯矩陣 的特征向量找出數(shù)據(jù)樣本間的內(nèi)在聯(lián)系。與傳統(tǒng)的聚類方法相比,譜聚類不含有凸球形數(shù) 據(jù)分布的隱性假設,從而能夠識別非凸類型的簇;因此,譜聚類已被廣泛應用于圖像分割、 計算機視覺、語音識別、VLSI設計等領(lǐng)域。按照劃分準則不同已有的譜聚類方法可以分為 兩種,一種是利用2iay劃分準則迭代地對樣本數(shù)據(jù)進行聚類;另一種是利用kiay劃分準 則,使用更多的特征向量直接計算k路分割,即多路譜聚類方法。由于多路譜聚類NJW方法 穩(wěn)定性好,得到的聚類效果更好,因此成為最常用的譜聚類方法之一。但是在多路譜聚類方 法中,聚類個數(shù)K的選擇及特征向量的選擇不當都會直接影響聚類結(jié)果的準確性。理想情 況下,如果一個數(shù)據(jù)集中包含k個聚簇,且聚簇內(nèi)部分布得越密,各聚簇間分布得越開時, 其對應的拉普拉斯矩陣的前k個最大特征值均為1,后面的第k+Ι個特征值會遠小于1,這 樣第k+Ι個特征值與第k個特征值之間就存在一個較大的差值,稱為eigengap,直接選擇前 k個特征值對應的特征向量進行求解,可以得到準確的劃分結(jié)果;而在普通情況下,數(shù)據(jù)集 分布不一定滿足上述理想情況,此時親和矩陣的塊結(jié)構(gòu)被噪聲損壞,根據(jù)矩陣擾動理論,如 果親和矩陣的擾動很小,則拉普拉斯矩陣L的前k個特征值接近1,第k+Ι個特征值λ k+1 遠遠偏離1 ;擾動后的拉普拉斯矩陣L的特征向量和擾動前的拉普拉斯矩陣L的特征向量 接近,此時直接選擇前k個特征值對應的特征向量進行求解,也可以得到準確的劃分結(jié)果。對于分布結(jié)構(gòu)復雜的數(shù)據(jù)集本身,用傳統(tǒng)高斯函數(shù)構(gòu)造親和矩陣時并未考慮數(shù)據(jù) 的分布結(jié)構(gòu),因此不能反映出數(shù)據(jù)之間的真實相似關(guān)系,由此計算得到的拉普拉斯矩陣,大 多數(shù)情況下是不滿足矩陣擾動理論的,此時聚類個數(shù)k的確定及特征向量的選取不再滿足 上述規(guī)律,特征向量選取不當會使聚類結(jié)果嚴重偏離實際。在這種情形下,怎樣考慮數(shù)據(jù)的 分布結(jié)構(gòu),選擇合適的方法構(gòu)造親和矩陣,使其能夠反映數(shù)據(jù)之間的真實相似關(guān)系,從而使 得到的拉普拉斯矩陣與理想矩陣之間滿足矩陣擾動理論,才能保證在用多路譜聚類方法時 k的個數(shù)及特征向量的選取合理,聚類結(jié)果準確。已有的改善親和矩陣的方法主要有(1)基于路徑的相似度度量構(gòu)造親和矩陣一種基于路徑的相似度度量定義為公式(1)
權(quán)利要求
1.一種改進親和矩陣的多路譜聚類方法,其特征是該方法包括以下步驟 步驟1 構(gòu)造親和矩陣;步驟2 構(gòu)建拉普拉斯矩陣Lsym ;步驟3 計算拉普拉斯矩陣Lsym的前k個最大特征值以及前k個特征值對應的特征向 量構(gòu)成矩陣KK ;步驟4 對矩陣KK進行單位化處理,得到矩陣Y ;步驟5 將Y的每一行視為Rk空間中的一個點,使用K-均值算法,劃分為k個簇,如果 Y矩陣中的第i行屬于第j簇,則點Xi也屬于第j個簇。
2.根據(jù)權(quán)利要求1所述一種改進親和矩陣的多路譜聚類方法,其特征是所述構(gòu)造親和 矩陣包括以下步驟步驟1 計算任意兩個數(shù)據(jù)點間的歐氏距離,得到距離矩陣D ;步驟2 計算任意兩個數(shù)據(jù)點間的相似度,得到相似度矩陣W ;步驟3:根據(jù)閾值ε確定距離矩陣D中元素間的近鄰關(guān)系,形成初始近鄰關(guān)系矩陣N;步驟4 根據(jù)近鄰關(guān)系傳遞原則更新初始近鄰關(guān)系矩陣N、相似度矩陣W ;步驟5 最終得到的相似度矩陣W即為親和矩陣。
3.根據(jù)權(quán)利要求2所述一種改進親和矩陣的多路譜聚類方法,其特征是所述歐氏距離 的計算公式為
4.根據(jù)權(quán)利要求2所述一種改進親和矩陣的多路譜聚類方法,其特征是所述相似度的 計算公式為
5.根據(jù)權(quán)利要求2所述一種改進親和矩陣的多路譜聚類方法,其特征是所述閾值ε的 計算公式為
6.根據(jù)權(quán)利要求2所述一種改進親和矩陣的多路譜聚類方法,其特征是所述近鄰關(guān)系 的初始確定方法為如果距離矩陣D中小于等于閾值ε,則數(shù)據(jù)點Xi和數(shù)據(jù)點\屬于近鄰關(guān)系,在近 鄰關(guān)系矩陣N中令I(lǐng)iij = Lnji = Iiij ;由此判斷出所有的近鄰點對,并形成初始近鄰關(guān)系矩 陣N。
7.根據(jù)權(quán)利要求2所述一種改進親和矩陣的多路譜聚類方法,其特征是所述近鄰關(guān)系 傳遞原則為如果當前近鄰關(guān)系矩陣N有nij = l,nJk = 1,而nik = 0,則將Iiil^Pnki的值修改為1, 同時將相似度矩陣W中元素Wik和^d的值修改為min (wij; wJk);具體為步驟1 從點X1開始,依次將點X1和其后續(xù)點= 2,3,…η)進行比較,如果點X1 和其后續(xù)點^cm此時不為近鄰關(guān)系,則按照以下步驟修改X1和后續(xù)點^11的近鄰關(guān)系步驟1. 1 從除點X1和點ι以外的點中尋找同時與點X1和ι滿足近鄰關(guān)系的另一點 xk,即滿足nlk = 1, nkm = 1的另一點xk ;步驟1. 2 如果存在這樣的點,則得出點X1和1也滿足近鄰關(guān)系,修改nlm和nml的值為 1,同時修改wlm和^111的值為min (wlk,wj ;反之,如果不存在這樣的點,則不進行上述修改; 步驟2 再從點&開始,依次將點&和其后續(xù)點= 3,…η)進行比較, 并按照步驟1中所述進行處理; 步驟3 重復上述步驟,直至最后點。
8.根據(jù)權(quán)利要求1所述一種改進親和矩陣的多路譜聚類方法,其特征是所述拉普拉斯 矩陣Lsym的公式為
9.根據(jù)權(quán)利要求1所述一種改進親和矩陣的多路譜聚類方法,其特征是所述矩陣Y的 計算公式為
全文摘要
本發(fā)明公開了聚類分析技術(shù)領(lǐng)域中的一種改進親和矩陣的多路譜聚類方法。該方法計算了數(shù)據(jù)點間的歐氏距離、相似度,通過指定的閾值確定數(shù)據(jù)點間的近鄰關(guān)系,并根據(jù)近鄰傳遞原則更新近鄰關(guān)系矩陣和相似度矩陣,最后得到親和矩陣。本發(fā)明方法考慮了數(shù)據(jù)的分布結(jié)構(gòu),可以使數(shù)據(jù)點在任意形狀和任意分布結(jié)構(gòu)時,親和矩陣中的元素值都能反映數(shù)據(jù)點的真實相似度,改善了多路譜聚類方法的聚類有效性和對任意數(shù)據(jù)集的適用性。
文檔編號G06F17/30GK102110173SQ201110088630
公開日2011年6月29日 申請日期2011年4月8日 優(yōu)先權(quán)日2011年4月8日
發(fā)明者李新葉 申請人:華北電力大學(保定)