專利名稱:基于地標(biāo)點(diǎn)表示的譜聚類方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖像數(shù)據(jù)處理中的機(jī)器學(xué)習(xí)與模式識(shí)別技術(shù)領(lǐng)域,具體涉及一種采用稀疏編碼技術(shù)進(jìn)行聚類分析的譜聚類方法。
背景技術(shù):
聚類是機(jī)器學(xué)習(xí)與模式識(shí)別中一種重要的方法,它要求能合理地按樣本的特性來進(jìn)行合理的分類,但沒有任何模式可供參考或依循,即是在沒有先驗(yàn)知識(shí)的情況下進(jìn)行的學(xué)習(xí),是無監(jiān)督學(xué)習(xí)的代表。常見的聚類分析方法主要包括如下幾種 分裂法,又稱劃分方法。首先創(chuàng)建K個(gè)劃分,K為要?jiǎng)?chuàng)建的劃分的個(gè)數(shù);然后利 用一個(gè)循環(huán)定位的技術(shù)通過將對象從一個(gè)劃分移到另一個(gè)劃分來改善劃分質(zhì)量。典型的劃分方法有Kmeans, Kmedoids 和 CLARA (Clustering LARge Application)等。 層次法,通過創(chuàng)建一個(gè)層次以分解給定的數(shù)據(jù)集。該方法可以分為自上而下(分解)和自下而上(合并)兩種操作方式。為彌補(bǔ)分解與合并的不足,層次合并經(jīng)常要與其它聚類方法相結(jié)合,如循環(huán)定位。典型的層次方法有BIRCH(BalancedIterative Reducing and Clustering using Hierarchies), CURE(Clustering UsingREprisentatives)和 CHEMALOEN 等。 基于密度的方法,根據(jù)密度完成對象的聚類。它根據(jù)對象周圍的密度不斷增長聚類。典型的基于密度的方法有DBSCAN(Densit-based Spatial Clustering ofApplication with Noise)和 OPTICS(Ordering Points To Identify the ClusteringStructure)。 基于圖的方法。它將聚類問題視為圖的劃分問題,以譜聚類(SpectralClustering)為典型代表。譜聚類突破了其他聚類算法只能適用于歐式空間、得到的類只能為凸集的局限性,往往能夠產(chǎn)生更好的聚類效果。然而該算法需要進(jìn)行圖的構(gòu)建和分解過程,計(jì)算復(fù)雜度較高,不能應(yīng)用在大規(guī)模數(shù)據(jù)集上。針對以上的問題,也就是為了解決譜聚類對大規(guī)模數(shù)據(jù)集的計(jì)算復(fù)雜度過高的問題,需要設(shè)計(jì)新的算法既能夠保持原始算法的聚類效果,又能加速聚類的過程。目前主要采用的手段有 基于 Kmeans 的近似譜聚類(Kmeans-based Approximate SpectralClustering, PCA):該方法的核心在于減少數(shù)據(jù)集的大小,具體步驟為通過Kmeans聚類將原始數(shù)據(jù)集用聚類中心點(diǎn)集來表示,然后直接對聚類中心點(diǎn)集進(jìn)行譜聚類。 基于代表的譜聚類(Committees-based Spectral Clustering, CSC):該方法的關(guān)鍵思想也在于減少數(shù)據(jù)集的大小。具體步驟為通過Kmeans聚類將原始數(shù)據(jù)集中最接近聚類中心的點(diǎn)用聚類中心表示,從而減少了數(shù)據(jù)集的大小便于隨后的譜聚類,如圖I所示,(a)為Kmeans聚類,A為Kmeans聚類的聚類分割線;(b)為譜聚類,B為譜聚類的聚類分割線。有圖I可見,Kmeans聚類和譜聚類在中間點(diǎn)的分布上存在差異。
NystrSm分解法OystrSm):通過?Jystr5m方法來加速圖的特征值分解過程,從而加速譜聚類。上述方法都在某種意義上采用了隨機(jī)采樣的思想,用一部分點(diǎn)來作為整個(gè)數(shù)據(jù)集的代表,雖然在實(shí)際中具有一定的效果,但是還是喪失了大部分?jǐn)?shù)據(jù)信息和具體的分布結(jié)構(gòu)。稀疏編碼是一種獲取圖像稀疏表達(dá)的方法,最早應(yīng)用于模擬哺乳動(dòng)物視覺系統(tǒng)主視皮層Vl區(qū)簡單細(xì)胞感受的人工神經(jīng)網(wǎng)絡(luò)的編碼方式,后來被廣泛應(yīng)用圖像處理等領(lǐng)域。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種譜聚類算法效率高、計(jì)算復(fù)雜度低、聚類效果好的基于地標(biāo)點(diǎn)表示的譜聚類方法。為解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案為一種基于地標(biāo)點(diǎn)表示的譜聚類方法,其實(shí)施步驟如下I)輸入數(shù)據(jù)X和聚類數(shù)k ;2)在數(shù)據(jù)X中通過Kmeans聚類算法或者隨機(jī)采樣產(chǎn)生P個(gè)地標(biāo)點(diǎn);3)將所述數(shù)據(jù)X基于所述P個(gè)地標(biāo)點(diǎn)構(gòu)建稀疏表示矩陣Z ;4)根據(jù)所述稀疏表示矩陣Z計(jì)算ZtZ的前k個(gè)特征向量A ;5)根據(jù)所述稀疏表示矩陣Z計(jì)算Z的右奇異向量得到ZZt的前k個(gè)特征向量Bt ;6)對特征向量Bt的每一行通過Kmeans聚類算法進(jìn)行Kmeans聚類,最終輸出聚類結(jié)果。作為本發(fā)明上述技術(shù)方案的進(jìn)一步改進(jìn)所述步驟3)中構(gòu)建稀疏表示矩陣Z的表達(dá)式為
權(quán)利要求
1.一種基于地標(biāo)點(diǎn)表示的譜聚類方法,其特征在于其實(shí)施步驟如下 1)輸入數(shù)據(jù)X和聚類數(shù)k; 2)在數(shù)據(jù)X中通過Kmeans聚類算法或者隨機(jī)采樣產(chǎn)生P個(gè)地標(biāo)點(diǎn); 3)將所述數(shù)據(jù)X基于所述P個(gè)地標(biāo)點(diǎn)構(gòu)建稀疏表示矩陣Z; 4)根據(jù)所述稀疏表示矩陣Z計(jì)算ZtZ的前k個(gè)特征向量A; 5)根據(jù)所述稀疏表示矩陣Z計(jì)算Z的右奇異向量得到ZZt的前k個(gè)特征向量Bt; 6)對特征向量Bt的每一行通過Kmeans聚類算法進(jìn)行Kmeans聚類,最終輸出聚類結(jié)果。
2.根據(jù)權(quán)利要求I所述的基于地標(biāo)點(diǎn)表示的譜聚類方法,其特征在于,所述步驟3)中構(gòu)建稀疏表不矩陣Z的表達(dá)式為
3.根據(jù)權(quán)利要求I或2所述的基于地標(biāo)點(diǎn)表示的譜聚類方法,其特征在于,所述步驟4)的詳細(xì)步驟為 4.I)根據(jù)所述稀疏表示矩陣Z計(jì)算稀疏表示矩陣Z的轉(zhuǎn)置矩陣Zt ; 4.2)將所述轉(zhuǎn)置矩陣Zt乘以稀疏表示矩陣Z得到ZtZ ; 4.3)用QR分解等數(shù)值計(jì)算的方法來計(jì)算ZtZ的前k個(gè)特征向量A和所述特征向量對應(yīng)的矩陣形式特征值E。
4.根據(jù)權(quán)利要求3所述的基于地標(biāo)點(diǎn)表示的譜聚類方法,其特征在于所述步驟5)具體是指根據(jù)Bt = E -1AX求解ZZt的前k個(gè)特征向量BT,其中X為原始數(shù)據(jù)組成的矩陣,A為所述步驟4. 3)中得到的前k個(gè)特征向量,E為所述步驟4. 3)中得到的特征向量對應(yīng)的矩陣形式特征值,E 1表示計(jì)算矩陣E的逆。
全文摘要
本發(fā)明公開了一種基于地標(biāo)點(diǎn)表示的譜聚類方法,其實(shí)施步驟如下1)輸入數(shù)據(jù)X和聚類數(shù)k;2)在數(shù)據(jù)X中通過Kmeans聚類算法或者隨機(jī)采樣產(chǎn)生P個(gè)地標(biāo)點(diǎn);3)將所述數(shù)據(jù)X基于所述P個(gè)地標(biāo)點(diǎn)構(gòu)建稀疏表示矩陣Z;4)根據(jù)所述稀疏表示矩陣Z計(jì)算ZTZ的前k個(gè)特征向量A;5)根據(jù)所述稀疏表示矩陣Z計(jì)算Z的右奇異向量得到ZZT的前k個(gè)特征向量BT;6)對特征向量BT的每一行通過Kmeans聚類算法進(jìn)行Kmeans聚類,最終輸出聚類結(jié)果。本發(fā)明具有譜聚類算法效率高、計(jì)算復(fù)雜度低、聚類效果好的優(yōu)點(diǎn)。
文檔編號G06K9/62GK102799891SQ201210168089
公開日2012年11月28日 申請日期2012年5月24日 優(yōu)先權(quán)日2012年5月24日
發(fā)明者蔡登 , 陳鑫磊, 何曉飛 申請人:浙江大學(xué)