一種基于譜聚類算法的選擇性聚類集成方法
【專利摘要】本發(fā)明公開了一種基于譜聚類算法的選擇性聚類集成方法,包括以下步驟:聚類成員生成;基于譜聚類算法選擇代表成員;對(duì)代表成員進(jìn)行集成;結(jié)束。本發(fā)明的顯著優(yōu)點(diǎn)是:實(shí)現(xiàn)簡(jiǎn)單且可以有效提升聚類集成的效果。
【專利說(shuō)明】一種基于譜聚類算法的選擇性聚類集成方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于譜聚類算法的選擇性聚類集成方法,屬于數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]聚類分析已有四十多年的研究歷史,它在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、信息檢索、模式識(shí)另O、生物信息學(xué)等領(lǐng)域發(fā)揮了極其重要的作用。傳統(tǒng)的聚類算法層出不窮,然而沒(méi)有一種算法能夠有效識(shí)別出具有不同大小、不同形狀、不同密度甚至可能包含噪聲的簇。與傳統(tǒng)的聚類算法相比,聚類集成技術(shù)具備魯棒性、新穎性、穩(wěn)定性等優(yōu)點(diǎn),目前已成為機(jī)器學(xué)習(xí)的研究熱點(diǎn)之一?,F(xiàn)有的聚類集成方法都存在很多問(wèn)題與不足,如對(duì)簇的形狀強(qiáng)加了某種結(jié)構(gòu)、對(duì)簇的大小有很強(qiáng)的約束、計(jì)算復(fù)雜度高、得到局部最優(yōu)解等。
【發(fā)明內(nèi)容】
[0003]發(fā)明目的:針對(duì)現(xiàn)有技術(shù)中存在的問(wèn)題與不足,本發(fā)明提供一種可以有效提升聚類集成效果的基于譜聚類算法的選擇性聚類集成方法。
[0004]技術(shù)方案:一種基于譜聚類算法的選擇性聚類集成方法,包括如下步驟:
[0005]1、聚類成員生成;2、基于譜聚類算法選擇代表成員;3、對(duì)代表成員進(jìn)行集成;4、結(jié)束。
[0006]有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明提供的基于譜聚類算法的選擇性聚類集成方法實(shí)現(xiàn)簡(jiǎn)單且可以有效提升聚類集成的效果。
【專利附圖】
【附圖說(shuō)明】
[0007]圖1是本發(fā)明方法的流程圖;
[0008]圖2是聚類成員生成的流程圖;
[0009]圖3是基于譜聚類算法選擇代表成員的流程圖;
[0010]圖4是對(duì)代表成員進(jìn)行集成的流程圖;
[0011]圖5是使用譜聚類算法對(duì)聚類成員聚類的流程圖;
[0012]圖6是使用譜聚類算法對(duì)數(shù)據(jù)集聚類的流程圖。
【具體實(shí)施方式】
[0013]下面結(jié)合具體實(shí)施例,進(jìn)一步闡明本發(fā)明,應(yīng)理解這些實(shí)施例僅用于說(shuō)明本發(fā)明而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對(duì)本發(fā)明的各種等價(jià)形式的修改均落于本申請(qǐng)所附權(quán)利要求所限定的范圍。
[0014]本發(fā)明的方法如圖1所示。步驟O是初始動(dòng)作。步驟I為聚類成員生成,該步驟將在后面的部分結(jié)合圖2進(jìn)行具體介紹。步驟2基于譜聚類算法選擇代表成員,該步驟將在后面的部分結(jié)合圖3進(jìn)行具體介紹。步驟3對(duì)代表成員進(jìn)行集成,該步驟將在后面的部分結(jié)合圖4進(jìn)行具體介紹。步驟4是圖1的結(jié)束狀態(tài)。
[0015]圖2詳細(xì)說(shuō)明了圖1中的步驟1,其作用是生成多個(gè)聚類成員。步驟10是起始動(dòng)作。步驟11獲取聚類成員個(gè)數(shù)I (I是一個(gè)大于I的整數(shù))和聚類個(gè)數(shù)k (一般將聚類個(gè)數(shù)k設(shè)置為數(shù)據(jù)集包含的真實(shí)類別數(shù))。步驟12將控制參數(shù)i置初值I。步驟13判斷控制參數(shù)i是否小于或等于1,是則轉(zhuǎn)到步驟14,否則轉(zhuǎn)到步驟17。步驟14隨機(jī)生成k個(gè)均值向量,作為K均值算法的初始質(zhì)心,使用K均值算法對(duì)數(shù)據(jù)集進(jìn)行劃分。步驟15得到聚類結(jié)果?“) = ^,),…,Ck(i)}。步驟16將控制變量i加I,然后轉(zhuǎn)到步驟13。步驟17構(gòu)建聚類成員集合P={P(1),…,Ρα)}。步驟18是圖2的結(jié)束狀態(tài)。
[0016]圖3詳細(xì)說(shuō)明了圖1中的步驟2,其作用是基于譜聚類算法選擇代表成員,用于后續(xù)集成。步驟20是起始動(dòng)作。步驟21計(jì)算聚類成員之間的相似度,即聚類成員之間的NMI值(Normalized Mutual Information,規(guī)范化互信息)。NMI值越大,兩個(gè)聚類結(jié)果的匹配程度越高,聚類成員之間的相似度越大,其求解方法如下。設(shè)X和Y分別為聚類成SP(a)和P(b)表示的隨機(jī)變量,其中Ρω和P(b)分別有1^和0個(gè)簇。設(shè)<SP(a)中的簇Ch包含的對(duì)象個(gè)
數(shù),?if為P(b)中的簇C1包含的對(duì)象個(gè)數(shù)^^表示Ch和C1共有的對(duì)象個(gè)數(shù),則P(a)和P(b)之間的匪I值為:
【權(quán)利要求】
1.一種基于譜聚類算法的選擇性聚類集成方法,其特征在于,包括以下步驟: (1)聚類成員生成; (2)基于譜聚類算法選擇代表成員; (3)對(duì)代表成員進(jìn)行集成; (4)結(jié)束。
2.根據(jù)權(quán)利要求1所述的基于譜聚 類算法的選擇性聚類集成方法,其特征在于,所述聚類成員生成的步驟是: (1)步驟11獲取聚類成員個(gè)數(shù)I和聚類個(gè)數(shù)k,其中I是一個(gè)大于I的整數(shù),將聚類個(gè)數(shù)k設(shè)置為數(shù)據(jù)集包含的真實(shí)類別數(shù); (2)步驟12將控制參數(shù)i置初值I; (3)步驟13判斷控制參數(shù)i是否小于或等于聚類成員個(gè)數(shù)I,是則執(zhí)行步驟14,否則轉(zhuǎn)到步驟17 ; (4)步驟14隨機(jī)生成k個(gè)均值向量,作為K均值算法的初始質(zhì)心,使用K均值算法對(duì)數(shù)據(jù)集進(jìn)行劃分; (5)步驟15得到聚類結(jié)果Ρω= {Αω,-,Ck(i)}; (6)步驟16將控制參數(shù)i加I,然后轉(zhuǎn)到步驟13; (7)步驟17構(gòu)建聚類成員集合P={Ρω,…,Ρ(1)}; (8)結(jié)束。
3.根據(jù)權(quán)利要求1所述的基于譜聚類算法的選擇性聚類集成方法,其特征在于,所述基于譜聚類算法選擇代表成員的步驟是: (1)步驟21計(jì)算聚類成員之間的相似度; (2)步驟22根據(jù)步驟2計(jì)算出的相似度,使用譜聚類算法對(duì)聚類成員聚類; (3)步驟23根據(jù)步驟22獲得的聚類結(jié)果,從每個(gè)聚類成員集合中各選出一個(gè)與該簇中所有其他成員之間的NMI值之和最大的聚類成員作為代表成員; (4)結(jié)束。
4.根據(jù)權(quán)利要求1所述的基于譜聚類算法的選擇性聚類集成方法,其特征在于所述對(duì)代表成員進(jìn)行集成的步驟是: (1)步驟31計(jì)算數(shù)據(jù)點(diǎn)之間的相似度,數(shù)據(jù)點(diǎn)(Ii和dj的相似度計(jì)算如下=Sij=Cli與dj屬于同一個(gè)簇的次數(shù)/r ; (2)步驟32使用譜聚類算法對(duì)數(shù)據(jù)集聚類; (3)結(jié)束。
5.根據(jù)權(quán)利要求3所述的基于譜聚類算法的選擇性聚類集成方法,其特征在于基于譜聚類算法選擇代表成員中,所述使用譜聚類算法對(duì)聚類成員聚類的步驟是: (1)步驟221獲取要選出的代表成員個(gè)數(shù)&; (2)步驟222構(gòu)建圖上的隨機(jī)游走對(duì)應(yīng)的轉(zhuǎn)移概率矩陣P1,具體求解方法如下:P1= (D1) I1,其中S1是聚類成員之間的相似度矩陣,其元素值在權(quán)利要求書3中的步驟21求得,D1是對(duì)角度矩陣,對(duì)角元素#(“);(3)步驟223求解P1的特征值X1≥…≥λi,若存在某個(gè)序i,使得入1嚴(yán)格大于λ?+1,則令r=i ;否則令r=rQ ; (4)步驟224將P1的前r個(gè)最大特征值對(duì)應(yīng)的特征向量按列排放,構(gòu)建矩陣1=[ιν..ur]; (5)步驟225使用K均值算法將Ur的行聚為r個(gè)聚類成員集合G1,…,Gr; (4)結(jié)束。
6.根據(jù)權(quán)利要求4所述的基于譜聚類算法的選擇性聚類集成方法,其特征在于對(duì)代表成員進(jìn)行集成,所述使用譜聚類算法對(duì)數(shù)據(jù)集聚類的步驟是: (I)步驟321構(gòu)建圖上的隨機(jī)游走對(duì)應(yīng)的轉(zhuǎn)移概率矩陣P,具體求解方法如下=P=D4S,其中S是數(shù)據(jù)點(diǎn)之間的相似度矩陣,其元素值由步驟31求得,D是對(duì)角度矩陣,對(duì)角元素o(i,i) = j); (2 )步驟3 2 2求解P的前k個(gè)最大特征值對(duì)應(yīng)的特征向量并按列排放,構(gòu)建矩陣Vk= [V1 …vk]; (3)步驟323使用K均值算法將Vk的行聚為k個(gè)簇D1,-,Dk; (4)結(jié)束。
【文檔編號(hào)】G06F17/30GK103995821SQ201410096258
【公開日】2014年8月20日 申請(qǐng)日期:2014年3月14日 優(yōu)先權(quán)日:2014年3月14日
【發(fā)明者】徐森, 李先鋒, 曹瑞, 花小朋, 徐靜, 陳榮 申請(qǐng)人:鹽城工學(xué)院