本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域進(jìn)行無監(jiān)督數(shù)據(jù)分類的算法,具體的說是一種基于gauss誘導(dǎo)核的模糊c均值聚類算法。
背景技術(shù):
聚類分析是無監(jiān)督模式識(shí)別的一個(gè)重要內(nèi)容,聚類的目的是使得相似樣本劃分在一起,而將不相似樣本劃分為不同類別。模糊c均值聚類算法(fcm)是聚類分析中應(yīng)用最為廣泛的一種方法,是由dun、bezdek等人發(fā)展而成的一種模糊聚類算法,fcm算法基于加權(quán)誤差平方和最小化理論,使用歐式距離度量樣本與聚類中心,用于表現(xiàn)樣本與聚類中心間的誤差,適合于數(shù)據(jù)集為線性關(guān)系的數(shù)據(jù),但對(duì)非線性數(shù)據(jù)的聚類往往效果不好。
自核方法被成功的應(yīng)用于分類器支持向量機(jī)(svm)以來,即受到機(jī)器學(xué)習(xí)和模式分類領(lǐng)域研究者的廣泛關(guān)注和研究,并進(jìn)一步將其推廣應(yīng)用到特征提取、模糊聚類等領(lǐng)域。
核方法將輸入空間的非線性關(guān)系通過非線性映射轉(zhuǎn)換為高維特征空間的線性關(guān)系,增大了模式間的差異性刻畫,且利用核函數(shù)表示高維特征空間中的內(nèi)積運(yùn)算,無需明確知道具體的非線性映射形式,克服了機(jī)器學(xué)習(xí)的維數(shù)災(zāi)難問題,所以在模糊聚類領(lǐng)域有著廣泛而成功的應(yīng)用。
由于核方法利用核函數(shù)表達(dá)特征空間中的內(nèi)積運(yùn)算,且特征空間中的空間距離可轉(zhuǎn)換為內(nèi)積運(yùn)算形式,所以核方法適合于在特征空間中僅存在內(nèi)積和距離運(yùn)算的算法。聚類中心是模糊聚類算法的重要組成部分,由于核方法中非線性映射的無具體形式給出,因此在模糊聚類算法中應(yīng)用核方法時(shí),一個(gè)關(guān)鍵性的問題是如何表示核聚類中心。
自girolami和張莉、焦李成等提出硬核聚類算法以來,將核方法應(yīng)用于聚類算法的各種核模糊聚類算法應(yīng)運(yùn)而生,通過對(duì)比研究可以發(fā)現(xiàn),這些核模糊聚類算法的根本原理都是相同的,即在各種模糊聚類算法中結(jié)合應(yīng)用核方法。這些核模糊聚類算法的聚類目標(biāo)函數(shù)和模糊隸屬度公式在形式上是一致的,不同之處在于核聚類中心的推導(dǎo)原理及表現(xiàn)形式的不同。
現(xiàn)有核模糊聚類算法依聚類中心生成原理可分為三種,第一種是利用核矩陣k(vi,vi)及k(xh,vi)交替迭代,對(duì)模糊隸屬度進(jìn)行估計(jì),聚類中心vi沒有顯示給出,該核聚類算法稱為隱核模糊c均值聚類算法(hkfcm),算法性能不夠穩(wěn)定。第二種是利用高斯核函數(shù)求偏導(dǎo)在輸入空間中得到聚類中心的vi的顯式表達(dá),但聚類中心迭代公式右端包含聚類中心本身,不滿足聚類算法收斂性證明的要求,稱為gauss核模糊c均值聚類算法(gkfcm)。第三種是利用粒子群生物進(jìn)化算法(pso)在輸入空間中對(duì)聚類中心進(jìn)行搜索,稱為pso核模糊c均值聚類算法(pso—kfcm),依賴于粒子群算法的迭代收斂,當(dāng)初始條件不好時(shí),則聚類性能較差。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明為了克服現(xiàn)有技術(shù)存在的不足之處,充分利用核函數(shù)的非線性表達(dá)能力,提出一種基于gauss誘導(dǎo)核的模糊c均值聚類算法,目的在于充分利用聚類算法在輸入空間和核映射空間的分類信息,提升算法的分類性能。同時(shí)以顯示形式表現(xiàn)參數(shù)迭代公式,且迭代公式右端不含有待迭代參數(shù)自身,進(jìn)而保證算法的收斂性。
為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采用如下技術(shù)方案:
本發(fā)明基于gauss誘導(dǎo)核的模糊c均值聚類算法,特點(diǎn)按如下步驟進(jìn)行:
步驟1:令x={x1,x2,l,xj,l,xn}表示給定的樣本集合,xj表示第j個(gè)樣本;1≤j≤n,n是樣本的個(gè)數(shù);對(duì)樣本集合x進(jìn)行最優(yōu)化劃分,使得目標(biāo)函數(shù)值jgikfcm最小,其中jgikfcm由式(1)所確定。
在式(1)中,c表示劃分的類別數(shù),1≤i≤c,uij表示第j個(gè)樣本xj隸屬于第i類的模糊隸屬度,0≤uij≤1,且有
dkij2=||φ(xj)-φ(vi)||2=<φ(xj)-φ(vi),φ(xj)-φ(vi)>=k(xj,xj)+k(vi,vi)-2k(xj,vi)(2)
式(2)中,φ(xj)表示第j個(gè)樣本非線性映射到高維特征空間中的映射函數(shù);并且有:
<φ(xj),φ(vi)>=k(xj,vi)(3)
式(4)為高斯核函數(shù),σ∈r為尺度因子。
當(dāng)核函數(shù)k(·,·)取值高斯核函數(shù)式(4)時(shí),有:
kg(x,x)=1(5)
則式(2)在高斯核函數(shù)下則轉(zhuǎn)換為:
步驟2:用值在0,1間的隨機(jī)數(shù)初始化第j個(gè)樣本xj隸屬于第i類的模糊隸屬度
步驟3:用式(7)計(jì)算第λ次迭代的c個(gè)聚類中心
式(7)中,kg表示高斯核函數(shù),
步驟4:根據(jù)式(8)計(jì)算第λ次迭代的核模糊隸屬度
在式(8)中,
步驟5:判斷
與已有技術(shù)相比,本發(fā)明的有益效果體現(xiàn)在:
1.gauss誘導(dǎo)核模糊c均值聚類算法(gikfcm)將隱核模糊c均值聚類算法(hkfcm)與gauss核模糊c均值聚類算法(gkfcm)相結(jié)合,得到gauss核誘導(dǎo)聚類中心式(7)。在gauss核誘導(dǎo)聚類中心的推導(dǎo)過程中,既利用了隱核聚類中心在高維核空間中關(guān)于φ(vi)的梯度優(yōu)化信息,又結(jié)合了gauss核聚類中心關(guān)于vi的梯度優(yōu)化信息,因此能夠從數(shù)據(jù)集x中獲取較hkfcm和gkfcm更多的數(shù)據(jù)劃分優(yōu)化信息,從而提升聚類算法的優(yōu)化性能,保證gikfcm算法擁有更加準(zhǔn)確的聚類表現(xiàn)。
2.gikfcm算法聚類中心式(7)右端不包含聚類中心vi,僅為模糊隸屬度uij的函數(shù),這與gkfcm算法聚類中心截然不同,從而滿足了模糊聚類算法收斂性證明的要求,即要求聚類中心和模糊隸屬度公式互為嵌套對(duì)偶函數(shù),通過ao交替迭代過程對(duì)參數(shù)進(jìn)行估計(jì),進(jìn)而從理論上保證了gikfcm算法的收斂性。
3.gikfcm算法聚類中心函數(shù)僅以模糊隸屬度為自變量,而模糊隸屬度函數(shù)以聚類中心為自變量,與模糊c均值聚類算法(fcm)類似,因此既可以對(duì)聚類中心進(jìn)行初始化,也可以對(duì)模糊隸屬度進(jìn)行初始化,反映了該算法的迭代通用性。而gkfcm、pso-kfcm算法只能先對(duì)聚類中心進(jìn)行初始化,否則無法進(jìn)行算法的迭代計(jì)算。hkfcm只能對(duì)模糊隸屬度作初始化。在本實(shí)施例中,采用基于uci機(jī)器學(xué)習(xí)數(shù)據(jù)庫中的公共數(shù)據(jù)集進(jìn)行算法比對(duì)測(cè)試,所選數(shù)據(jù)集為iris數(shù)據(jù)集,數(shù)據(jù)集的信息如表1所示。選用hkfcm、gkfcm算法與gikfcm算法做對(duì)比測(cè)試。
具體實(shí)施方式
在本實(shí)施例中,采用基于uci機(jī)器學(xué)習(xí)數(shù)據(jù)庫中的公共數(shù)據(jù)集進(jìn)行算法比對(duì)測(cè)試,所選數(shù)據(jù)集為iris數(shù)據(jù)集,數(shù)據(jù)集的信息如表1所示。選用hkfcm、gkfcm算法與gauss誘導(dǎo)核模糊c均值聚類算法(以下簡(jiǎn)稱gikfcm算法)做對(duì)比測(cè)試。
表1iris實(shí)驗(yàn)數(shù)據(jù)集
gauss誘導(dǎo)核模糊c均值聚類算法是按如下步驟進(jìn)行:
步驟1:令x={x1,x2,l,xj,l,xn}表示給定的樣本集合,xj表示第j個(gè)樣本;1≤j≤n,n是樣本的個(gè)數(shù);對(duì)樣本集合x進(jìn)行最優(yōu)化劃分,使得目標(biāo)函數(shù)值jkfcm最小,其中jkfcm由式(1)所確定。gikfcm算法、gkfcm算法、hkfcm算法的測(cè)試結(jié)果分別如表2、表3、表4所示。
在測(cè)試時(shí),三種核聚類算法都選用gauss核函數(shù),gauss核函數(shù)需要對(duì)gauss核參數(shù)σ賦值,取核參數(shù)σ取值范圍為[21,22,23,24],聚類算法模糊指標(biāo)m取值為[2,3,4]。每種聚類算法根據(jù)參數(shù)和數(shù)據(jù)集進(jìn)行10次測(cè)試,計(jì)算各類聚類平均精度。很顯然這三種核聚類算法的核模糊隸屬度及聚類目標(biāo)函數(shù)是相同的,區(qū)別在于聚類中心的表達(dá)上,其中g(shù)kfcm和gikfcm算法在輸入空間中尋找聚類中心,而hkfcm算法在核映射空間中隱式表現(xiàn)了聚類中心。在算法迭代的初始化方面,gkfcm、gikfcm算法選擇對(duì)聚類中心做初始化,hkfcm算法選擇對(duì)模糊隸屬度做初始化。
表2gikfcm算法基于iris數(shù)據(jù)集的分類精度(%)
表3gkfcm算法基于iris數(shù)據(jù)集的測(cè)試結(jié)果(%)
表4hkfcm算法基于iris數(shù)據(jù)集的分類精度(%)
gauss誘導(dǎo)核模糊c均值聚類算法(以下簡(jiǎn)稱gikfcm)基于數(shù)據(jù)集iris的最高平均分類精度為92.67%,在參數(shù)σ=2,m=4時(shí)取得;最低平均分類精度為89.33%,分別在參數(shù)σ=8m=2和σ=16m=2。在聚類平均精度的基礎(chǔ)上,再取聚類平均精度的平均為90.4225%。gkfcms算法基于數(shù)據(jù)集iris的最高平均分類精度為92.53%,在參數(shù)σ=2,m=4時(shí)取得;最低平均分類精度為89.33%,分別在參數(shù)σ=8m=2和σ=16m=2。在聚類平均精度的基礎(chǔ)上,再取聚類平均精度的平均為90.39%。hkfcm算法基于數(shù)據(jù)集iris的最高平均分類精度為90.00%,在參數(shù)σ=16m=3時(shí)取得,最低平均分類精度為66.67%,分別在參數(shù)σ=2m=3和σ=2m=4。在聚類平均精度的基礎(chǔ)上,再取聚類平均精度的平均為80.51%。
在式(1)中,c表示劃分的類別數(shù),1≤i≤c,uij表示第j個(gè)樣本xj隸屬于第i類的模糊隸屬度,0≤uij≤1,且有
dkij2=||φ(xj)-φ(vi)||2=〈φ(xj)-φ(vi),φ(xj)-φ(vi)>=k(xj,xj)+k(vi,vi)-2k(xj,vi)(2)
式(2)中,φ(xj)表示第j個(gè)樣本非線性映射到高維特征空間中的映射函數(shù);并且有:
<φ(xj),φ(vi)>=k(xj,vi)(3)
式(4)為高斯核函數(shù),σ∈r為尺度因子。
當(dāng)核函數(shù)k(·,·)取值高斯核函數(shù)式(4)時(shí),有:
kg(x,x)=1(5)
則式(2)在高斯核函數(shù)下則轉(zhuǎn)換為:
步驟2:用值在0,1間的隨機(jī)數(shù)初始化第j個(gè)樣本xj隸屬于第i類的模糊隸屬度
步驟3:用式(7)計(jì)算第λ次迭代的c個(gè)聚類中心
式(7)中,kg表示高斯核函數(shù),
步驟4:根據(jù)式(8)計(jì)算第λ次迭代的核模糊隸屬度
在式(8)中,
步驟5:判斷
由表2和表3可知,gikfcm和gkfcm算法對(duì)于iris數(shù)據(jù)集都能取得較好的聚類結(jié)果,在不同的參數(shù)取值情況下,gikfcm和gkfcm算法聚類結(jié)果之間各有高低,如當(dāng)σ=2,m=4時(shí),gikfcm平均聚類精度92.67%高于gkfcm平均聚類精度92.53%;而在σ=4,m=4時(shí),gikfcm平均聚類精度90.80%低于gkfcms平均聚類精度90.93%。但在最高平均分類精度上和聚類平均精度的平均上,gikfcm算法是高于gkfcm算法的,體現(xiàn)了gikfcm算法的有效性。由表4可知,hkfcm算法基于數(shù)據(jù)集iris的測(cè)試結(jié)果并不理想,體現(xiàn)在該算法對(duì)模糊指標(biāo)m異常敏感,隨著參數(shù)m的變化,hkfcm算法聚類結(jié)果波動(dòng)較大,且聚類結(jié)果表現(xiàn)不好。綜上所述,由于gikfcm充分利用了gkfcm算法和hkfcm算法在高維特征及低維輸入空間中的數(shù)據(jù)優(yōu)化信息,能夠取得更好的聚類性能,且聚類中心以顯式形式給出,具有充分的算法迭代魯棒性,保證算法迭代收斂不受參數(shù)改變的影響。gikfcm更優(yōu)的聚類分類性能和魯棒的迭代收斂性,從而在數(shù)據(jù)挖掘、模式分類和機(jī)器學(xué)習(xí)等領(lǐng)域有著很好的實(shí)用性。
綜上所述,本發(fā)明一種基于gauss誘導(dǎo)核的模糊c均值聚類算法包括如下步驟:1.對(duì)樣本集合依目標(biāo)函數(shù)最小化原則進(jìn)行最優(yōu)化劃分;2.初始化模糊隸屬度或者初始化聚類中心;3.按gauss誘導(dǎo)核聚類算法中的迭代計(jì)算公式對(duì)模糊隸屬度和聚類中心進(jìn)行參數(shù)估計(jì);4.獲得優(yōu)化的目標(biāo)函數(shù)。本發(fā)明能夠有效利用核方法在聚類算法中的非線性表達(dá)能力,提升核聚類算法的聚類性能。且聚類中心迭代公式不包含聚類中心自身,滿足了聚類算法迭代收斂證明的條件,從而從理論上保障了算法的收斂性。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。