基于Gauss誘導(dǎo)核的模糊c均值聚類算法的制作方法

文檔序號(hào)：11323815閱讀：415來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域進(jìn)行無監(jiān)督數(shù)據(jù)分類的算法，具體的說是一種基于gauss誘導(dǎo)核的模糊c均值聚類算法。

背景技術(shù)：

聚類分析是無監(jiān)督模式識(shí)別的一個(gè)重要內(nèi)容，聚類的目的是使得相似樣本劃分在一起，而將不相似樣本劃分為不同類別。模糊c均值聚類算法(fcm)是聚類分析中應(yīng)用最為廣泛的一種方法，是由dun、bezdek等人發(fā)展而成的一種模糊聚類算法，fcm算法基于加權(quán)誤差平方和最小化理論，使用歐式距離度量樣本與聚類中心，用于表現(xiàn)樣本與聚類中心間的誤差，適合于數(shù)據(jù)集為線性關(guān)系的數(shù)據(jù)，但對(duì)非線性數(shù)據(jù)的聚類往往效果不好。

自核方法被成功的應(yīng)用于分類器支持向量機(jī)(svm)以來，即受到機(jī)器學(xué)習(xí)和模式分類領(lǐng)域研究者的廣泛關(guān)注和研究，并進(jìn)一步將其推廣應(yīng)用到特征提取、模糊聚類等領(lǐng)域。

核方法將輸入空間的非線性關(guān)系通過非線性映射轉(zhuǎn)換為高維特征空間的線性關(guān)系，增大了模式間的差異性刻畫，且利用核函數(shù)表示高維特征空間中的內(nèi)積運(yùn)算，無需明確知道具體的非線性映射形式，克服了機(jī)器學(xué)習(xí)的維數(shù)災(zāi)難問題，所以在模糊聚類領(lǐng)域有著廣泛而成功的應(yīng)用。

由于核方法利用核函數(shù)表達(dá)特征空間中的內(nèi)積運(yùn)算，且特征空間中的空間距離可轉(zhuǎn)換為內(nèi)積運(yùn)算形式，所以核方法適合于在特征空間中僅存在內(nèi)積和距離運(yùn)算的算法。聚類中心是模糊聚類算法的重要組成部分，由于核方法中非線性映射的無具體形式給出，因此在模糊聚類算法中應(yīng)用核方法時(shí)，一個(gè)關(guān)鍵性的問題是如何表示核聚類中心。

自girolami和張莉、焦李成等提出硬核聚類算法以來，將核方法應(yīng)用于聚類算法的各種核模糊聚類算法應(yīng)運(yùn)而生，通過對(duì)比研究可以發(fā)現(xiàn)，這些核模糊聚類算法的根本原理都是相同的，即在各種模糊聚類算法中結(jié)合應(yīng)用核方法。這些核模糊聚類算法的聚類目標(biāo)函數(shù)和模糊隸屬度公式在形式上是一致的，不同之處在于核聚類中心的推導(dǎo)原理及表現(xiàn)形式的不同。

現(xiàn)有核模糊聚類算法依聚類中心生成原理可分為三種，第一種是利用核矩陣k(vi,vi)及k(xh,vi)交替迭代，對(duì)模糊隸屬度進(jìn)行估計(jì)，聚類中心vi沒有顯示給出，該核聚類算法稱為隱核模糊c均值聚類算法(hkfcm)，算法性能不夠穩(wěn)定。第二種是利用高斯核函數(shù)求偏導(dǎo)在輸入空間中得到聚類中心的vi的顯式表達(dá)，但聚類中心迭代公式右端包含聚類中心本身，不滿足聚類算法收斂性證明的要求，稱為gauss核模糊c均值聚類算法(gkfcm)。第三種是利用粒子群生物進(jìn)化算法(pso)在輸入空間中對(duì)聚類中心進(jìn)行搜索，稱為pso核模糊c均值聚類算法(pso—kfcm)，依賴于粒子群算法的迭代收斂，當(dāng)初始條件不好時(shí)，則聚類性能較差。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明為了克服現(xiàn)有技術(shù)存在的不足之處，充分利用核函數(shù)的非線性表達(dá)能力，提出一種基于gauss誘導(dǎo)核的模糊c均值聚類算法，目的在于充分利用聚類算法在輸入空間和核映射空間的分類信息，提升算法的分類性能。同時(shí)以顯示形式表現(xiàn)參數(shù)迭代公式，且迭代公式右端不含有待迭代參數(shù)自身，進(jìn)而保證算法的收斂性。

為了實(shí)現(xiàn)上述發(fā)明目的，本發(fā)明采用如下技術(shù)方案：

本發(fā)明基于gauss誘導(dǎo)核的模糊c均值聚類算法，特點(diǎn)按如下步驟進(jìn)行：

步驟1：令x＝{x1,x2,l,xj,l,xn}表示給定的樣本集合，xj表示第j個(gè)樣本；1≤j≤n，n是樣本的個(gè)數(shù)；對(duì)樣本集合x進(jìn)行最優(yōu)化劃分，使得目標(biāo)函數(shù)值jgikfcm最小，其中jgikfcm由式(1)所確定。

在式(1)中，c表示劃分的類別數(shù)，1≤i≤c，uij表示第j個(gè)樣本xj隸屬于第i類的模糊隸屬度，0≤uij≤1，且有表示第j個(gè)樣本xj歸屬于各類的模糊隸屬度的和為1；u＝{uij,i＝1,l,c；j＝1,l,n}表示隸屬度矩陣，m(m＞1)為模糊指標(biāo)，為uij的m次；dkij表示基于核函數(shù)k(·,·)空間下第j個(gè)樣本xj與第i類聚類中心的距離vi，并且有：

dkij²＝||φ(xj)-φ(vi)||²＝<φ(xj)-φ(vi),φ(xj)-φ(vi)>＝k(xj,xj)+k(vi,vi)-2k(xj,vi)(2)

式(2)中，φ(xj)表示第j個(gè)樣本非線性映射到高維特征空間中的映射函數(shù)；并且有：

<φ(xj),φ(vi)>＝k(xj,vi)(3)

式(4)為高斯核函數(shù)，σ∈r為尺度因子。

當(dāng)核函數(shù)k(·,·)取值高斯核函數(shù)式(4)時(shí)，有：

kg(x,x)＝1(5)

則式(2)在高斯核函數(shù)下則轉(zhuǎn)換為：

步驟2：用值在0，1間的隨機(jī)數(shù)初始化第j個(gè)樣本xj隸屬于第i類的模糊隸屬度定義迭代次數(shù)為λ，最大迭代次數(shù)為λmax；初始化λ＝1，則第λ次迭代的隸屬矩陣為u^(λ)，第λ次迭代的聚類中心為聚類中心矩陣為

步驟3：用式(7)計(jì)算第λ次迭代的c個(gè)聚類中心i＝1,...,c。

式(7)中，kg表示高斯核函數(shù)，表示第λ-1次迭代時(shí)高斯核空間中第j個(gè)樣本xj隸屬于第i類的模糊隸屬度，i＝1,...,c，j＝1,...,n。

步驟4：根據(jù)式(8)計(jì)算第λ次迭代的核模糊隸屬度

在式(8)中，表示第λ次迭代時(shí)高斯核空間中的第i類的聚類中心。

步驟5：判斷或λ＞λmax，若成立，則ukij^(λ)為迭代算法參數(shù)估計(jì)出的最優(yōu)模糊隸屬度，并令ukij^(λ)＝uij代入式(1)中，進(jìn)而實(shí)現(xiàn)對(duì)樣本集合x的最優(yōu)劃分，ε，λmax是事先給定的閾值。若不成立，則令λ＝λ+1，重復(fù)步驟3順序執(zhí)行，直到條件滿足為止。

與已有技術(shù)相比，本發(fā)明的有益效果體現(xiàn)在：

1.gauss誘導(dǎo)核模糊c均值聚類算法(gikfcm)將隱核模糊c均值聚類算法(hkfcm)與gauss核模糊c均值聚類算法(gkfcm)相結(jié)合，得到gauss核誘導(dǎo)聚類中心式(7)。在gauss核誘導(dǎo)聚類中心的推導(dǎo)過程中，既利用了隱核聚類中心在高維核空間中關(guān)于φ(vi)的梯度優(yōu)化信息，又結(jié)合了gauss核聚類中心關(guān)于vi的梯度優(yōu)化信息，因此能夠從數(shù)據(jù)集x中獲取較hkfcm和gkfcm更多的數(shù)據(jù)劃分優(yōu)化信息，從而提升聚類算法的優(yōu)化性能，保證gikfcm算法擁有更加準(zhǔn)確的聚類表現(xiàn)。

2.gikfcm算法聚類中心式(7)右端不包含聚類中心vi，僅為模糊隸屬度uij的函數(shù)，這與gkfcm算法聚類中心截然不同，從而滿足了模糊聚類算法收斂性證明的要求，即要求聚類中心和模糊隸屬度公式互為嵌套對(duì)偶函數(shù)，通過ao交替迭代過程對(duì)參數(shù)進(jìn)行估計(jì)，進(jìn)而從理論上保證了gikfcm算法的收斂性。

3.gikfcm算法聚類中心函數(shù)僅以模糊隸屬度為自變量，而模糊隸屬度函數(shù)以聚類中心為自變量，與模糊c均值聚類算法(fcm)類似，因此既可以對(duì)聚類中心進(jìn)行初始化，也可以對(duì)模糊隸屬度進(jìn)行初始化，反映了該算法的迭代通用性。而gkfcm、pso-kfcm算法只能先對(duì)聚類中心進(jìn)行初始化，否則無法進(jìn)行算法的迭代計(jì)算。hkfcm只能對(duì)模糊隸屬度作初始化。在本實(shí)施例中，采用基于uci機(jī)器學(xué)習(xí)數(shù)據(jù)庫中的公共數(shù)據(jù)集進(jìn)行算法比對(duì)測(cè)試，所選數(shù)據(jù)集為iris數(shù)據(jù)集，數(shù)據(jù)集的信息如表1所示。選用hkfcm、gkfcm算法與gikfcm算法做對(duì)比測(cè)試。

具體實(shí)施方式

在本實(shí)施例中，采用基于uci機(jī)器學(xué)習(xí)數(shù)據(jù)庫中的公共數(shù)據(jù)集進(jìn)行算法比對(duì)測(cè)試，所選數(shù)據(jù)集為iris數(shù)據(jù)集，數(shù)據(jù)集的信息如表1所示。選用hkfcm、gkfcm算法與gauss誘導(dǎo)核模糊c均值聚類算法(以下簡(jiǎn)稱gikfcm算法)做對(duì)比測(cè)試。

表1iris實(shí)驗(yàn)數(shù)據(jù)集

gauss誘導(dǎo)核模糊c均值聚類算法是按如下步驟進(jìn)行：

步驟1：令x＝{x1,x2,l,xj,l,xn}表示給定的樣本集合，xj表示第j個(gè)樣本；1≤j≤n，n是樣本的個(gè)數(shù)；對(duì)樣本集合x進(jìn)行最優(yōu)化劃分，使得目標(biāo)函數(shù)值jkfcm最小，其中jkfcm由式(1)所確定。gikfcm算法、gkfcm算法、hkfcm算法的測(cè)試結(jié)果分別如表2、表3、表4所示。

在測(cè)試時(shí)，三種核聚類算法都選用gauss核函數(shù)，gauss核函數(shù)需要對(duì)gauss核參數(shù)σ賦值，取核參數(shù)σ取值范圍為[2¹,2²,2³,2⁴]，聚類算法模糊指標(biāo)m取值為[2,3,4]。每種聚類算法根據(jù)參數(shù)和數(shù)據(jù)集進(jìn)行10次測(cè)試，計(jì)算各類聚類平均精度。很顯然這三種核聚類算法的核模糊隸屬度及聚類目標(biāo)函數(shù)是相同的，區(qū)別在于聚類中心的表達(dá)上，其中g(shù)kfcm和gikfcm算法在輸入空間中尋找聚類中心，而hkfcm算法在核映射空間中隱式表現(xiàn)了聚類中心。在算法迭代的初始化方面，gkfcm、gikfcm算法選擇對(duì)聚類中心做初始化，hkfcm算法選擇對(duì)模糊隸屬度做初始化。

表2gikfcm算法基于iris數(shù)據(jù)集的分類精度(％)

表3gkfcm算法基于iris數(shù)據(jù)集的測(cè)試結(jié)果(％)

表4hkfcm算法基于iris數(shù)據(jù)集的分類精度(％)

gauss誘導(dǎo)核模糊c均值聚類算法(以下簡(jiǎn)稱gikfcm)基于數(shù)據(jù)集iris的最高平均分類精度為92.67％，在參數(shù)σ＝2，m＝4時(shí)取得；最低平均分類精度為89.33％，分別在參數(shù)σ＝8m＝2和σ＝16m＝2。在聚類平均精度的基礎(chǔ)上，再取聚類平均精度的平均為90.4225％。gkfcms算法基于數(shù)據(jù)集iris的最高平均分類精度為92.53％，在參數(shù)σ＝2，m＝4時(shí)取得；最低平均分類精度為89.33％，分別在參數(shù)σ＝8m＝2和σ＝16m＝2。在聚類平均精度的基礎(chǔ)上，再取聚類平均精度的平均為90.39％。hkfcm算法基于數(shù)據(jù)集iris的最高平均分類精度為90.00％，在參數(shù)σ＝16m＝3時(shí)取得，最低平均分類精度為66.67％，分別在參數(shù)σ＝2m＝3和σ＝2m＝4。在聚類平均精度的基礎(chǔ)上，再取聚類平均精度的平均為80.51％。

dkij²＝||φ(xj)-φ(vi)||²＝〈φ(xj)-φ(vi),φ(xj)-φ(vi)＞＝k(xj,xj)+k(vi,vi)-2k(xj,vi)(2)

式(2)中，φ(xj)表示第j個(gè)樣本非線性映射到高維特征空間中的映射函數(shù)；并且有：

<φ(xj),φ(vi)>＝k(xj,vi)(3)

式(4)為高斯核函數(shù)，σ∈r為尺度因子。

當(dāng)核函數(shù)k(·,·)取值高斯核函數(shù)式(4)時(shí)，有：

kg(x,x)＝1(5)

則式(2)在高斯核函數(shù)下則轉(zhuǎn)換為：

步驟3：用式(7)計(jì)算第λ次迭代的c個(gè)聚類中心i＝1,...,c。

式(7)中，kg表示高斯核函數(shù)，表示第λ-1次迭代時(shí)高斯核空間中第j個(gè)樣本xj隸屬于第i類的模糊隸屬度，i＝1,...,c，j＝1,...,n。

步驟4：根據(jù)式(8)計(jì)算第λ次迭代的核模糊隸屬度

在式(8)中，表示第λ次迭代時(shí)高斯核空間中的第i類的聚類中心。

步驟5：判斷或λ＞λmax，若成立，則為迭代算法參數(shù)估計(jì)出的最優(yōu)模糊隸屬度，并令代入式(1)中，進(jìn)而實(shí)現(xiàn)對(duì)樣本集合x的最優(yōu)劃分，ε，λmax是事先給定的閾值。若不成立，則令λ＝λ+1，重復(fù)步驟3順序執(zhí)行，直到條件滿足為止。

由表2和表3可知，gikfcm和gkfcm算法對(duì)于iris數(shù)據(jù)集都能取得較好的聚類結(jié)果，在不同的參數(shù)取值情況下，gikfcm和gkfcm算法聚類結(jié)果之間各有高低，如當(dāng)σ＝2，m＝4時(shí)，gikfcm平均聚類精度92.67％高于gkfcm平均聚類精度92.53％；而在σ＝4，m＝4時(shí)，gikfcm平均聚類精度90.80％低于gkfcms平均聚類精度90.93％。但在最高平均分類精度上和聚類平均精度的平均上，gikfcm算法是高于gkfcm算法的，體現(xiàn)了gikfcm算法的有效性。由表4可知，hkfcm算法基于數(shù)據(jù)集iris的測(cè)試結(jié)果并不理想，體現(xiàn)在該算法對(duì)模糊指標(biāo)m異常敏感，隨著參數(shù)m的變化，hkfcm算法聚類結(jié)果波動(dòng)較大，且聚類結(jié)果表現(xiàn)不好。綜上所述，由于gikfcm充分利用了gkfcm算法和hkfcm算法在高維特征及低維輸入空間中的數(shù)據(jù)優(yōu)化信息，能夠取得更好的聚類性能，且聚類中心以顯式形式給出，具有充分的算法迭代魯棒性，保證算法迭代收斂不受參數(shù)改變的影響。gikfcm更優(yōu)的聚類分類性能和魯棒的迭代收斂性，從而在數(shù)據(jù)挖掘、模式分類和機(jī)器學(xué)習(xí)等領(lǐng)域有著很好的實(shí)用性。

綜上所述，本發(fā)明一種基于gauss誘導(dǎo)核的模糊c均值聚類算法包括如下步驟：1.對(duì)樣本集合依目標(biāo)函數(shù)最小化原則進(jìn)行最優(yōu)化劃分；2.初始化模糊隸屬度或者初始化聚類中心；3.按gauss誘導(dǎo)核聚類算法中的迭代計(jì)算公式對(duì)模糊隸屬度和聚類中心進(jìn)行參數(shù)估計(jì)；4.獲得優(yōu)化的目標(biāo)函數(shù)。本發(fā)明能夠有效利用核方法在聚類算法中的非線性表達(dá)能力，提升核聚類算法的聚類性能。且聚類中心迭代公式不包含聚類中心自身，滿足了聚類算法迭代收斂證明的條件，從而從理論上保障了算法的收斂性。

以上所述僅為本發(fā)明的較佳實(shí)施例而已，并不用以限制本發(fā)明。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：文傳軍;陳榮軍;劉福燕
技術(shù)所有人：常州工學(xué)院
我是此專利的發(fā)明人

上一篇：一種魚類加工后的漂洗裝置的制造方法
上一篇：一種魚類加工中旋轉(zhuǎn)改刀裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

模糊c均值聚類算法相關(guān)技術(shù)

模糊均值聚類算法相關(guān)技術(shù)

k均值聚類算法相關(guān)技術(shù)

c均值聚類算法相關(guān)技術(shù)

k均值聚類算法實(shí)例相關(guān)技術(shù)

二分k均值聚類算法相關(guān)技術(shù)

k均值聚類算法步驟相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于Gauss誘導(dǎo)核的模糊c均值聚類算法的制作方法