本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域,具體地說是一種基于模糊聚類的有效性指標(biāo)的圖像分割方法。
背景技術(shù):
:模糊c均值聚類是模糊聚類中使用最廣泛的算法,對(duì)該算法也進(jìn)行了大量的研究。通過大量的研究已知,沒有一種聚類方法可以得到所有集合的最優(yōu)劃分;其次,很多聚類算法要事先輸入聚類數(shù),然而通常在聚類之前一個(gè)數(shù)據(jù)集的最優(yōu)劃分?jǐn)?shù)目是未知的。通過聚類有效性指標(biāo)獲得最佳聚類數(shù)的過程是一種迭代的過程,通過不斷改變不同的聚類初始值c,計(jì)算對(duì)應(yīng)的每種劃分的有效性指標(biāo)值,最后分析比較得到的指標(biāo)值的大小和變化,通常最值處對(duì)應(yīng)最佳聚類數(shù)。也可以運(yùn)用聚類有效性指標(biāo)比較不同聚類算法之間的優(yōu)劣,對(duì)某個(gè)數(shù)據(jù)集,固定聚類數(shù)等參數(shù)運(yùn)行不同的算法,比較對(duì)應(yīng)的有效性指標(biāo)值可以反映算法的性能,性能好的算法可以更好的對(duì)圖像進(jìn)行分割。聚類有效性指標(biāo)可以分為三類:內(nèi)部有效性指標(biāo)、外部有效性指標(biāo)和相對(duì)有效性指標(biāo)。rezaee在1998年提出了通過比例因子對(duì)xb指標(biāo)中的緊湊度和分離度進(jìn)行縮放,采用線性組合的方式獲得新指標(biāo),雖然在整體性能上有了提高,但指標(biāo)的結(jié)構(gòu)復(fù)雜,且會(huì)出現(xiàn)與事實(shí)相背離的判斷,性能不穩(wěn)定。此后,有人不斷地對(duì)該指標(biāo)進(jìn)行改進(jìn)和完善,但是導(dǎo)致改進(jìn)后的指標(biāo)過于復(fù)雜,計(jì)算效率變低。2004年,pakhira等人提出了pbmf指標(biāo),這是一個(gè)能同時(shí)評(píng)價(jià)硬聚類和模糊聚類結(jié)果的有效性指標(biāo),該指標(biāo)由三個(gè)因子組成,當(dāng)類的數(shù)量較少時(shí),第二和第三個(gè)因子發(fā)揮較大的作用,當(dāng)類的數(shù)量增加時(shí),第一個(gè)因子作用愈發(fā)明顯,該指標(biāo)沒有充分考慮數(shù)據(jù)集的重疊。2011年h.lecapitaine等提出了osi指標(biāo),該指標(biāo)為每個(gè)數(shù)據(jù)點(diǎn)的度量使用多個(gè)集群和分離方法,都是積于成員的聚合程度,該指標(biāo)雖然考慮了數(shù)據(jù)集之間的重疊,但是,計(jì)算方法過于復(fù)雜和繁瑣,使得時(shí)間復(fù)雜度和空間復(fù)雜度都很大。2015年,chih-hungwu等人提出了wli指標(biāo),很好的解決了現(xiàn)有指標(biāo)的不足,但是對(duì)于數(shù)據(jù)結(jié)構(gòu)復(fù)雜和大小集群的數(shù)據(jù)集不能達(dá)到很好的效果;2016年趙娜娜、錢雪忠等人提出了基于緊致性、重疊度和分離性的有效性指標(biāo)cso,該數(shù)據(jù)集實(shí)現(xiàn)了對(duì)類間有交疊子類的數(shù)據(jù)集最佳聚類數(shù)的判斷,但是該指標(biāo)對(duì)于海量高維數(shù)據(jù)集和具有特殊形狀的數(shù)據(jù)集沒有取得良好的效果。技術(shù)實(shí)現(xiàn)要素:本發(fā)明為了克服上述現(xiàn)有技術(shù)存在的不足之處,提出一種基于模糊聚類的有效性指標(biāo)的圖像分割方法,以期能對(duì)像素點(diǎn)集合進(jìn)行準(zhǔn)確的劃分,且適用于復(fù)雜、重疊、有噪聲點(diǎn)的像素集合,從而能對(duì)圖像進(jìn)行良好的分割。為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采用如下技術(shù)方案:本發(fā)明一種基于模糊聚類的有效性指標(biāo)的圖像分割方法的特點(diǎn)是按如下步驟進(jìn)行:步驟1、利用模糊c均值聚類算法對(duì)任意一幅圖像x中的像素點(diǎn)集合{x1,x2,…,xn}劃分為c個(gè)類,初始化c=2,并獲得隸屬度矩陣u={uij|i=1,2,…,c;j=1,2,…,n}和聚類中心v={v1,v2,···,vi,···,vc};uij表示第j個(gè)像素點(diǎn)xj隸屬于第i個(gè)類的隸屬度值,且0≤uij≤1;vi表示第i個(gè)類的聚類中心,j∈[1,n],i∈[1,c],步驟2、利用式(1)建立目標(biāo)函數(shù)jfcm:式(1)中,dij表示第j個(gè)像素點(diǎn)xj與第i個(gè)類的聚類中心之間的距離;表示第j個(gè)像素點(diǎn)xj屬于第i類的隸屬度的m次冪,m為加權(quán)指數(shù),表示聚類模糊程度;步驟3、設(shè)定最大的迭代次數(shù)為m,迭代的終止條件誤差為ε,給定聚類數(shù)目為c,且令初始迭代次數(shù)k=0,則以隸屬度矩陣u和聚類中心v作為初始隸屬度矩陣u0和初始聚類中心v0;步驟4、利用式(2)更新第k次迭代的隸屬度值從而得到第k次迭代的隸屬度矩陣:式(2)中,表示第k次迭代中第j個(gè)像素點(diǎn)xj與第s個(gè)類的聚類中心之間的距離;步驟5、利用式(3)更新第k次迭代的第i個(gè)聚類中心從而得到第k次迭代的聚類中心vk:步驟6、如果||vk-vk-1||<ε,則停止迭代,否則令k+1賦值k后,返回步驟4,直到k=m為止;步驟7、利用式(4)計(jì)算c個(gè)類的類內(nèi)緊致性com(c):步驟8、利用式(5)計(jì)算c個(gè)類的類間分離性sep(c):式(6)中,表示c個(gè)類的平均聚類中心,vr表示第r個(gè)聚類中心;步驟9、利用式(6)獲得c個(gè)類的有效性指標(biāo)vfgy(c):步驟10、將c+1賦值給c,并判斷是否成立,若成立,則表示獲得所有類的有效性指標(biāo),并執(zhí)行步驟11;否則,返回步驟1執(zhí)行;步驟11、比較所有類的有效性指標(biāo),并選擇最大有效性指標(biāo)所對(duì)應(yīng)的聚類數(shù)和相應(yīng)的隸屬度矩陣對(duì)圖像進(jìn)行分割,從而得到圖像分割結(jié)果。與已有技術(shù)相比,本發(fā)明的有益效果體現(xiàn)在:1、本發(fā)明采用分離性和緊湊性比例因子方法,集中了模糊聚類(fcm)指標(biāo)方法的優(yōu)點(diǎn),同時(shí)減少了分類數(shù)較多對(duì)于實(shí)驗(yàn)結(jié)果的影響,使聚類結(jié)果更加準(zhǔn)確。2、本發(fā)明通過計(jì)算每個(gè)類的聚類中心和平均聚類中心之間的距離和兩個(gè)類之間最小聚類中心距離的處理步驟,解決了現(xiàn)有指標(biāo)普遍對(duì)數(shù)據(jù)結(jié)構(gòu)復(fù)雜和集群大小差異懸殊的數(shù)據(jù)集的分類結(jié)果不準(zhǔn)確的問題,并能夠在復(fù)雜分散的數(shù)據(jù)集中兼顧集群和個(gè)別數(shù)據(jù),也充分考慮了數(shù)據(jù)集各個(gè)聚類中心的位置。3、本發(fā)明通過模糊聚類方法,能更加準(zhǔn)確的判斷聚類數(shù),不同聚類中心之間的距離對(duì)分類準(zhǔn)確性的影響力也越來越小,因此,本方法比其他方法更適合于多維和分布復(fù)雜的數(shù)據(jù)集。附圖說明圖1為本發(fā)明方法流程圖;圖2a為本發(fā)明二類原圖像;圖2b為本發(fā)明二類噪聲圖像;圖2c為本發(fā)明二類分割圖像;圖3a為本發(fā)明三類原圖像;圖3b為本發(fā)明三類噪聲圖像;圖3c為本發(fā)明三類分割圖像;圖4a為本發(fā)明自然圖像原圖像;圖4b為本發(fā)明自然圖像噪聲圖像;圖4c為本發(fā)明自然圖像分割圖像;圖5a為本發(fā)明mr腦圖像原圖像;圖5b為本發(fā)明mr腦圖像噪聲圖像;圖5c為本發(fā)明mr腦圖像分割圖像。具體實(shí)施方式本實(shí)施例中,如圖1所示,一種基于模糊聚類的有效性指標(biāo)的圖像分割方法是按照如下步驟進(jìn)行:步驟1、利用模糊c均值聚類算法對(duì)任意一幅圖像x中的像素點(diǎn)集合{x1,x2,…,xn}劃分為c個(gè)類,初始化c=2,并獲得隸屬度矩陣u={uij|i=1,2,…,c;j=1,2,…,n}和聚類中心v={v1,v2,···,vi,···,vc};uij表示第j個(gè)像素點(diǎn)xj隸屬于第i個(gè)類的隸屬度值,且0≤uij≤1;vi表示第i個(gè)類的聚類中心,j∈[1,n],i∈[1,c],步驟2、利用式(1)建立目標(biāo)函數(shù)jfcm:式(1)中,dij表示第j個(gè)像素點(diǎn)xj與第i個(gè)類的聚類中心之間的距離;表示第j個(gè)像素點(diǎn)xj屬于第i類的隸屬度的m次冪,m為加權(quán)指數(shù),表示聚類模糊程度;本實(shí)施例中,m=2;j值最小得到的聚類中心是最優(yōu)的,圖像分割的效果也是最好的,圖2a是二類圖像的原圖像,圖2b是添加10%的椒鹽噪聲之后的圖像,圖2c是fcm算法對(duì)二類圖像的分割效果;圖3a是分為三類的原始圖像,圖3b為添加10%高斯噪聲后的圖像,圖3c為fcm算法對(duì)三類圖像的分割效果;試驗(yàn)中參數(shù)的設(shè)置,m在試驗(yàn)中設(shè)置范圍介于1.5到2.5之間浮動(dòng)設(shè)置,本發(fā)明設(shè)置為2,窗口大小設(shè)置為3×3,通過本發(fā)明的運(yùn)行過程可以得到基于模糊聚類的有效性指標(biāo)的圖像分割方法要明顯優(yōu)于傳統(tǒng)技術(shù)上的模糊c均值聚類算法。步驟3、設(shè)定最大的迭代次數(shù)為m,迭代的終止條件誤差為ε,給定聚類數(shù)目為c,且令初始迭代次數(shù)k=0,則以隸屬度矩陣u和聚類中心v作為初始隸屬度矩陣u0和初始聚類中心v0;步驟4、利用式(2)更新第k次迭代的隸屬度值從而得到第k次迭代的隸屬度矩陣uk:式(2)中,表示第k次迭代中第j個(gè)像素點(diǎn)xj與第s個(gè)類的聚類中心之間的距離;步驟5、利用式(3)更新第k次迭代的第i個(gè)聚類中心從而得到第k次迭代的聚類中心vk:步驟6、如果||vk-vk-1||<ε,則停止迭代,否則令k+1賦值k后,返回步驟4,直到k=m為止;步驟7、利用式(4)計(jì)算c個(gè)類的類內(nèi)緊致性com(c):步驟8、利用式(5)計(jì)算c個(gè)類的類間分離性sep(c):式(6)中,表示c個(gè)類的平均聚類中心,vr表示第r個(gè)聚類中心;表1本發(fā)明在wdbc實(shí)驗(yàn)數(shù)據(jù)表指標(biāo)2類3類4類5類6類7類8類9類10類pc0.8960.7920.7690.7400.6980.6920.6700.5910.418xb10.9096.1463.5242.3931.8281.4181.1871.0931.001sc0.1690.0990.0360.0250.0190.0150.0130.0150.132pbm9.85921.84787.690140.842181.280238.340264.980245.661234.489wy4.9257.22731.18040.56540.68052.79753.18755.12359.637pbmf1557.2111893.2162794.0372949.1413213.0343214.7803281.0963321.8913456.153dunn0.0170.0060.0090.0040.0050.0040.0030.0020.001sci1.2291.1762.5372.5482.3552.3091.9541.8921.713mb12.41511.18420.44019.14717.72916.04314.22713.32211.234wli8.46018.44414.29716.20617.96620.65717.58911.3367.998fgy0.0340.0160.0120.0110.0090.0070.0050.0020.001wdbc數(shù)據(jù)庫由569個(gè)數(shù)據(jù)樣本組成,每個(gè)樣本又包含30屬性,參考聚類數(shù)為2,該數(shù)據(jù)集的維數(shù)很多,大多數(shù)指標(biāo)判斷的劃分結(jié)果是錯(cuò)誤的;而且存在兩個(gè)類之間聚類中心距離很小的情況,導(dǎo)致分割不準(zhǔn)確,而本發(fā)明的指標(biāo)采用了平均聚類中心和任意兩個(gè)類之間聚類中心最小值均參與分離性度量的方法,解決了上述的問題,得到了很好的分割結(jié)果。步驟9、利用式(6)獲得c個(gè)類的有效性指標(biāo)vfgy(c):步驟10、將c+1賦值給c,并判斷是否成立,若成立,則表示獲得所有類的有效性指標(biāo),并執(zhí)行步驟11;否則,返回步驟1執(zhí)行;為了驗(yàn)證所提算法在自然圖像下的分割效果,采用最常使用的camerman圖像進(jìn)行實(shí)驗(yàn)。圖4a自然圖像camerman原圖像,圖4b是自然圖像camerman添加10%的椒鹽噪聲圖像,圖4c是自然突襲那個(gè)的分割圖像;參數(shù)設(shè)置c=3,m=2,a的大小設(shè)置為1.0,l設(shè)置為5.0,ε設(shè)置為0.001,迭代次數(shù)100次,窗口大小設(shè)置為3×3,從以下的圖4a-圖4c可以看出,該發(fā)明的方法更好地保持圖像的細(xì)節(jié)特征而且對(duì)于天空和草地也可以分割出來。圖5a-圖5c為一個(gè)醫(yī)學(xué)圖像的例子,其中圖5a為mr大腦切葉圖像原圖像,圖5b為mr大腦切葉圖像噪聲圖像,圖5c為mr大腦切葉圖像分割圖像。通過本方法進(jìn)行處理,也取得了良好的分割效果。步驟11、比較所有類的有效性指標(biāo),并選擇最大有效性指標(biāo)所對(duì)應(yīng)的聚類數(shù)和相應(yīng)的隸屬度矩陣對(duì)圖像進(jìn)行分割,從而得到圖像分割結(jié)果。表1給出了本文中用于比較的指標(biāo)在6個(gè)數(shù)據(jù)集中的聚類結(jié)果。表2本發(fā)明在多個(gè)數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果data-yeast數(shù)據(jù)集是一個(gè)復(fù)雜的數(shù)據(jù)集,擁有10個(gè)分類,在同等條件下,我們系統(tǒng)的分析一下實(shí)驗(yàn)結(jié)果可以得到如下結(jié)論:指標(biāo)vpc、vsc的值呈遞減,而指標(biāo)vpe、vsci的值呈遞增,取最值的點(diǎn)只能在分類數(shù)的兩端,我們的實(shí)驗(yàn)分類數(shù)是從2到15,這說明這四個(gè)指標(biāo)不僅得不到正確的分類結(jié)果,而且不能適應(yīng)該復(fù)雜的數(shù)據(jù)集;vwy、vwli、vpbmf指標(biāo)在10附近分類數(shù)上值有跳躍性變化,甚至可以取得極值,但是它們的最值點(diǎn)均不在正確的分類數(shù)上,這說明這些指標(biāo)對(duì)該類型的數(shù)據(jù)集有一定的處理能力;vxb指標(biāo)在分類數(shù)10的地方取得極值,但是在分類數(shù)13的地方突然出現(xiàn)一個(gè)跳變的點(diǎn),且在分類數(shù)13上的值大于分類數(shù)10的值,因此也沒有取得正確的結(jié)果;vpbm指標(biāo)取最值時(shí)對(duì)應(yīng)的分類數(shù)為11,很接近正確的分類數(shù),說明該指標(biāo)特性良好;在其他指標(biāo)均沒有得到很好效果的情況下,而新指標(biāo)vfgy得到了正確的結(jié)果,說明新指標(biāo)具有很好的特性。本發(fā)明vfgy指標(biāo)把iris數(shù)據(jù)集分為3類,說明該指標(biāo)實(shí)現(xiàn)了有重疊數(shù)據(jù)的正確聚類;data-habe、data-pima、data-wdbc這三種數(shù)據(jù)集各自擁有不同的特點(diǎn),data-habe數(shù)據(jù)集是一個(gè)樣本和屬性個(gè)數(shù)相對(duì)較少的數(shù)據(jù)集,data-pima數(shù)據(jù)集屬性個(gè)數(shù)相對(duì)較均衡,樣本數(shù)量相對(duì)大一些,data-wdbc數(shù)據(jù)集雖然樣本數(shù)量不是很多,但是樣本屬性繁多,由此,可以得出vfgy指標(biāo)具有很強(qiáng)的適應(yīng)能力。由此,本發(fā)明對(duì)圖像分割可以取得更好的效果。當(dāng)前第1頁12