本發(fā)明涉及數(shù)據(jù)處理領域,尤其是一種k均值聚類的數(shù)據(jù)處理方法。
背景技術:
k均值聚類方法是一種廣泛應用的模式識別方法,可以應用到時間序列、數(shù)字圖像等數(shù)據(jù)的模式挖掘中。k均值聚類法使用歐式距離衡量2組數(shù)據(jù)的差異,通過計算與各個類別的平均矢量的距離(注、向量和矢量是同一個術語,以下不加區(qū)分,隨時混用),進行類別分配,不斷地重復這個過程,直到獲得穩(wěn)定的類別分配結果。該方法迭代平均矢量的計算和類別分配這個過程,一般而言,理論上只能保證獲得局部最優(yōu)的分類結果。k均值聚類法是一種硬分類方法,常常被推廣為一種軟分類法,即所謂的模糊k均值聚類法,主要思想是對每一組數(shù)據(jù)并不“非此即彼”地認為屬于或不屬于某類,而是以一個隸屬度函數(shù)來標識屬于某一個類別的程度,隸屬度函數(shù)取值范圍是0到1的任意中間值??梢妅均值聚類法實質上是模糊k均值聚類法的一個特例。
以上均值聚類方法中最常用的距離準則皆是歐式距離,或是等價的p范數(shù)距離(歐式距離可以看作是p為2的范數(shù)距離)。在p范數(shù)距離下,以上迭代計算類別的平均矢量和類別分配的過程同樣能保證獲得局部最優(yōu)的結果。簡單的理由如下,類別的平均矢量到各個該類別中的矢量的距離相等,這個特性無論在何種p范數(shù)距離下都成立。但是傳統(tǒng)的p范數(shù)距離是線性距離(所謂線性,是指將矢量正向伸縮后得到的長度為原長度乘以伸縮系數(shù)),它的主要特點是對局部差異太敏感,這個和實際應用中的需求不太吻合。例如,判斷2副數(shù)字圖像是否相同或相似,這2副圖像除了在個別的1、2個像素上具有不同的數(shù)值,其它像素數(shù)值完全一致。通過p范數(shù)距離計算得到的圖像的距離(差異性)是非0的,而對于人類眼睛的觀察來說2副圖像是沒有差別的(那么如果使用其他方法能夠得到新的距離為0的計算結果,則該新的距離更符合人類的視覺效果)。實際上,在很多其他應用場合,有時候傳統(tǒng)p范數(shù)距離表現(xiàn)出來的差異并不符合人類的主觀評判。例如,三個射擊選手進行的10次測試成績如表1:
表1
顯然甲的成績最好。假如以甲為基準,對乙和丙的成績進行評判,乙和甲的p范數(shù)距離為14(p為1);丙和甲的p范數(shù)距離為14(p為1)。則僅僅依照范數(shù)距離發(fā)現(xiàn),乙和丙的成績幾乎相同,但是從人的主觀上看丙的成績似乎更好,因為相對于甲而言,除了一次成績差距較巨之外,基本上比較一致;而乙?guī)缀趺恳淮味悸赃d于甲。丙偶然地一次較大幅度地落后于甲在實際中被認為是可以忽略的。
技術實現(xiàn)要素:
為了克服已有k均值聚類的數(shù)據(jù)處理方法的準確性較差的不足,本發(fā)明提供一種更加符合人類主觀的模糊性標準、準確性較好的基于模糊度量的k均值聚類的數(shù)據(jù)處理方法。
本發(fā)明解決其技術問題所采用的技術方案是:
一種基于模糊度量的k均值聚類的數(shù)據(jù)處理方法,所述數(shù)據(jù)處理方法包括以下步驟:
1)初始化,在m個n維向量中隨機取q個向量作為初始均值聚類中心,q為類型數(shù)目;
2)對于每一個待聚類的向量計算到每一個均值中心的模糊度量的距離;
設第h類的均值中心為(Mh1,Mh2,...,Mhn)T,某向量為計算該兩個向量之間的模糊度量的距離的過程如下:
2.1)計算兩個向量的差,并取1范數(shù),得到如下的向量分布
2.2)對上述結果向量的分量作由小到大的排序,得到
(a1,a2,...,an)
其中a1≤a2≤...≤an且
l=1,2,...,n;1≤r1,r2,...,rn≤n
2.3)從(a1,a2,...,an)各分量里取出相異的t個數(shù)值,a*1<a*2<...<a*t,t≤n
計算其中,表示(a1,a2,...,an)各分量不小于的個數(shù),當各個{al}相異時,即取ai和中的較小者;
2.4)最后得到模糊度量的距離數(shù)值為measure=max{b1,b2,...,bt}即所有{bi}中的最大值;
3)對待聚類的該向量分配一個類號,類號取自于具與最小模糊度量距離的均值中心所在的類別;
4)遍歷各個待聚類向量,根據(jù)所屬類號,分別計算具有相同類號的向量的平均向量,該平均向量更新作為新的該類的均值中心;
5)對于每一類別,計算當前均值中心與被更新的均值中心之間的模糊度量距離;
6)對于每一類別,如果前后均值中心的模糊度量距離均小于預設的閾值,則分類結束,否則回到2)繼續(xù)。
進一步,所述步驟1)中,對所有向量作了預處理,使得各個向量分布于[0,1]區(qū)間,預處理過程是找出各個向量的各維分量之中的最小值min、最大值max,然后對每一個向量的每一維分量作平移伸縮:
其中,xij表示第i個向量的第j個分量;表示該分量被預處理后的記號。
本發(fā)明的技術構思為:開發(fā)了一種模糊度量的距離,使得對差異性評判更加符合人類的主觀上的模糊性標準。這個模糊度量是建立在對數(shù)據(jù)的p范數(shù)(p為1)距離數(shù)值的進一步的非線性處理之上的,但仍舊保留平均矢量與各參與平均的矢量等距的特性,因此可以用在k均值聚類或模糊k均值聚類上,使得聚類的分類效果更加與人類的主觀評判一致,從而滿足實際應用的模糊性的需求。具體舉例而言,針對上述2副圖像的例子,使用該模糊度量得出的距離(差異)應該是遠遠小于p范數(shù)距離;而針對射擊選手的評價則是丙與甲的差距小于乙與甲的差距。
本發(fā)明的有益效果主要表現(xiàn)在:更加符合人類主觀的模糊性標準、準確性較好。
附圖說明
圖1是模糊度量的距離計算步驟框圖。
具體實施方式
下面結合附圖對本發(fā)明作進一步描述。
參照圖1,一種基于模糊度量的k均值聚類的數(shù)據(jù)處理方法,所述數(shù)據(jù)處理方法包括以下步驟:
1)初始化,在m個n維向量中隨機取q個向量作為初始均值聚類中心,q為類型數(shù)目;
2)對于每一個待聚類的向量計算到每一個均值中心的模糊度量的距離;
設第h類的均值中心為(Mh1,Mh2,...,Mhn)T,某向量為計算該兩個向量之間的模糊度量的距離的過程如下:
2.1)計算兩個向量的差,并取1范數(shù),得到如下的向量分布
2.2)對上述結果向量的分量作由小到大的排序,得到
(a1,a2,...,an)
其中a1≤a2≤...≤an且
l=1,2,...,n;1≤r1,r2,...,rn≤n
2.3)從(a1,a2,...,an)各分量里取出相異的t個數(shù)值,a*1<a*2<...<a*t,t≤n
計算其中,表示(a1,a2,...,an)各分量不小于的個數(shù),當各個{al}相異時,即取ai和中的較小者;
2.4)最后得到模糊度量的距離數(shù)值為measure=max{b1,b2,...,bt}即所有{bi}中的最大值;
3)對待聚類的該向量分配一個類號,類號取自于具與最小模糊度量距離的均值中心所在的類別;
4)遍歷各個待聚類向量,根據(jù)所屬類號,分別計算具有相同類號的向量的平均向量,該平均向量更新作為新的該類的均值中心;
5)對于每一類別,計算當前均值中心與被更新的均值中心之間的模糊度量距離;
6)對于每一類別,如果前后均值中心的模糊度量距離均小于預設的閾值,則分類結束,否則回到2)繼續(xù)。
進一步,所述步驟1)中,對所有向量作了預處理,使得各個向量分布于[0,1]區(qū)間,預處理過程是找出各個向量的各維分量之中的最小值min、最大值max,然后對每一個向量的每一維分量作平移伸縮:
其中,xij表示第i個向量的第j個分量;表示該分量被預處理后的記號。
本實施例中,在k均值聚類的方法中凡涉及到距離計算的,均使用新的模糊度量替換,這樣使用新的距離構成了新的均值聚類分析方法;使用該新的模糊度量作為距離計算后,原先的k均值聚類的優(yōu)化方法步驟不變,原因是該模糊距離是在p范數(shù)(p取作1)基礎上所作的非線性運算,它仍舊保留平均矢量對參與平均的矢量的距離相等的特性。
例1:有關射擊選手評價表參照表2:
表2
例2:假設2副圖像像素分辨率都為256*256,除了一個像素點數(shù)值差為10,其余像素數(shù)值相同。則它們的1-范數(shù)距離為10,模糊度量的距離1/65536,將其放大到1-范數(shù)距離相同的尺度(放大10倍)后為10/65536=0.00015,可見幾乎為0了。