本發(fā)明屬于計(jì)算;推算;計(jì)數(shù)的技術(shù)領(lǐng)域,特別涉及一種為高維稀疏數(shù)據(jù)設(shè)計(jì)的基于稀疏均值的模糊聚類方法。
背景技術(shù):
在很多領(lǐng)域的現(xiàn)實(shí)問題中,需要借助有效的聚類方法對(duì)高維稀疏數(shù)據(jù)集中的對(duì)象進(jìn)行分組從而分析數(shù)據(jù)的內(nèi)在結(jié)構(gòu)并挖掘有用知識(shí)來幫助人們進(jìn)一步?jīng)Q策,比如對(duì)新聞文檔進(jìn)行分組來檢測(cè)其中包含的話題。
模糊聚類分析是根據(jù)客觀事物間的特征、親疏程度、相似性,通過建立模糊相似關(guān)系對(duì)客觀事物進(jìn)行聚類的分析方法,其比起硬聚類的優(yōu)勢(shì)是借助模糊集理論引入模糊隸屬度的概念,從而能夠自然的描述類之間的重疊性。
然而,根據(jù)統(tǒng)計(jì)學(xué)理論,在向量空間中對(duì)潛在概率分布的正確估計(jì)需要的樣本數(shù)會(huì)隨著維度的增加成指數(shù)增長(zhǎng),這使得傳統(tǒng)的模糊聚類對(duì)高維數(shù)據(jù)如文本數(shù)據(jù)的處理結(jié)果并不是很好,同時(shí),傳統(tǒng)的模糊k均值算法基于歐氏距離來衡量樣本點(diǎn)到類中心點(diǎn)的距離,在沒有任何約束的情況下,高維稀疏數(shù)據(jù)的均值并非稀疏,這導(dǎo)致樣本點(diǎn)(高維稀疏向量)和均值(高維非稀疏向量)之間的歐氏距離不能有效衡量樣本點(diǎn)與類之間的相似性。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明解決的技術(shù)問題是,現(xiàn)有技術(shù)中,在向量空間中對(duì)潛在概率分布的正確估計(jì)需要的樣本數(shù)會(huì)隨著維度的增加成指數(shù)增長(zhǎng),同時(shí),傳統(tǒng)的模糊k均值算法基于歐氏距離來衡量樣本點(diǎn)到類中心點(diǎn)的距離,在沒有任何約束的情況下,高維稀疏數(shù)據(jù)的均值并非稀疏,而導(dǎo)致的傳統(tǒng)的模糊聚類對(duì)高維數(shù)據(jù)如文本數(shù)據(jù)的處理結(jié)果并不是很好,樣本點(diǎn)(高維稀疏向量)和均值(高維非稀疏向量)之間的歐氏距離不能有效衡量樣本點(diǎn)與類之間的相似性的問題,進(jìn)而提供了一種優(yōu)化的基于稀疏均值的模糊聚類方法。
本發(fā)明所采用的技術(shù)方案是,一種基于稀疏均值的模糊聚類方法,所述方法包括以下步驟:
步驟1.1:將待聚類的文檔用向量空間模型表示為高維稀疏向量X={x1,x2,…xn},其中每個(gè)樣本點(diǎn)為s維向量,即xi∈Rs,s>0,1≤i≤n;n為樣本總數(shù),n>0;
步驟1.2:設(shè)置參數(shù),所述參數(shù)包括類數(shù)k、模糊化系數(shù)m、初始正則項(xiàng)權(quán)重β0、結(jié)束判斷參數(shù)ε及最大迭代次數(shù)T;0<k<n,1<m<2;β0>0;設(shè)定帶有均值l1范數(shù)正則項(xiàng)的最小化目標(biāo)函數(shù)其中,uci表示第i個(gè)樣本到第c個(gè)類的隸屬度,δc表示第c個(gè)類的均值;
步驟1.3:初始化均值,得到與最后結(jié)果相近的k個(gè)初始均值分別為[δ1,δ2,…δk];計(jì)迭代次數(shù)l=1;
步驟1.4:基于當(dāng)前均值,利用式更新所有隸屬度的值,1≤c≤k;
步驟1.5:對(duì)每一類c=1,2,…,k,更新權(quán)重β,然后基于步驟1.4的隸屬度uci更新對(duì)應(yīng)的k個(gè)均值;
步驟1.6:當(dāng)對(duì)應(yīng)的k個(gè)均值不再變化或迭代次數(shù)l>T,迭代結(jié)束;否則重復(fù)步驟1.3;
步驟1.7:輸出聚類結(jié)果。
優(yōu)選地,所述步驟1.2中,最小化目標(biāo)函數(shù)應(yīng)當(dāng)同時(shí)滿足的約束條件為:對(duì)所有c和i滿足uci≥0,對(duì)所有i,
優(yōu)選地,所述步驟1.2中,模糊化系數(shù)m≤1.2。
優(yōu)選地,所述步驟1.2中,初始正則項(xiàng)權(quán)重β0≤10。
優(yōu)選地,所述步驟1.5中,基于步驟1.4的隸屬度uci更新權(quán)重β,
優(yōu)選地,所述步驟1.5中,采用式更新對(duì)應(yīng)的k個(gè)均值,其中,sign(δ′c)返回該向量中對(duì)應(yīng)元素的符號(hào)。
優(yōu)選地,所述步驟1.5中,選出每個(gè)δc中權(quán)重最大的字符作為關(guān)鍵詞用于描述或解釋該類別。
優(yōu)選地,所述步驟1.6中,當(dāng)時(shí),迭代結(jié)束。
優(yōu)選地,所述步驟1.7中,所述聚類結(jié)果為k個(gè)均值和記錄所有樣本到類的隸屬度矩陣U。
優(yōu)選地,所述步驟1.7中,將隸屬度矩陣U中的每個(gè)樣本k分配給隸屬度最大的類,得到每個(gè)樣本點(diǎn)k的類標(biāo)簽。
本發(fā)明提供了一種優(yōu)化的基于稀疏均值的模糊聚類方法,通過稀疏均值使得均值也就是類中心點(diǎn)和樣本點(diǎn)一樣具有局域稀疏特性,增加了基于樣本點(diǎn)和均值歐氏距離來描述樣本點(diǎn)和類相似性的有效性,在時(shí)間上更加高效,產(chǎn)生具有稀疏特性的均值使得類中心點(diǎn)更加自然地代表稀疏樣本點(diǎn)的特性,同時(shí)為了增加對(duì)k個(gè)均值的稀疏性的控制,本發(fā)明還在目標(biāo)函數(shù)中加入均值l1范數(shù)的正則項(xiàng)以得到新的最小化目標(biāo)函數(shù),使得可以更加快速的求解。
附圖說明
圖1為本發(fā)明的流程圖;
圖2為本發(fā)明中設(shè)置不同稀疏度正則權(quán)重時(shí)得到的Newsgroups數(shù)據(jù)的以F-measure衡量的聚類結(jié)果,其中FSCM為本發(fā)明的基于稀疏均值的模糊聚類方法,F(xiàn)CM為傳統(tǒng)模糊均值聚類方法。
具體實(shí)施方式
下面結(jié)合實(shí)施例對(duì)本發(fā)明做進(jìn)一步的詳細(xì)描述,但本發(fā)明的保護(hù)范圍并不限于此。
如圖所示,本發(fā)明涉及一種基于稀疏均值的模糊聚類方法,所述方法包括以下步驟:
步驟1.1:將待聚類的文檔用向量空間模型表示為高維稀疏向量X={x1,x2,…xn},其中每個(gè)樣本點(diǎn)為s維向量,即xi∈Rs,s>0,1≤i≤n;n為樣本總數(shù),n>0;
步驟1.2:設(shè)置參數(shù),所述參數(shù)包括類數(shù)k、模糊化系數(shù)m、初始正則項(xiàng)權(quán)重β0、結(jié)束判斷參數(shù)ε及最大迭代次數(shù)T;0<k<n,1<m<2;β0>0;設(shè)定帶有均值l1范數(shù)正則項(xiàng)的最小化目標(biāo)函數(shù):其中,uci表示第i個(gè)樣本到第c個(gè)類的隸屬度,δc表示第c個(gè)類的均值;
步驟1.3:初始化均值,得到與最后結(jié)果相近的k個(gè)初始均值分別為[δ1,δ2,…δk];計(jì)迭代次數(shù)l=1;
步驟1.4:基于當(dāng)前均值,利用式更新所有隸屬度的值,1≤c≤k;
步驟1.5:對(duì)每一類c=1,2,…,k,更新權(quán)重β,然后基于步驟1.4的隸屬度uci更新對(duì)應(yīng)的k個(gè)均值;
步驟1.6:當(dāng)對(duì)應(yīng)的k個(gè)均值不再變化或迭代次數(shù)l>T,迭代結(jié)束;否則重復(fù)步驟1.3;
步驟1.7:輸出聚類結(jié)果。
以下以實(shí)施例說明。
為了增加對(duì)k個(gè)均值的稀疏性的控制,本發(fā)明提出在目標(biāo)函數(shù)中加入均值l1范數(shù)的正則項(xiàng)得到新的最小化目標(biāo)函數(shù),使用正則項(xiàng)而非約束是為了更加快速地求解。具體為利用迭代算法求以下最小化問題,最小化目標(biāo)函數(shù)為其應(yīng)當(dāng)同時(shí)滿足的約束條件為:對(duì)所有c和i滿足uci≥0,對(duì)所有i,
步驟1.1:把待聚類的Newsgroups文檔以向量空間模型表示。進(jìn)行詞干提取(stemming)和刪除停用詞(stop word removing)的預(yù)處理后,保留信息增益最大的1000個(gè)詞,即每個(gè)xi對(duì)應(yīng)一個(gè)1000維向量。實(shí)施例中的文檔數(shù)據(jù)來自comp.graphics(計(jì)算機(jī).圖形)、rec.motocycles(娛樂.摩托車)、rec.sports.baseball(娛樂.體育.棒球)、sci.space(科學(xué).宇宙)、talk.politics.mideast(對(duì)話.政治.中東)這5個(gè)類別的Newsgroups新聞文本數(shù)據(jù),其中每個(gè)類別分別選擇100個(gè)樣本組成總共包含500個(gè)樣本的數(shù)據(jù)集。
步驟1.2:
設(shè)置類的數(shù)目k為5,一般情況下k的數(shù)目遠(yuǎn)小于總的樣本數(shù)n。
設(shè)置模糊化參數(shù)m以及正則項(xiàng)初始權(quán)重β0,在實(shí)際應(yīng)用中,m為控制隸屬度模糊程度參數(shù),m越大,隸屬度越模糊,m的值一般為1<m<2,對(duì)于文本歸類問題,建議m≤1.2;β0>0,由于β0的設(shè)定值越大則稀疏度越大,但是β0過大又會(huì)導(dǎo)致結(jié)果偏離正常,對(duì)于Newsgroups數(shù)據(jù),β0可以設(shè)置在5-15間,圖2中結(jié)果說明在實(shí)施例中,β0≤10都能取得比傳統(tǒng)方法更好的結(jié)果。
設(shè)置結(jié)束判斷參數(shù)ε和最大迭代次數(shù)T,一般情況下,ε的取值為10-5≤ε≤10-3,T的取值為80≤T≤120,如ε=10-5,T=100。
步驟1.3:初始化均值,為了得到與最后結(jié)果相對(duì)接近的k個(gè)初始均值[δ1,δ2,…δk],選擇k個(gè)彼此相距較遠(yuǎn)的樣本點(diǎn)作為各個(gè)類的初始均值。
具體做法為:先隨機(jī)產(chǎn)生1個(gè)樣本點(diǎn)做為其中一個(gè)初始均值,然后根據(jù)與已選樣本點(diǎn)中最近的距離的最大值來逐個(gè)產(chǎn)生剩下的k-1個(gè)樣本點(diǎn)做為類的均值。記迭代次數(shù)l=1;即,k個(gè)均值的初始值在選擇的時(shí)候就盡量接近最后得到的k個(gè)均值,則算法最后的輸出就是k個(gè)均值。
步驟1.4:基于當(dāng)前均值,利用式更新所有隸屬度矩陣中的值。
步驟1.5:
對(duì)每一類c=1,2,…,k,更新權(quán)重β,本發(fā)明中即隨著迭代的進(jìn)行,各個(gè)均值k更加接近最后的解,對(duì)稀疏度的控制通過正則項(xiàng)的權(quán)重β隨著迭代地進(jìn)行而逐漸減少。具體做法是在每次迭代時(shí),β以的速度減少。
一般情況下,選出每個(gè)δc中權(quán)重最大的字符作為關(guān)鍵詞用于描述或解釋該類別。
隨后,基于隸屬度uci以式更新對(duì)應(yīng)的k個(gè)均值。
步驟1.6:判斷是否需要繼續(xù)執(zhí)行迭代,一旦滿足以下兩個(gè)條件之一則迭代結(jié)束。
條件一:均值幾乎不再變化。用兩次迭代結(jié)果的l2范數(shù)來衡量均值的變化,當(dāng)k個(gè)均值中最大的變化小于設(shè)定參數(shù)ε,即時(shí),可認(rèn)為均值無變化。
條件二:實(shí)際迭代次數(shù)已經(jīng)超過最大的迭代次數(shù)T。
如果以上兩個(gè)條件均不滿足則回到步驟1.3重復(fù)進(jìn)行。
步驟1.7:輸出聚類結(jié)果,即每個(gè)類的均值和記錄所有樣本到類的隸屬度矩陣。
步驟1.7中,聚類結(jié)果為k個(gè)均值和記錄所有樣本到類的隸屬度矩陣U。
步驟1.7中,將隸屬度矩陣U中的每個(gè)樣本k分配給隸屬度最大的類,得到每個(gè)樣本點(diǎn)k的類標(biāo)簽。