一種基于稀疏均值的模糊聚類方法與流程

文檔序號(hào)：12365711閱讀：443來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于計(jì)算；推算；計(jì)數(shù)的技術(shù)領(lǐng)域，特別涉及一種為高維稀疏數(shù)據(jù)設(shè)計(jì)的基于稀疏均值的模糊聚類方法。

背景技術(shù)：

在很多領(lǐng)域的現(xiàn)實(shí)問題中，需要借助有效的聚類方法對(duì)高維稀疏數(shù)據(jù)集中的對(duì)象進(jìn)行分組從而分析數(shù)據(jù)的內(nèi)在結(jié)構(gòu)并挖掘有用知識(shí)來幫助人們進(jìn)一步?jīng)Q策，比如對(duì)新聞文檔進(jìn)行分組來檢測(cè)其中包含的話題。

模糊聚類分析是根據(jù)客觀事物間的特征、親疏程度、相似性，通過建立模糊相似關(guān)系對(duì)客觀事物進(jìn)行聚類的分析方法，其比起硬聚類的優(yōu)勢(shì)是借助模糊集理論引入模糊隸屬度的概念，從而能夠自然的描述類之間的重疊性。

然而，根據(jù)統(tǒng)計(jì)學(xué)理論，在向量空間中對(duì)潛在概率分布的正確估計(jì)需要的樣本數(shù)會(huì)隨著維度的增加成指數(shù)增長(zhǎng)，這使得傳統(tǒng)的模糊聚類對(duì)高維數(shù)據(jù)如文本數(shù)據(jù)的處理結(jié)果并不是很好，同時(shí)，傳統(tǒng)的模糊k均值算法基于歐氏距離來衡量樣本點(diǎn)到類中心點(diǎn)的距離，在沒有任何約束的情況下，高維稀疏數(shù)據(jù)的均值并非稀疏，這導(dǎo)致樣本點(diǎn)(高維稀疏向量)和均值(高維非稀疏向量)之間的歐氏距離不能有效衡量樣本點(diǎn)與類之間的相似性。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明解決的技術(shù)問題是，現(xiàn)有技術(shù)中，在向量空間中對(duì)潛在概率分布的正確估計(jì)需要的樣本數(shù)會(huì)隨著維度的增加成指數(shù)增長(zhǎng)，同時(shí)，傳統(tǒng)的模糊k均值算法基于歐氏距離來衡量樣本點(diǎn)到類中心點(diǎn)的距離，在沒有任何約束的情況下，高維稀疏數(shù)據(jù)的均值并非稀疏，而導(dǎo)致的傳統(tǒng)的模糊聚類對(duì)高維數(shù)據(jù)如文本數(shù)據(jù)的處理結(jié)果并不是很好，樣本點(diǎn)(高維稀疏向量)和均值(高維非稀疏向量)之間的歐氏距離不能有效衡量樣本點(diǎn)與類之間的相似性的問題，進(jìn)而提供了一種優(yōu)化的基于稀疏均值的模糊聚類方法。

本發(fā)明所采用的技術(shù)方案是，一種基于稀疏均值的模糊聚類方法，所述方法包括以下步驟：

步驟1.1：將待聚類的文檔用向量空間模型表示為高維稀疏向量X＝{x₁,x₂,…x_n}，其中每個(gè)樣本點(diǎn)為s維向量，即x_i∈R^s，s＞0，1≤i≤n；n為樣本總數(shù)，n＞0；

步驟1.2：設(shè)置參數(shù)，所述參數(shù)包括類數(shù)k、模糊化系數(shù)m、初始正則項(xiàng)權(quán)重β⁰、結(jié)束判斷參數(shù)ε及最大迭代次數(shù)T；0＜k＜n，1＜m＜2；β⁰＞0；設(shè)定帶有均值l₁范數(shù)正則項(xiàng)的最小化目標(biāo)函數(shù)其中，u_ci表示第i個(gè)樣本到第c個(gè)類的隸屬度，δ_c表示第c個(gè)類的均值；

步驟1.3：初始化均值，得到與最后結(jié)果相近的k個(gè)初始均值分別為[δ₁,δ₂,…δ_k]；計(jì)迭代次數(shù)l＝1；

步驟1.4：基于當(dāng)前均值，利用式更新所有隸屬度的值，1≤c≤k；

步驟1.5：對(duì)每一類c＝1,2,…,k，更新權(quán)重β，然后基于步驟1.4的隸屬度u_ci更新對(duì)應(yīng)的k個(gè)均值；

步驟1.6：當(dāng)對(duì)應(yīng)的k個(gè)均值不再變化或迭代次數(shù)l＞T，迭代結(jié)束；否則重復(fù)步驟1.3；

步驟1.7：輸出聚類結(jié)果。

優(yōu)選地，所述步驟1.2中，最小化目標(biāo)函數(shù)應(yīng)當(dāng)同時(shí)滿足的約束條件為：對(duì)所有c和i滿足u_ci≥0，對(duì)所有i，

優(yōu)選地，所述步驟1.2中，模糊化系數(shù)m≤1.2。

優(yōu)選地，所述步驟1.2中，初始正則項(xiàng)權(quán)重β⁰≤10。

優(yōu)選地，所述步驟1.5中，基于步驟1.4的隸屬度u_ci更新權(quán)重β，

優(yōu)選地，所述步驟1.5中，采用式更新對(duì)應(yīng)的k個(gè)均值，其中，sign(δ′_c)返回該向量中對(duì)應(yīng)元素的符號(hào)。

優(yōu)選地，所述步驟1.5中，選出每個(gè)δ_c中權(quán)重最大的字符作為關(guān)鍵詞用于描述或解釋該類別。

優(yōu)選地，所述步驟1.6中，當(dāng)時(shí)，迭代結(jié)束。

優(yōu)選地，所述步驟1.7中，所述聚類結(jié)果為k個(gè)均值和記錄所有樣本到類的隸屬度矩陣U。

優(yōu)選地，所述步驟1.7中，將隸屬度矩陣U中的每個(gè)樣本k分配給隸屬度最大的類，得到每個(gè)樣本點(diǎn)k的類標(biāo)簽。

本發(fā)明提供了一種優(yōu)化的基于稀疏均值的模糊聚類方法，通過稀疏均值使得均值也就是類中心點(diǎn)和樣本點(diǎn)一樣具有局域稀疏特性，增加了基于樣本點(diǎn)和均值歐氏距離來描述樣本點(diǎn)和類相似性的有效性，在時(shí)間上更加高效，產(chǎn)生具有稀疏特性的均值使得類中心點(diǎn)更加自然地代表稀疏樣本點(diǎn)的特性，同時(shí)為了增加對(duì)k個(gè)均值的稀疏性的控制，本發(fā)明還在目標(biāo)函數(shù)中加入均值l₁范數(shù)的正則項(xiàng)以得到新的最小化目標(biāo)函數(shù)，使得可以更加快速的求解。

附圖說明

圖1為本發(fā)明的流程圖；

圖2為本發(fā)明中設(shè)置不同稀疏度正則權(quán)重時(shí)得到的Newsgroups數(shù)據(jù)的以F-measure衡量的聚類結(jié)果，其中FSCM為本發(fā)明的基于稀疏均值的模糊聚類方法，F(xiàn)CM為傳統(tǒng)模糊均值聚類方法。

具體實(shí)施方式

下面結(jié)合實(shí)施例對(duì)本發(fā)明做進(jìn)一步的詳細(xì)描述，但本發(fā)明的保護(hù)范圍并不限于此。

如圖所示，本發(fā)明涉及一種基于稀疏均值的模糊聚類方法，所述方法包括以下步驟：

步驟1.1：將待聚類的文檔用向量空間模型表示為高維稀疏向量X＝{x₁,x₂,…x_n}，其中每個(gè)樣本點(diǎn)為_s維向量，即x_i∈R^s，s＞0，1≤i≤n；n為樣本總數(shù)，n＞0；

步驟1.2：設(shè)置參數(shù)，所述參數(shù)包括類數(shù)k、模糊化系數(shù)m、初始正則項(xiàng)權(quán)重β⁰、結(jié)束判斷參數(shù)ε及最大迭代次數(shù)T；0＜k＜n，1＜m＜2；β⁰＞0；設(shè)定帶有均值l₁范數(shù)正則項(xiàng)的最小化目標(biāo)函數(shù)：其中，u_ci表示第i個(gè)樣本到第c個(gè)類的隸屬度，δ_c表示第c個(gè)類的均值；

步驟1.3：初始化均值，得到與最后結(jié)果相近的k個(gè)初始均值分別為[δ₁,δ₂,…δ_k]；計(jì)迭代次數(shù)l＝1；

步驟1.4：基于當(dāng)前均值，利用式更新所有隸屬度的值，1≤c≤k；

步驟1.5：對(duì)每一類c＝1,2,…,k，更新權(quán)重β，然后基于步驟1.4的隸屬度u_ci更新對(duì)應(yīng)的k個(gè)均值；

步驟1.6：當(dāng)對(duì)應(yīng)的k個(gè)均值不再變化或迭代次數(shù)l＞T，迭代結(jié)束；否則重復(fù)步驟1.3；

步驟1.7：輸出聚類結(jié)果。

以下以實(shí)施例說明。

為了增加對(duì)k個(gè)均值的稀疏性的控制，本發(fā)明提出在目標(biāo)函數(shù)中加入均值l₁范數(shù)的正則項(xiàng)得到新的最小化目標(biāo)函數(shù)，使用正則項(xiàng)而非約束是為了更加快速地求解。具體為利用迭代算法求以下最小化問題，最小化目標(biāo)函數(shù)為其應(yīng)當(dāng)同時(shí)滿足的約束條件為：對(duì)所有c和i滿足u_ci≥0，對(duì)所有i，

步驟1.1：把待聚類的Newsgroups文檔以向量空間模型表示。進(jìn)行詞干提取(stemming)和刪除停用詞(stop word removing)的預(yù)處理后，保留信息增益最大的1000個(gè)詞，即每個(gè)x_i對(duì)應(yīng)一個(gè)1000維向量。實(shí)施例中的文檔數(shù)據(jù)來自comp.graphics(計(jì)算機(jī).圖形)、rec.motocycles(娛樂.摩托車)、rec.sports.baseball(娛樂.體育.棒球)、sci.space(科學(xué).宇宙)、talk.politics.mideast(對(duì)話.政治.中東)這5個(gè)類別的Newsgroups新聞文本數(shù)據(jù)，其中每個(gè)類別分別選擇100個(gè)樣本組成總共包含500個(gè)樣本的數(shù)據(jù)集。

步驟1.2：

設(shè)置類的數(shù)目k為5，一般情況下k的數(shù)目遠(yuǎn)小于總的樣本數(shù)n。

設(shè)置模糊化參數(shù)m以及正則項(xiàng)初始權(quán)重β⁰，在實(shí)際應(yīng)用中，m為控制隸屬度模糊程度參數(shù)，m越大，隸屬度越模糊，m的值一般為1＜m＜2，對(duì)于文本歸類問題，建議m≤1.2；β⁰＞0，由于β⁰的設(shè)定值越大則稀疏度越大，但是β⁰過大又會(huì)導(dǎo)致結(jié)果偏離正常，對(duì)于Newsgroups數(shù)據(jù)，β⁰可以設(shè)置在5-15間，圖2中結(jié)果說明在實(shí)施例中，β⁰≤10都能取得比傳統(tǒng)方法更好的結(jié)果。

設(shè)置結(jié)束判斷參數(shù)ε和最大迭代次數(shù)T，一般情況下，ε的取值為10^-5≤ε≤10^-3,T的取值為80≤T≤120，如ε＝10-5，T＝100。

步驟1.3：初始化均值，為了得到與最后結(jié)果相對(duì)接近的k個(gè)初始均值[δ₁,δ₂,…δ_k]，選擇k個(gè)彼此相距較遠(yuǎn)的樣本點(diǎn)作為各個(gè)類的初始均值。

具體做法為：先隨機(jī)產(chǎn)生1個(gè)樣本點(diǎn)做為其中一個(gè)初始均值，然后根據(jù)與已選樣本點(diǎn)中最近的距離的最大值來逐個(gè)產(chǎn)生剩下的k-1個(gè)樣本點(diǎn)做為類的均值。記迭代次數(shù)l＝1；即，k個(gè)均值的初始值在選擇的時(shí)候就盡量接近最后得到的k個(gè)均值，則算法最后的輸出就是k個(gè)均值。

步驟1.4：基于當(dāng)前均值，利用式更新所有隸屬度矩陣中的值。

步驟1.5：

對(duì)每一類c＝1,2,…,k，更新權(quán)重β，本發(fā)明中即隨著迭代的進(jìn)行，各個(gè)均值k更加接近最后的解，對(duì)稀疏度的控制通過正則項(xiàng)的權(quán)重β隨著迭代地進(jìn)行而逐漸減少。具體做法是在每次迭代時(shí)，β以的速度減少。

一般情況下，選出每個(gè)δ_c中權(quán)重最大的字符作為關(guān)鍵詞用于描述或解釋該類別。

隨后，基于隸屬度u_ci以式更新對(duì)應(yīng)的k個(gè)均值。

步驟1.6：判斷是否需要繼續(xù)執(zhí)行迭代，一旦滿足以下兩個(gè)條件之一則迭代結(jié)束。

條件一：均值幾乎不再變化。用兩次迭代結(jié)果的l₂范數(shù)來衡量均值的變化，當(dāng)k個(gè)均值中最大的變化小于設(shè)定參數(shù)ε，即時(shí)，可認(rèn)為均值無變化。

條件二：實(shí)際迭代次數(shù)已經(jīng)超過最大的迭代次數(shù)T。

如果以上兩個(gè)條件均不滿足則回到步驟1.3重復(fù)進(jìn)行。

步驟1.7：輸出聚類結(jié)果，即每個(gè)類的均值和記錄所有樣本到類的隸屬度矩陣。

步驟1.7中，聚類結(jié)果為k個(gè)均值和記錄所有樣本到類的隸屬度矩陣U。

步驟1.7中，將隸屬度矩陣U中的每個(gè)樣本k分配給隸屬度最大的類，得到每個(gè)樣本點(diǎn)k的類標(biāo)簽。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：梅建萍;
技術(shù)所有人：浙江工業(yè)大學(xué);
我是此專利的發(fā)明人

上一篇：一種信號(hào)稀疏表示方法及裝置與流程
上一篇：一種智能玩具車的裝配方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

模糊c均值聚類算法相關(guān)技術(shù)

模糊c均值聚類相關(guān)技術(shù)

模糊c均值聚類法相關(guān)技術(shù)

模糊均值聚類算法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于稀疏均值的模糊聚類方法與流程