亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于密度自適應(yīng)的特征向量組最優(yōu)選取譜聚類方法與流程

文檔序號(hào):11216946閱讀:731來源:國知局
基于密度自適應(yīng)的特征向量組最優(yōu)選取譜聚類方法與流程

本發(fā)明屬于譜聚類算法領(lǐng)域,具體涉及一種基于密度自適應(yīng)的特征向量組最優(yōu)選取譜聚類方法。



背景技術(shù):

聚類是數(shù)據(jù)挖掘、模式識(shí)別、機(jī)器學(xué)習(xí)等領(lǐng)域的重要研究內(nèi)容之一。聚類就是將相似性較高的樣本聚在一起,而將相似性較低的樣本放在不同的簇中。隨著聚類技術(shù)的發(fā)展,學(xué)者們提出多種聚類算法,例如聚類分析中最為經(jīng)典的k-means算法,該算法較為簡單,能夠用于多種類型數(shù)據(jù)的聚類。但處理非凸數(shù)據(jù)集的時(shí)候,k-means算法往往會(huì)陷入局部最優(yōu)解。為了解決k-means算法無法在非凸數(shù)據(jù)集上聚類的問題,研究學(xué)者開始利用譜聚類算法來處理非凸數(shù)據(jù)集。譜聚類算法是一種建立在譜圖理論基礎(chǔ)上的聚類算法,而與k-means聚類算法相比較起來,它具有能在任意形狀的樣本空間中聚類的特點(diǎn)。

在譜聚類算法的發(fā)展過程中出現(xiàn)了許多具有代表性的譜聚類算法,例如meila提出的多路歸一化割譜聚類算法以及elhamifar等提出的稀疏子空間譜聚類算法。學(xué)者們針對(duì)譜聚類算法出現(xiàn)的問題提出了相應(yīng)的改進(jìn)算法,其中比較具有代表性的改進(jìn)算法主要有:fowlkeset等人提出了算法,該算法有效的降低了算法的時(shí)間復(fù)雜度和空間復(fù)雜度,但是這個(gè)算法特別依賴于初始點(diǎn)的選取,聚類效果不穩(wěn)定,而且當(dāng)數(shù)據(jù)集中存在一定的噪聲點(diǎn)和不相關(guān)的特征時(shí),算法選擇的特值向量組并不能很好的反映數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu),本文將結(jié)合技術(shù)的njw算法作為本文的比較算法之一;由于目前的譜聚類算法大多都是離線算法,無法直接處理動(dòng)態(tài)數(shù)據(jù)集,h.ning等人提出了isc算法,該算法能夠使得動(dòng)態(tài)數(shù)據(jù)所對(duì)應(yīng)的相似度值也能夠動(dòng)態(tài)更新,而且這個(gè)算法的時(shí)間復(fù)雜度相對(duì)較低,但是該算法的聚類準(zhǔn)確率相對(duì)較差;yand等人提出了自動(dòng)近似譜聚類算法,該算法在降低了時(shí)間復(fù)雜度的基礎(chǔ)上,增加了聚類準(zhǔn)確率,但是該算法需要人工輸入聚類個(gè)數(shù);xchen等人提出了基于標(biāo)志點(diǎn)的譜聚類算法,該算法選取標(biāo)志點(diǎn)來近似的表示整個(gè)數(shù)據(jù)集,減少了算法的空間復(fù)雜度,但是該算法的標(biāo)志點(diǎn)個(gè)數(shù)和聚類個(gè)數(shù)的選擇需要人為設(shè)定;huang等人提出了整合相似度譜聚類算法該算法通過整合不同特征所對(duì)應(yīng)的相似度矩陣得到一個(gè)最能表達(dá)數(shù)據(jù)結(jié)構(gòu)的相似度矩陣,來消除不相關(guān)的特征和不起作用的相似度使得算法聚類效果更加準(zhǔn)確,聚類結(jié)果更加穩(wěn)定,但是該算法在處理多重尺度數(shù)據(jù)集時(shí)效果不理想;rxia等人提出了rmsc算法,該算法能夠消除數(shù)據(jù)集中噪聲點(diǎn)的干擾,并且該算法對(duì)參數(shù)的選擇并不敏感,但是該算法無法自動(dòng)確定聚類個(gè)數(shù),且算法的聚類效果較差;ntremblay等人提出了壓縮譜聚類算法,該算法降低了在特征分解和k-means算法聚類等步驟的時(shí)間復(fù)雜度,而且得到較好的聚類效果,但是該算法依據(jù)最大特征值選擇特征向量法選擇的特征向量組并不能很好的反映出數(shù)據(jù)結(jié)構(gòu);yli等人提出了密度譜聚類算法,該算法將高密度的點(diǎn)作為初始點(diǎn),且構(gòu)造基于密度自適應(yīng)的相似度矩陣,這個(gè)算法能夠在聚類的時(shí)候顯示出來其良好的穩(wěn)定性和較好的聚類效果,但是該算法并沒有解決空間復(fù)雜度和時(shí)間復(fù)雜度過高的問題。

分析以上的改進(jìn)譜聚類算法,目前譜聚類算法主要存在以下幾個(gè)問題:第一,算法中一些自定義參數(shù)需要人為設(shè)定;第二,許多改進(jìn)譜聚類算法在處理多重尺度數(shù)據(jù)集時(shí)效果不理想;第三,需要人工確定聚類個(gè)數(shù);第四,難以選取合適的特征向量組來反映數(shù)據(jù)結(jié)構(gòu)。針對(duì)這些問題,本文提出了基于密度自適應(yīng)的最優(yōu)特征向量組選取譜聚類算法。



技術(shù)實(shí)現(xiàn)要素:

為了客服現(xiàn)有譜聚類方法存在的一些自定義參數(shù)需要人為設(shè)定、處理多重尺度數(shù)據(jù)集時(shí)效果不理想、需要人工確定聚類個(gè)數(shù)、難以選取合適的特征向量組來反映數(shù)據(jù)結(jié)構(gòu)的不足,本發(fā)明提出了基于密度自適應(yīng)的最優(yōu)特征向量組選取譜聚類方法。

本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:

一種基于密度自適應(yīng)的特征向量組最優(yōu)選取譜聚類方法,所述方法包括以下步驟:

1)數(shù)據(jù)初始化,過程如下:

1.1)確定臨近點(diǎn)個(gè)數(shù)迭代范圍和初始臨近點(diǎn)個(gè)數(shù),設(shè)置初始fitness函數(shù)值為fitness_g=0;

1.2)對(duì)在沒有獲得數(shù)據(jù)集的每一維權(quán)重信息情況下,采用最小-最大方法對(duì)數(shù)據(jù)進(jìn)行規(guī)范化,使之落入一個(gè)設(shè)定區(qū)間,把實(shí)驗(yàn)數(shù)據(jù)集的每一維同時(shí)用最小-最大方法進(jìn)行規(guī)范化,處理后得到的第i個(gè)數(shù)據(jù)的第j維數(shù)值為:

其中x(j)表示所有數(shù)據(jù)點(diǎn)的第j維,xi(j)表示第i個(gè)數(shù)據(jù)的第j維的數(shù)值,u_b、l_b分別是規(guī)范后數(shù)據(jù)每一維的最大值和最小值;

2)基于密度自適應(yīng)的稀疏相似度矩陣的計(jì)算,過程如下:

2.1)首先輸入數(shù)據(jù),設(shè)置劃分區(qū)間個(gè)數(shù)block,即每個(gè)區(qū)間內(nèi)有m=n/block個(gè)數(shù)據(jù)點(diǎn);

2.2)計(jì)算第j區(qū)間的區(qū)間距離矩陣distj=[d(j-1)*m+1;d(j-1)*m+2;…;dj*m],其中第i個(gè)數(shù)據(jù)與所有點(diǎn)的距離形成點(diǎn)距離矩陣的表示形式為di=[d(i,1),d(i,2),…,d(i,n)],d(i,j)表示數(shù)據(jù)點(diǎn)i和數(shù)據(jù)點(diǎn)j之間的距離值;

2.3)依據(jù)當(dāng)前臨近點(diǎn)個(gè)數(shù)以及區(qū)間距離矩陣找出第j個(gè)區(qū)間內(nèi)每個(gè)數(shù)據(jù)點(diǎn)對(duì)應(yīng)的臨近點(diǎn),保留與臨近點(diǎn)之間的距離值,刪除其余距離值,從而得到區(qū)間稀疏距離矩陣,并求區(qū)間內(nèi)各個(gè)數(shù)據(jù)所對(duì)應(yīng)的局部尺度參數(shù)σi,如公式(2)所示:

σli=∑s∈liσs/num_li(2)

其中l(wèi)i表示與點(diǎn)i存在直接或者間接臨近點(diǎn)關(guān)系的數(shù)據(jù)點(diǎn)集合,num_li表示li集合內(nèi)數(shù)據(jù)點(diǎn)個(gè)數(shù),參數(shù)σs的取值為數(shù)據(jù)點(diǎn)s與其t個(gè)臨近點(diǎn)的距離均值,如公式(3)所示:

其中nj表示數(shù)據(jù)點(diǎn)i的t個(gè)臨近點(diǎn)的集合n中的第j個(gè)點(diǎn);

2.4)依據(jù)利用重新定義的基于密度自適應(yīng)的相似函數(shù)計(jì)算出區(qū)間稀疏距離矩陣所對(duì)應(yīng)的區(qū)間稀疏相似度矩陣;

基于密度自適應(yīng)的相似函數(shù)的計(jì)算公式:

其中,對(duì)于任意數(shù)據(jù)對(duì)象i的局部密度ρi定義為:

其中m矩陣是由距離矩陣中最小的percent×n個(gè)距離值組成,percent表示鄰居點(diǎn)個(gè)數(shù)占總數(shù)據(jù)點(diǎn)距離個(gè)數(shù)的比例,d(i,j)表示點(diǎn)i和點(diǎn)j之間的距離;為保證計(jì)算m矩陣的時(shí)候不會(huì)影響到算法的整體空間復(fù)雜度,需要在每個(gè)計(jì)算區(qū)間距離矩陣的同時(shí),利用該區(qū)間距離矩陣逐個(gè)與m矩陣中仍保留的距離值比較,每次比較只將其中percent×n個(gè)最小距離值存儲(chǔ)在m矩陣中,直到所有區(qū)間距離矩陣比較完為止;

2.5)如果迭代完,則執(zhí)行2.6);否則更新j的值,并執(zhí)行2.2);

2.6)將所得到的所有區(qū)間稀疏相似度矩陣整合得到稀疏相似度矩陣;

3)自動(dòng)確定聚類中心算法,過程如下:

3.1)密度的定義引用步驟2.4)中局部密度的定義,得到密度矩陣

3.2)計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的距離值,對(duì)于任何樣本點(diǎn),若臨近點(diǎn)中有點(diǎn)的局部密度大于該點(diǎn)局部密度,則該點(diǎn)距離值為密度比它大的臨近點(diǎn)中距離最近的點(diǎn)距離;否則將該點(diǎn)判斷為非候選點(diǎn),則將該點(diǎn)判斷為候選點(diǎn),其中只有候選點(diǎn)有可能成為聚類中心點(diǎn),候選點(diǎn)到密度更高點(diǎn)的最小距離的計(jì)算如公式(7)所示:

其中dni表示數(shù)據(jù)點(diǎn)i的臨近點(diǎn)中局部密度比它高的所有臨近點(diǎn)與該點(diǎn)的距離值集合,ρi表示點(diǎn)i的密度,ρmax表示數(shù)據(jù)點(diǎn)最大局部密度,max(δ)表示最大距離值;

3.3)根據(jù)步驟3.1)和3.2)得到的密度矩陣和距離矩陣繪制出對(duì)應(yīng)的決策圖;

3.4)依據(jù)決策圖的分析,引入變量γ,對(duì)于任意一個(gè)數(shù)據(jù)點(diǎn)i,γi定義為:

γi=ρi×δi(8)

根據(jù)γ的概率分布情況,對(duì)于該γ的分布進(jìn)行曲線的擬合,發(fā)現(xiàn)其圖形的擬合曲線形狀類似于一條正態(tài)分布曲線;

3.5)利用選取置信區(qū)間的方式在所對(duì)應(yīng)的正態(tài)分布曲線中尋找出聚類中心點(diǎn)的信息,由ρ-δ關(guān)系圖上的離散數(shù)據(jù)點(diǎn)進(jìn)行一元線性擬合,得到擬合曲線yδ=kxρ+b0,計(jì)算各個(gè)數(shù)據(jù)點(diǎn)的殘差值εδi=y(tǒng)δi-δi,繪制殘差直方圖εδi-h,得到方差值σδ,利用λσ原則確定處在置信區(qū)間外的聚類中心點(diǎn);

4)特征分解,求取特征向量組,過程如下:

4.1)首先需要計(jì)算出度矩陣d和拉普拉斯矩陣l,度矩陣是一個(gè)對(duì)角陣,它的對(duì)角線上的元素dii由相似度矩陣的第i行元素相加求和得到的,度矩陣d計(jì)算公式如下:

然后根據(jù)度矩陣d和相似度矩陣s計(jì)算得到拉普拉斯矩陣l,拉普拉斯矩陣計(jì)算公式如下:

4.2)將拉普拉斯矩陣進(jìn)行特征分解,選出所有p個(gè)特征值為1所對(duì)應(yīng)的主特征向量;

4.3)接著通過拉普拉斯分值法選出剩余特征向量的拉普拉斯分值最小的k-p個(gè)特征向量;

拉普拉斯分值lr計(jì)算方法為:

其中fri是第i個(gè)樣本點(diǎn)的第r個(gè)特征,定義第r個(gè)特征均值為d是度矩陣,sij表示稀疏相似度矩陣s中互為臨近點(diǎn)的樣本點(diǎn)i和j之間的相似度;

4.4)將被選擇的k個(gè)特征向量組成矩陣v,v=[v1,v2,…,vk],輸出特征向量組v;

5)標(biāo)準(zhǔn)化特征向量組,并聚類,過程如下:

對(duì)所選取的特征向量組v進(jìn)行標(biāo)準(zhǔn)化處理,得到矩陣u:

此時(shí)u矩陣中每行數(shù)據(jù)表示原始數(shù)據(jù)在拉普拉斯空間中的映射位置,接著對(duì)u矩陣所表示的所有數(shù)據(jù)在特征空間中的映射的元素進(jìn)行k-means聚類;

6)最優(yōu)臨近點(diǎn)選取,過程如下:

6.1)得到當(dāng)前臨近點(diǎn)個(gè)數(shù)所對(duì)應(yīng)的聚類結(jié)果;

6.2)依據(jù)當(dāng)前臨近點(diǎn)個(gè)數(shù)所對(duì)應(yīng)的聚類結(jié)果計(jì)算對(duì)應(yīng)的fitness函數(shù)值;

其中m表示簇的個(gè)數(shù),n表示數(shù)據(jù)量,ci和cj表示第i個(gè)簇和第j個(gè)簇的聚類中心;

6.3)比較fitness_g與當(dāng)前fitness函數(shù)值,如果當(dāng)前fitness函數(shù)值較小,則更新fitness_g函數(shù)值并保留該臨近點(diǎn)個(gè)數(shù)值作為當(dāng)前最優(yōu)臨近點(diǎn)個(gè)數(shù),否則保留fitness_g函數(shù)值;

6.4)更新臨近點(diǎn)個(gè)數(shù),判斷是否超出范圍,若臨近點(diǎn)個(gè)數(shù)超出范圍,則轉(zhuǎn)至步驟6.5);否則轉(zhuǎn)至步驟6.2);

6.5)輸出最優(yōu)臨近點(diǎn)個(gè)數(shù)所對(duì)應(yīng)的聚類結(jié)果。

本發(fā)明的技術(shù)構(gòu)思為:基于密度自適應(yīng)的特征向量組最優(yōu)選取譜聚類算法,能夠根據(jù)數(shù)據(jù)分布將數(shù)據(jù)點(diǎn)的密度信息引入到相似函數(shù)中,自動(dòng)確定聚類中心的個(gè)數(shù),選擇最優(yōu)特征向量組,降低了聚類過程的參數(shù)敏感性問題。該算法對(duì)于一個(gè)數(shù)據(jù)集的處理,首先進(jìn)行預(yù)處理,采用最小-最大方法對(duì)數(shù)據(jù)進(jìn)行規(guī)范化,使之落入一個(gè)特定區(qū)間,具體來說就是把實(shí)驗(yàn)數(shù)據(jù)集的每一維同時(shí)用最小-最大方法進(jìn)行規(guī)范化;接著通過臨近點(diǎn)法計(jì)算出區(qū)間稀疏距離矩陣以及定義的局部尺度參數(shù),將數(shù)據(jù)點(diǎn)局部尺度參數(shù)引入到相似函數(shù)當(dāng)中,通過區(qū)間稀疏距離矩陣和相似函數(shù)計(jì)算得出區(qū)間稀疏相似度矩陣,并整理成整體稀疏相似度矩陣;然后調(diào)用自動(dòng)確定聚類中心ccfd算法,先確定具有更高局部密度的其他點(diǎn)的最小距離,并利用其與以確定的數(shù)據(jù)點(diǎn)的局部密度的關(guān)系進(jìn)行殘差分析,得到在置信區(qū)間外的擬合產(chǎn)生的聚類中心個(gè)數(shù);接著依據(jù)公式計(jì)算出度矩陣d和拉普拉斯矩陣l,并對(duì)拉普拉斯矩陣l進(jìn)行特征分解,結(jié)合最大特征值選擇特征向量法和拉普拉斯分值法,選擇出最能夠表達(dá)數(shù)據(jù)結(jié)構(gòu)的特征向量組;最后對(duì)數(shù)據(jù)集在特征空間中的映射特征向量組中的所有元素進(jìn)行標(biāo)準(zhǔn)化處理,后進(jìn)行k-means聚類,得到聚類結(jié)果;計(jì)算fitness函數(shù)值,不斷迭代,選取最高fitness函數(shù)值所對(duì)應(yīng)的最優(yōu)臨近點(diǎn)個(gè)數(shù)的聚類結(jié)果進(jìn)行輸出。

本發(fā)明的有益效果主要表現(xiàn)在:將數(shù)據(jù)點(diǎn)密度信息引入到相似函數(shù)中,使得算法處理多重尺度數(shù)據(jù)集時(shí)效果得到改善;能夠選擇出最優(yōu)特征向量組;并且利用fitness函數(shù)實(shí)現(xiàn)了臨近點(diǎn)個(gè)數(shù)的參數(shù)自適應(yīng)。在真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,該算法具有良好的適用性,并使得聚類的結(jié)果更加準(zhǔn)確。

附圖說明

圖1是基于密度自適應(yīng)的特征向量組最優(yōu)選取譜聚類方法的流程圖。

圖2是自動(dòng)確定聚類中心算法流程圖。

圖3是樣本數(shù)據(jù)分布與ρ-δ分布圖的映射關(guān)系,其中(a)是樣本數(shù)據(jù)分布圖,(b)是ρ-δ分布圖。

圖4是最優(yōu)特征向量組選取流程圖

圖5是fitness函數(shù)迭代確定最佳臨近點(diǎn)個(gè)數(shù)流程圖。

具體實(shí)施方式

下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步描述。

參照?qǐng)D1~圖5,一種基于密度自適應(yīng)的特征向量組最優(yōu)選取譜聚類方法,包括以下步驟:

1)數(shù)據(jù)預(yù)處理:

1.1)初始化設(shè)置,確定臨近點(diǎn)個(gè)數(shù)迭代范圍和初始臨近點(diǎn)個(gè)數(shù),設(shè)置初始fitness函數(shù)值為fitness_g=0,以及劃分區(qū)間個(gè)數(shù)block;

1.2)對(duì)實(shí)際數(shù)據(jù)集進(jìn)行分析我們可以看出來,一些數(shù)據(jù)集的某些維遠(yuǎn)遠(yuǎn)大于該數(shù)據(jù)集的其他維,而且這些維數(shù)值的差值較大,這導(dǎo)致其他維的重要性可能被減弱甚至被忽略。在沒有獲得數(shù)據(jù)集的每一維權(quán)重信息情況下,采用最小-最大方法對(duì)數(shù)據(jù)進(jìn)行規(guī)范化,使之落入一個(gè)特定區(qū)間,具體來說就是把實(shí)驗(yàn)數(shù)據(jù)集的每一維同時(shí)用最小-最大方法進(jìn)行規(guī)范化。具體過程如下:

輸入數(shù)據(jù)集,對(duì)數(shù)據(jù)集的每一維x1,…,xn∈rm同時(shí)用最小-最大方法進(jìn)行規(guī)范化,即第i個(gè)數(shù)據(jù)處理后的第j維數(shù)值為:

其中x(j)表示所有數(shù)據(jù)點(diǎn)的第j維,xi(j)表示第i個(gè)數(shù)據(jù)的第j維的數(shù)值,u_b、l_b分別是規(guī)范后數(shù)據(jù)每一維的最大值和最小值。本發(fā)明中u_b、l_b分別取1和-1,則規(guī)范化后yi(j)∈[-1,1]。

2)基于密度自適應(yīng)的稀疏相似度矩陣的計(jì)算,算法流程圖如圖1所示,具體過程如下:

2.1)首先將所有數(shù)據(jù)劃分到block個(gè)區(qū)間內(nèi),即每個(gè)區(qū)間內(nèi)有個(gè)數(shù)據(jù)點(diǎn);

2.2)計(jì)算第j區(qū)間的區(qū)間距離矩陣distj=[d(j-1)*m+1;d(j-1)*m+2;…;dj*m],其中第i個(gè)數(shù)據(jù)與所有點(diǎn)的距離形成點(diǎn)距離矩陣的表示形式為di=[||yi-y1||,||yi-y2||,…,||yi-yn||],||yi-yj||表示數(shù)據(jù)點(diǎn)i和數(shù)據(jù)點(diǎn)j之間的距離值;

2.3)臨近點(diǎn)法的主要思想:如果一個(gè)樣本的最臨近的幾個(gè)樣本中的大多數(shù)屬于同一個(gè)簇類,則該樣本也屬于這個(gè)簇類。使用臨近點(diǎn)法計(jì)算相似度矩陣主要是保留臨近點(diǎn)之間的相似度值,而舍去距離較遠(yuǎn)點(diǎn)之間的相似度值。

使用臨近點(diǎn)法依據(jù)得到的區(qū)間距離矩陣找出第j個(gè)區(qū)間內(nèi)每個(gè)數(shù)據(jù)點(diǎn)對(duì)應(yīng)的臨近點(diǎn),保留與臨近點(diǎn)之間的距離值,刪除其余距離值,從而得到區(qū)間稀疏距離矩陣,并求區(qū)間內(nèi)各個(gè)數(shù)據(jù)所對(duì)應(yīng)的局部尺度參數(shù)σi,如公式(2)所示:

其中l(wèi)i表示與點(diǎn)i存在直接或者間接臨近點(diǎn)關(guān)系的數(shù)據(jù)點(diǎn)集合,num_li表示li集合內(nèi)數(shù)據(jù)點(diǎn)個(gè)數(shù),參數(shù)σs的取值為數(shù)據(jù)點(diǎn)s與其t個(gè)臨近點(diǎn)的距離均值,如公式(3)所示:

其中nj表示數(shù)據(jù)點(diǎn)i的t個(gè)臨近點(diǎn)的集合n中的第j個(gè)點(diǎn);

2.4)依據(jù)利用重新定義的基于密度自適應(yīng)的相似函數(shù)計(jì)算出區(qū)間稀疏距離矩陣所對(duì)應(yīng)的區(qū)間稀疏相似度矩陣;

基于密度自適應(yīng)的相似函數(shù)的計(jì)算公式:

其中,對(duì)于任意數(shù)據(jù)對(duì)象i的局部密度ρi定義為:

其中m矩陣是由距離矩陣中最小的percent×n個(gè)距離值組成,percent表示鄰居點(diǎn)個(gè)數(shù)占總數(shù)據(jù)點(diǎn)距離個(gè)數(shù)的比例,d(i,j)表示點(diǎn)i和點(diǎn)j之間的距離;為保證計(jì)算m矩陣的時(shí)候不會(huì)影響到算法的整體空間復(fù)雜度,需要在每個(gè)計(jì)算區(qū)間距離矩陣的同時(shí),利用該區(qū)間距離矩陣逐個(gè)與m矩陣中仍保留的距離值比較,每次比較只將其中percent×n個(gè)最小距離值存儲(chǔ)在m矩陣中,直到所有區(qū)間距離矩陣比較完為止;

2.5)如果迭代完,則執(zhí)行2.6);否則更新j的值,并執(zhí)行2.2);

2.6)將所得到的所有區(qū)間稀疏相似度矩陣整合得到稀疏相似度矩陣;

3)自動(dòng)確定聚類中心個(gè)數(shù)ccfd算法流程圖如圖2所示,其基本思想為:簇類中心被較低局部密度的臨近點(diǎn)所包圍,且和具有更高局部密度的其他數(shù)據(jù)對(duì)象有相對(duì)較大的距離。

具體過程如下:

3.1)給定參數(shù)percent,引用2.5)定義的局部密度,得到密度矩陣

3.2)計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的距離值,對(duì)于任何樣本點(diǎn),若臨近點(diǎn)中沒有點(diǎn)的局部密度大于該點(diǎn)密度,則將該點(diǎn)判斷為候選點(diǎn),其中只有候選點(diǎn)有可能成為聚類中心點(diǎn),候選點(diǎn)到密度更高點(diǎn)的最小距離的計(jì)算如公式(7)所示;否則將該點(diǎn)判斷為非候選點(diǎn),則該點(diǎn)距離值為密度比它大的臨近點(diǎn)中距離最近的點(diǎn)距離。

其中dni表示數(shù)據(jù)點(diǎn)i的臨近點(diǎn)中局部密度比它高的所有臨近點(diǎn)與該點(diǎn)的距離值集合,ρi表示點(diǎn)i的密度,ρmax表示數(shù)據(jù)點(diǎn)最大局部密度,max(δ)表示最大距離值。

所述的距離值計(jì)算方法,具體的數(shù)據(jù)點(diǎn)距離值計(jì)算步驟如下:

3.2.1)首先將步驟2.2)所得到的區(qū)間距離矩陣整理成完整的距離矩陣;

3.2.2)依據(jù)密度矩陣和臨近點(diǎn)法,得到數(shù)據(jù)點(diǎn)的臨近點(diǎn)密度;

3.2.3)如果臨近點(diǎn)中沒有點(diǎn)的密度大于該點(diǎn)密度,則將該點(diǎn)判斷為候選點(diǎn);否則該點(diǎn)為非候選點(diǎn),其距離值為密度大于該點(diǎn)的臨近點(diǎn)中距離最小的點(diǎn);

3.2.4)依據(jù)公式(7)計(jì)算候選點(diǎn)的距離值;

3.2.5)整合所有數(shù)據(jù)點(diǎn)的距離值,輸出該距離值矩陣。

3.3)根據(jù)步驟3.1)和3.2)得到的密度矩陣和距離矩陣繪制出對(duì)應(yīng)的決策圖,得到所有數(shù)據(jù)局部密度ρ和距離δ的函數(shù)關(guān)系ρ*(i)=f(δ(i));

如圖3所示,圖3為樣本數(shù)據(jù)集dataset二維空間內(nèi)數(shù)據(jù)分布。計(jì)算樣本數(shù)據(jù)集中每個(gè)數(shù)據(jù)點(diǎn)i的局部密度ρi和到密度更高點(diǎn)的最小距離ρi,繪制出ρ-δ分布圖,如圖3(b)所示。圖3所示主要是為了顯示出數(shù)據(jù)分布與數(shù)據(jù)對(duì)象ρ-δ分布存在映射關(guān)系。圖3(a)中的三個(gè)聚類中心分別為a1、a2、a3,他們?cè)趫D3(a)的ρ-δ分布圖中表現(xiàn)出了較大的ρ值和δ值;對(duì)于其他點(diǎn),稱其為邊界點(diǎn),它們均屬于某一個(gè)類簇,表現(xiàn)出較小的ρ值和δ值。

3.4)引入變量γ,對(duì)于任意一個(gè)數(shù)據(jù)點(diǎn)i,其γi定義為:

γi=ρi×δi(8)

根據(jù)γ的概率分布情況,對(duì)于該γ的分布進(jìn)行曲線的擬合,發(fā)現(xiàn)其圖形的擬合曲線形狀類似于一條正態(tài)分布曲線;

3.5)對(duì)ρ-δ關(guān)系圖上的離散數(shù)據(jù)點(diǎn)進(jìn)行線性擬合,得到擬合曲線yδ=kxρ+b0,計(jì)算各個(gè)數(shù)據(jù)點(diǎn)的殘差值εδi=y(tǒng)δi-δi,繪制殘差直方圖εδi-h,得到均值μ和方差值σ,利用λσ原則確定處在置信區(qū)間外的聚類中心點(diǎn)。具體方法如下:

設(shè)置邊界值wide=μ+λσ,將數(shù)據(jù)集中所有點(diǎn)的γ值與wide進(jìn)行比較。對(duì)于數(shù)據(jù)點(diǎn)i,若γ>wide,則標(biāo)記i為聚類中心點(diǎn)。依據(jù)這種思路比較所有數(shù)據(jù)點(diǎn)的γ值,確定出數(shù)據(jù)集的所有聚類中心點(diǎn)。

4)特征分解,求取最優(yōu)特征向量組,流程圖如圖4所示,具體過程如下:

4.1)首先需要計(jì)算出度矩陣d和拉普拉斯矩陣l。度矩陣是一個(gè)對(duì)角陣,它的對(duì)角線上的元素dii由相似度矩陣的第i行元素相加求和得到的。度矩陣d計(jì)算公式如下:

然后根據(jù)度矩陣d和相似度矩陣s計(jì)算得到拉普拉斯矩陣l,拉普拉斯矩陣計(jì)算公式如下:

4.2)將拉普拉斯矩陣進(jìn)行特征分解,選出所有p個(gè)特征值為1所對(duì)應(yīng)的主特征向量;

4.3)接著通過拉普拉斯分值法選出剩余特征向量的拉普拉斯分值最小的k-p個(gè)特征向量。

拉普拉斯分值lr計(jì)算方法為:

其中fri是第i個(gè)樣本點(diǎn)的第r個(gè)特征,定義第r個(gè)特征均值為d是度矩陣,dii=∑jsij,sij表示稀疏相似度矩陣s中互為臨近點(diǎn)的樣本點(diǎn)i和j之間的相似度;

4.4)將被選擇的k個(gè)特征向量組成矩陣v,v=[v1,v2,…,vk],輸出特征向量組v;

5)標(biāo)準(zhǔn)化特征向量組,并用k-means算法聚類,具體過程如下:

5.1)對(duì)所選取的特征向量組v進(jìn)行標(biāo)準(zhǔn)化處理,得到矩陣u:

此時(shí)u矩陣中每行數(shù)據(jù)表示原始數(shù)據(jù)在拉普拉斯空間中的映射位置;

5.2)設(shè)置k個(gè)不同點(diǎn)作為算法初始聚類中心點(diǎn),初始qold為無窮大,并設(shè)置聚類迭代閾值thr;

5.3)依據(jù)當(dāng)前聚類中心點(diǎn),將所有數(shù)據(jù)點(diǎn)分配到離該點(diǎn)最近的聚類中心所對(duì)應(yīng)的類中,并計(jì)算所有數(shù)據(jù)點(diǎn)到所屬聚類中心點(diǎn)距離;

5.4)將當(dāng)前聚類中心點(diǎn)最近的一點(diǎn)設(shè)置為新的聚類中心點(diǎn);

5.5)計(jì)算所有點(diǎn)到所屬聚類的中心點(diǎn)距離總和,記為qnew;

5.6)如果thr大于|qnew-qold|/qold,則輸出現(xiàn)有中心點(diǎn)所有數(shù)據(jù)點(diǎn)的類標(biāo)信息;否則轉(zhuǎn)至步驟5.3)。

6)最優(yōu)臨近點(diǎn)個(gè)數(shù)選取,流程圖如圖5所示,具體過程如下:

6.1)得到當(dāng)前臨近點(diǎn)個(gè)數(shù)所對(duì)應(yīng)的聚類結(jié)果;

6.2)依據(jù)當(dāng)前臨近點(diǎn)個(gè)數(shù)所對(duì)應(yīng)的聚類結(jié)果計(jì)算對(duì)應(yīng)的fitness函數(shù)值;

其中m表示簇的個(gè)數(shù),n表示數(shù)據(jù)量,ci和cj表示第i個(gè)簇和第j個(gè)簇的聚類中心;

6.3)比較fitness_g與當(dāng)前fitness函數(shù)值,如果當(dāng)前fitness函數(shù)值較小,則更新fitness_g函數(shù)值并保留該臨近點(diǎn)個(gè)數(shù)值作為當(dāng)前最優(yōu)臨近點(diǎn)個(gè)數(shù),否則保留fitness_g函數(shù)值;

6.4)更新臨近點(diǎn)個(gè)數(shù),判斷是否超出范圍,若臨近點(diǎn)個(gè)數(shù)超出范圍,則轉(zhuǎn)至步驟6.5);否則轉(zhuǎn)至步驟6.2);

6.5)輸出最優(yōu)臨近點(diǎn)個(gè)數(shù)所對(duì)應(yīng)的聚類結(jié)果。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1