亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于優(yōu)化簇相關(guān)矩陣的聚類融合方法與流程

文檔序號:11654990閱讀:339來源:國知局
基于優(yōu)化簇相關(guān)矩陣的聚類融合方法與流程

本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域,具體涉及的是一種利用聚類成員內(nèi)外簇之間的關(guān)系和簇的穩(wěn)定度對二進(jìn)制簇相關(guān)矩陣進(jìn)行優(yōu)化的聚類融合方法。



背景技術(shù):

近幾十年來,隨著信息時代科技的快速發(fā)展,數(shù)據(jù)存儲技術(shù)和數(shù)據(jù)采集技術(shù)也得到了飛速地進(jìn)步。由此使得各類數(shù)據(jù)海量積累,出現(xiàn)了“信息爆炸而知識匱乏”的現(xiàn)象。如何從海量數(shù)據(jù)中提取出有用的知識目前面臨著巨大的挑戰(zhàn)。對于數(shù)據(jù)挖掘一詞,目前還沒有一個完整的定義,我們推崇的定義是韓家煒(韓家煒,坎伯.數(shù)據(jù)挖掘概念與技術(shù)(原書第2版)(計(jì)算機(jī)科學(xué)叢書)[m].機(jī)械工業(yè)出版社,2008.)給出的數(shù)據(jù)挖掘概念:“數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中發(fā)現(xiàn)有趣知識的過程”。

聚類分析是數(shù)據(jù)挖掘領(lǐng)域的一個重要分支,能夠發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的分布情況。所謂聚類分析就是將數(shù)據(jù)對象分組成為多個類或簇,使得在同一簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大(朱國紅.基于特征點(diǎn)選擇的聚類算法研究與應(yīng)用[d].山東大學(xué),2010.)。事實(shí)上,任何一個單一的聚類算法都不能達(dá)到普遍適用的效果。為了提高聚類性能,聚類融合技術(shù)的提出較大地改變了這種現(xiàn)狀。它是為了解決無監(jiān)督的聚類分析中可能因?yàn)闃颖镜奶厥鈹?shù)據(jù)分布與聚類假設(shè)不匹配,導(dǎo)致聚類結(jié)果不理想的問題。聚類融合的基本思想是:將多個對一組對象進(jìn)行聚類成員的不同結(jié)果進(jìn)行合并,而不使用對象原有的特征(陽琳贇,王文淵.聚類融合方法綜述[j].計(jì)算機(jī)應(yīng)用研究,2005,22(12):8-10.)。

聚類融合在對不同的聚類成員進(jìn)行合并之前需要創(chuàng)建關(guān)系矩陣。基于矩陣的方法的基本思想是把每一次聚類的結(jié)果看成是數(shù)據(jù)重新組織的新模式,在這個基礎(chǔ)之上,數(shù)據(jù)對象之間的近似度可以由新的特征模式之間的近似度代替(朱萌.基于模糊矩陣的聚類融合[d].南京理工大學(xué),2008.)。矩陣是依附于共識函數(shù)存在的,不同的共識函數(shù)需要創(chuàng)建不同的矩陣。二進(jìn)制簇相關(guān)矩陣是目前關(guān)于矩陣的最好表現(xiàn)形式之一,其空間復(fù)雜度為o(n×h)(h是聚類成員中簇的數(shù)量之和)明顯低于相似性矩陣的o(n2)。但是一般的二進(jìn)制簇相關(guān)矩陣是稀疏且離散的,非0即1,明顯影響聚類融合的準(zhǔn)確性。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明所要解決的技術(shù)問題是基于優(yōu)化簇相關(guān)矩陣的聚類融合方法。通過綜合考慮聚類成員內(nèi)簇與簇的關(guān)系、聚類成員外簇與簇的關(guān)系、簇的穩(wěn)定度等因素,將數(shù)據(jù)出現(xiàn)在簇的概率轉(zhuǎn)換成簇與簇之間的關(guān)系,加入簇的穩(wěn)定度因子,構(gòu)造優(yōu)化簇相關(guān)矩陣。對優(yōu)化簇相關(guān)矩陣應(yīng)用多路譜聚類算法(李新葉,余曉曄.適用于復(fù)雜結(jié)構(gòu)的多路譜聚類算法的改進(jìn)[j].北京工業(yè)大學(xué)學(xué)報,2013,39(3):425-429.)進(jìn)行聚類得到最終聚類結(jié)果。本發(fā)明能夠有效利用聚類成員的特征,提高聚類融合的準(zhǔn)確度和精度。

本發(fā)明的技術(shù)方案如下:

基于優(yōu)化簇相關(guān)矩陣的聚類融合方法,包括以下步驟:

步驟1),用k-means算法對有n個d維特征數(shù)據(jù)的集合xnd進(jìn)行m次聚類,最終得到m個有差異的聚類成員;

步驟2),考慮步驟1)得到的m個聚類成員,計(jì)算聚類成員間簇與簇的關(guān)系rter和聚類成員內(nèi)簇與簇的關(guān)系rtra,創(chuàng)建簇相關(guān)矩陣ca,計(jì)算簇的穩(wěn)定度s。

步驟3),根據(jù)步驟2)得到的簇相關(guān)矩陣ca和簇的穩(wěn)定度s,考慮數(shù)據(jù)xt落在簇cmi的概率,根據(jù)公式ra(xt,cmi)=ca(xt,cmi)×s(cmi)構(gòu)造優(yōu)化簇相關(guān)矩陣ra。

步驟4),根據(jù)步驟3)得到的優(yōu)化簇相關(guān)矩陣ra,對ra應(yīng)用多路譜聚類算法:根據(jù)優(yōu)化簇相關(guān)矩陣ra,求出對角矩陣d、拉普拉斯矩陣l、l的特征值和與其相對應(yīng)的特征向量;使用前t個最大特征值對應(yīng)的特征向量構(gòu)造新的數(shù)據(jù)集合unt,并建立與原始數(shù)據(jù)集合的對應(yīng)關(guān)系;然后用k-means對unt進(jìn)行聚類。

進(jìn)一步的,本發(fā)明的基于優(yōu)化簇相關(guān)矩陣的聚類融合方法,步驟1)用k-means算法每次選取不同的初始聚類中心或設(shè)置不同的k值參數(shù),對有n個d維特征數(shù)據(jù)的集合xnd進(jìn)行m次聚類,最終得到聚類成員集合π={π1,π2,…πm}。

進(jìn)一步的,本發(fā)明的基于優(yōu)化簇相關(guān)矩陣的聚類融合方法,步驟2)根據(jù)步驟1)得到的聚類成員集合,計(jì)算聚類成員間簇與簇的關(guān)系(其中|ci|表示簇ci所包含的數(shù)據(jù)的數(shù)量);根據(jù)rter(ci,cj)計(jì)算聚類成員內(nèi)簇與簇的關(guān)系其中cmi表示第m個聚類成員的第i個簇,dc=0.9為衰減系數(shù),cz是與ci和cj在不同聚類成員內(nèi)且與ci和cj組成三元組的簇,nz是與簇cz有重疊元素的簇的集合;根據(jù)rtra(cmi,cmj)創(chuàng)建簇相關(guān)矩陣ca,其中根據(jù)簇相關(guān)矩陣ca計(jì)算簇cmi的穩(wěn)定度

進(jìn)一步的,本發(fā)明的基于優(yōu)化簇相關(guān)矩陣的聚類融合方法,步驟3)根據(jù)步驟2)得到的簇相關(guān)矩陣ca和簇的穩(wěn)定度s,考慮數(shù)據(jù)xt落在簇cmi的概率(即數(shù)據(jù)xt所在簇cmj與簇cmi的關(guān)系rtra(cmi,cmj)以及簇cmi的穩(wěn)定度),根據(jù)公式ra(xt,cmi)=ca(xt,cmi)×s(cmi)構(gòu)造優(yōu)化簇相關(guān)矩陣ra。

進(jìn)一步的,本發(fā)明的基于優(yōu)化簇相關(guān)矩陣的聚類融合方法,步驟4)對根據(jù)步驟3)得到的優(yōu)化矩陣ra應(yīng)用多路譜聚類算法:根據(jù)步驟3)得到的優(yōu)化矩陣ra建立對角矩陣d(d對角線上的值di=∑jra(i,j)(i≠j))和拉普拉斯矩陣l=d-1/2rad-1/2;求出拉普拉斯矩陣l的特征值和與其相對應(yīng)的特征向量;使用前t個最大特征值對應(yīng)的特征向量構(gòu)造新的數(shù)據(jù)集合unt,即看作原始數(shù)據(jù)集合x的t維特征,建立該數(shù)據(jù)集合與原始數(shù)據(jù)集合的對應(yīng)關(guān)系;最后用k-means對進(jìn)行數(shù)據(jù)集合unt聚類得到最終的聚類結(jié)果。

有益效果

本發(fā)明針對一般二進(jìn)制簇相關(guān)矩陣的優(yōu)化能夠消除原始矩陣的離散性和稀疏性,同時提高聚類融合的準(zhǔn)確和精度。該方法基于聚類成員內(nèi)簇與簇關(guān)系和聚類成員間簇與簇的關(guān)系,用數(shù)據(jù)所在簇與其它簇的關(guān)系代表數(shù)據(jù)出現(xiàn)在其它簇的概率,同時引入了簇的穩(wěn)定度,對一般二進(jìn)制簇相關(guān)矩陣進(jìn)行優(yōu)化,在很大程度上利用了聚類成員的特征。該方法相較于原來的聚類融合,提高了聚類的精準(zhǔn)度。

附圖說明

圖1是基于優(yōu)化簇相關(guān)矩陣的聚類融合方法的流程圖;

圖2是基于優(yōu)化簇相關(guān)矩陣的聚類融合方法中多路譜聚類算法的流程圖。

具體實(shí)施方式

下面結(jié)合附圖對技術(shù)方案的實(shí)施作進(jìn)一步的詳細(xì)描述:

結(jié)合流程圖及實(shí)施案例對本發(fā)明所述的基于優(yōu)化簇相關(guān)矩陣的聚類融合方法作進(jìn)一步的詳細(xì)描述。

本實(shí)施案例通過對一般二進(jìn)制簇相關(guān)矩陣進(jìn)行優(yōu)化的方法對聚類融合算法進(jìn)行改進(jìn),進(jìn)而提高算法的精確度。如圖1所示,本方法包含如下步驟:

步驟10,用k-means算法每次選取不同的初始聚類中心或設(shè)置不同的k值參數(shù),對有n個d維特征數(shù)據(jù)的集合xnd進(jìn)行m次聚類,最終得到聚類成員集合π={π1,π2,…πm}。

步驟20,根據(jù)步驟10得到的聚類成員集合,計(jì)算聚類成員間簇與簇的關(guān)系(其中|ci|表示簇ci所包含的數(shù)據(jù)的數(shù)量);根據(jù)rter(ci,cj)計(jì)算聚類成員內(nèi)簇與簇的關(guān)系其中cmi表示第m個聚類成員的第i個簇,dc=0.9為衰減系數(shù),cz是與ci和cj在不同聚類成員內(nèi)且與ci和cj組成三元組的簇,nz是與簇cz有重疊元素的簇的集合;根據(jù)rtra(cmi,cmj)創(chuàng)建簇相關(guān)矩陣ca,其中根據(jù)簇相關(guān)矩陣ca計(jì)算簇cmi的穩(wěn)定度

步驟30,根據(jù)步驟20得到的簇相關(guān)矩陣ca和簇的穩(wěn)定度s,考慮數(shù)據(jù)xt落在簇cmi的概率(即數(shù)據(jù)xt所在簇cmj與簇cmi的關(guān)系rtra(cmi,cmj)以及簇cmi的穩(wěn)定度),根據(jù)公式ra(xt,cmi)=ca(xt,cmi)×s(cmi)構(gòu)造優(yōu)化簇相關(guān)矩陣ra。

步驟40,根據(jù)步驟30得到的優(yōu)化簇相關(guān)矩陣ra,對矩陣ra應(yīng)用多路譜聚類算法。如圖2所示,多路譜聚類算法包含以下步驟:

步驟401,根據(jù)步驟30得到的優(yōu)化簇相關(guān)矩陣ra,計(jì)算其對角矩陣d,該對角矩陣對角線的值為然后計(jì)算拉普拉斯矩陣l=d-1/2rad-1/2。

步驟402,根據(jù)步驟401得到的拉普拉斯矩陣l,求該拉普拉斯矩陣的特征值和對應(yīng)的特征向量。

步驟403,根據(jù)步驟402得到的特征值和特征向量,選擇前t個最大的特征值,將其對應(yīng)的特征向量看成一列構(gòu)成新的數(shù)據(jù)集合unt。

步驟404,根據(jù)步驟403得到的數(shù)據(jù)矩陣unt,將矩陣的每行看作一條數(shù)據(jù),用k-means對其聚類得到聚類結(jié)果,將結(jié)果對應(yīng)到原始的數(shù)據(jù)集合xnd得到最終聚類結(jié)果。

以上所述的具體實(shí)施方案,對本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步的詳細(xì)說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施方案而已,并非用以限定本發(fā)明的范圍,任何本領(lǐng)域的技術(shù)人員,在不脫離本發(fā)明的構(gòu)思和原則的前提下所做出的等同變化與修改,均應(yīng)屬于本發(fā)明保護(hù)的范圍。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1