一種數(shù)據(jù)挖掘中基于線性判別分析的改進型k均值聚類方法

文檔序號：6519728閱讀：2411來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種數(shù)據(jù)挖掘中基于線性判別分析的改進型k均值聚類方法
【專利摘要】一種數(shù)據(jù)挖掘中基于線性判別分析的改進型k均值聚類方法，即LKM算法，首先運用線性判別分析（LDA）對原始的n維數(shù)據(jù)集A進行線性降維，得到l維的數(shù)據(jù)集Y，然后運用k均值聚類算法對于降維后的數(shù)據(jù)集Y進行聚類分析，并輸出最終結(jié)果。本發(fā)明采用數(shù)據(jù)降維與K均值聚類方法結(jié)合的方法，利用數(shù)據(jù)降維技術(shù)彌補k均值聚類算法面對高維數(shù)據(jù)時的缺陷。通過數(shù)據(jù)降維來達到減輕維數(shù)災(zāi)難和消除高維空間中其他不相關(guān)屬性的目的。同時，這也提高了k均值聚類算法處理高維數(shù)據(jù)的性能，彌補了k均值聚類算法的相關(guān)缺陷。
【專利說明】一種數(shù)據(jù)挖掘中基于線性判別分析的改進型K均值聚類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明是一種基于線性判別分析(Linear discriminant analysis, LDA)對K均值聚類方法進行性能改進的優(yōu)化方法，即LKM (LDA-based K-Means algorithm)算法,屬于數(shù)據(jù)挖掘中的聚類分析研究領(lǐng)域。
【背景技術(shù)】
[0002]聚類分析是數(shù)據(jù)挖掘中的一個重要研究領(lǐng)域，是一種數(shù)據(jù)劃分或分組處理的重要手段和方法。目前聚類算法大體上分為基于劃分的方法、基于層次的方法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法以及模糊聚類。K均值聚類方法是一種很典型的基于距離劃分的聚類算法，采用距離作為相似性的評價指標，即認為兩個對象的距離越近，其相似性就越大。由于其算法思想簡便，又容易實現(xiàn)對大規(guī)模數(shù)據(jù)的聚類，因此K均值聚類方法己成為最常用的聚類算法之一。
[0003]目前，K均值聚類方法仍然存在著不少缺點，主要的問題有以下幾個方面:(1)嚴重依賴于初始中心點的選??；(2)聚類個數(shù)K需要預(yù)先給定；(3)聚類結(jié)果易受噪聲點數(shù)據(jù)的影響；(4)不適用于大數(shù)據(jù)量的聚類問題；(5)不能對高維數(shù)據(jù)進行有效處理。
[0004]K均值聚類方法在處理二維或三維數(shù)據(jù)的情況下仍能夠很好地保證聚類的質(zhì)量，然而隨著技術(shù)的發(fā)展和人類獲取信息能力的增強，需要進行K均值聚類分析處理的數(shù)據(jù)維數(shù)也在不斷地增加。在N維(N > 3)數(shù)據(jù)對象處理之中，K均值聚類方法經(jīng)常碰到“維數(shù)災(zāi)難”的問題?！熬S數(shù)災(zāi)難”(Curse of Dimensionality)指的是處理多變量函數(shù)時所需的采樣點數(shù)，隨著空間維數(shù)的增加將會呈現(xiàn)指數(shù)增長的困難；現(xiàn)在一般指高維數(shù)據(jù)空間的本征稀疏性。此時，K均值聚類方法的處理時間過長，效率低下。
[0005]目前，有關(guān)于數(shù)據(jù)降維的理論研究，國內(nèi)外專家學(xué)者已經(jīng)展開了很多的相關(guān)工作和探討。所謂數(shù)據(jù)降維是指通過線性或非線性映射將樣本從高維空間映射到低維空間，從而獲得高維數(shù)據(jù)的一個有意義的低維表示的過程。然而，國內(nèi)鮮有將數(shù)據(jù)降維和K均值聚類方法結(jié)合起來，利用數(shù)據(jù)降維技術(shù)彌補K均值聚類方法面對高維數(shù)據(jù)時的缺陷。通過數(shù)據(jù)降維可以減輕維數(shù)災(zāi)難和消除高維空間中其他不相關(guān)屬性，我們認為對降維后的數(shù)據(jù)進行聚類分析，這提高了 K均值聚類方法處理高維數(shù)據(jù)的性能。

【發(fā)明內(nèi)容】

[0006]技術(shù)問題:本發(fā)明針對K均值聚類方法無法對高維數(shù)據(jù)進行聚類分析，無法達到K均值聚類方法對高維數(shù)據(jù)進行快速處理等問題，提供一種數(shù)據(jù)挖掘中基于線性判別分析的改進型K均值聚類方法，利用線性判別分析的線性映射，將原始的高維數(shù)據(jù)一一映射到低維空間中，完成線性降維操作，得到適合K均值聚類分析的低維數(shù)據(jù)，并完成聚類分析。
[0007]技術(shù)方案:本發(fā)明的一種數(shù)據(jù)挖掘中基于線性判別分析的改進型K均值聚類方法具體如下:[0008]在K均值聚類方法進行聚類分析之前，依據(jù)線性判別分析建立降維模型，將高維數(shù)據(jù)一一映射到低維空間，使其變?yōu)槌Ｒ姷牡途S數(shù)據(jù)即二維或一維數(shù)據(jù)，等待聚類分析；利用K均值聚類方法對低維數(shù)據(jù)進行分類，計算新的聚類中心，不斷迭代直至誤差平方和準則函數(shù)收斂，完成聚類分析；具體步驟描述如下:
[0009]I)利用線性判別分析生成一個轉(zhuǎn)換矩陣G ；
[0010]2)生成線性判別分析中主要包括的三個散射矩陣:類內(nèi)散射矩陣Sw,類間散射矩陣Sb和總散射矩陣St ；
[0011]3)根據(jù)轉(zhuǎn)換矩陣G、類間散射矩陣Sb和總散射矩陣St計算最佳轉(zhuǎn)化矩陣
【權(quán)利要求】
1.一種數(shù)據(jù)挖掘中基于線性判別分析的改進型K均值聚類方法，其特征在于在K均值聚類方法進行聚類分析之前，依據(jù)線性判別分析建立降維模型，將高維數(shù)據(jù)一一映射到低維空間，使其變?yōu)槌Ｒ姷牡途S數(shù)據(jù)即二維或一維數(shù)據(jù)，等待聚類分析；利用K均值聚類方法對低維數(shù)據(jù)進行分類，計算新的聚類中心，不斷迭代直至誤差平方和準則函數(shù)收斂，完成聚類分析；具體步驟描述如下: 1)利用線性判別分析生成一個轉(zhuǎn)換矩陣G； 2)生成線性判別分析中主要包括的三個散射矩陣:類內(nèi)散射矩陣Sw,類間散射矩陣Sb和總散射矩陣St ； 3)根據(jù)轉(zhuǎn)換矩陣G、類間散射矩陣Sb和總散射矩陣St計算最佳轉(zhuǎn)化矩陣
2.根據(jù)權(quán)利要求1所述的一種數(shù)據(jù)挖掘中基于線性判別分析的改進型K均值聚類方法，其特征在于所述的在K均值聚類方法進行聚類分析之前，依據(jù)線性判別分析建立降維模型，將高維數(shù)據(jù)一一映射到低維空間，使其變?yōu)槌Ｒ姷牡途S數(shù)據(jù)即二維或一維數(shù)據(jù)，等待聚類分析；具體描述如下: 在線性判別分析LDA中，盡可能使類內(nèi)距離最小化的同時使類間距離達到最大化，得到最優(yōu)的投影方向以產(chǎn)生最好的分類結(jié)果，即選擇使得樣本類間離散度和樣本類內(nèi)離散度的比值最大化的特征描述樣本；對于給定的矩陣A G Rdxn, Rdxn表示全體dXn實矩陣構(gòu)成的n維實線性空間，利用線性判別分析LDA能夠生成一個轉(zhuǎn)換矩陣G G RdxljRdxl表示全體dXl實矩陣構(gòu)成的I維實線性空間，把n維空間中矩陣A的每一個列向量一一映射到I維空間中的向量71，即: Yi = G1^ai G R1 (I < d), I ^ i ^ n(I) 為了滿足K均值聚類方法中劃分成K個聚類的需要，將矩陣A劃分成K個相應(yīng)的聚類，A = [A1,…，Ak]，其中，
3.根據(jù)權(quán)利要求1所述的一種數(shù)據(jù)挖掘中基于線性判別分析的改進型K均值聚類方法，其特征在于所述的利用K均值聚類方法對低維數(shù)據(jù)進行分類，計算新的聚類中心，不斷迭代直至誤差平方和準則函數(shù)收斂，完成聚類分析。具體描述如下:從降維后得到的數(shù)據(jù)集Y所包含的n個數(shù)據(jù)中任意選擇K個作為初始聚類中心，計算所有數(shù)據(jù)與初始聚類中心的歐式距離，即:
4.根據(jù)權(quán)利要求2所述的一種數(shù)據(jù)挖掘中基于線性判別分析的改進型K均值聚類方法，其特征在于所述的依據(jù)線性判別分析建立降維模型，將高維數(shù)據(jù)一一映射到低維空間，具體描述如下:在LDA線性降維階段，運用randO函數(shù)隨機產(chǎn)生初始的n維實線性空間A G Rdxn，利用LDA能夠生成一個轉(zhuǎn)換矩陣G G RdxlJE n維空間中矩陣A的每一個列向量Bi 一一映射到I維空間中的向量yi，得到降維后的數(shù)據(jù)集Y。
5.根據(jù)權(quán)利要求3所述的一種數(shù)據(jù)挖掘中基于線性判別分析的改進型K均值聚類方法，其特征在于所述的利用K均值聚類方法對低維數(shù)據(jù)進行分類，計算新的聚類中心，不斷迭代直至誤差平方和準則函數(shù)收斂，完成聚類分析。具體描述如下:在K均值聚類分析階段，從降維后得到的數(shù)據(jù)集Y所包含的n個數(shù)據(jù)中任意選擇K個數(shù)據(jù)作為初始聚類中心；根據(jù)每個聚類中心，計算所有數(shù)據(jù)與這K個聚類中心的歐式距離；并根據(jù)最小距離重新對相應(yīng)數(shù)據(jù)進行劃分；重新計算每個聚類中心；計算誤差平方和準則函數(shù)，當(dāng)滿足收斂條件，即函數(shù)收斂時，則算法終止；如果條件不滿足則不斷重復(fù)迭代過程直到標準測度函數(shù)開始收斂為止。
【文檔編號】G06F17/30GK103678500SQ201310582288
【公開日】2014年3月26日申請日期:2013年11月18日優(yōu)先權(quán)日:2013年11月18日
【發(fā)明者】王堃, 張玉華, 孫雁飛, 吳蒙, 郭篁, 陳思光申請人:南京郵電大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王堃;張玉華;孫雁飛;吳蒙;郭篁;陳思光;
技術(shù)所有人：南京郵電大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

線性判別分析相關(guān)技術(shù)

lda線性判別分析相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種數(shù)據(jù)挖掘中基于線性判別分析的改進型k均值聚類方法