基于屬性權(quán)重相似度的分類變量聚類方法

文檔序號：6548057閱讀：2488來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于屬性權(quán)重相似度的分類變量聚類方法
【專利摘要】基于屬性權(quán)重相似度的分類變量聚類方法，在屬性權(quán)重相似度的基礎(chǔ)上，將聚類的過程轉(zhuǎn)化為尋找圖連通分量的過程，以數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)為節(jié)點(diǎn)，當(dāng)數(shù)據(jù)集中兩數(shù)據(jù)點(diǎn)的屬性權(quán)重相似度大于等于θ時認(rèn)為兩數(shù)據(jù)點(diǎn)間有一條連線(參數(shù)θ預(yù)先給定)，當(dāng)數(shù)據(jù)集中兩數(shù)據(jù)點(diǎn)的相似度小于θ時，認(rèn)為兩點(diǎn)數(shù)點(diǎn)間無連線。確定無向圖后，無向圖的每個連通分量即為一個簇，簇中的記錄為連通分量中的各頂點(diǎn)。本發(fā)明實(shí)質(zhì)是尋找無向圖各連通分量所包含的頂點(diǎn)，可以采用圖遍歷算法的思想指導(dǎo)聚類過程，因此，時間空間復(fù)雜度低、聚類結(jié)果精度高。
【專利說明】基于屬性權(quán)重相似度的分類變量聚類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于計算機(jī)數(shù)據(jù)處理方法【技術(shù)領(lǐng)域】，涉及一種基于屬性權(quán)重相似度的分類變量聚類方法。
【背景技術(shù)】
[0002]聚類是數(shù)據(jù)挖掘的一個重要研究課題，早期的聚類方法采用距離來度量兩條記錄間的相異度，如k-means、DBSCAN等方法。對于分類變量數(shù)據(jù)集，可以利用已有的標(biāo)準(zhǔn)化方法將其轉(zhuǎn)化成區(qū)間標(biāo)度變量，從而可以采用傳統(tǒng)方法進(jìn)行聚類。但分類變量屬性值之間通常不存在數(shù)量關(guān)系，因此標(biāo)準(zhǔn)化工作帶有很大的盲目性。因此，采用傳統(tǒng)方法處理分類變量會影響聚類效果。
[0003]Guha S等提出的ROCK聚類方法引入了鏈接(link)的概念，鏈接概念地引入使得可以利用相關(guān)的全局信息來度量記錄間相似度。實(shí)驗(yàn)表明，利用ROCK聚類方法對分類變量數(shù)據(jù)集進(jìn)行聚類，得到的聚類結(jié)果明顯優(yōu)于傳統(tǒng)聚類方法。但是它也存在一些缺陷，如要預(yù)先給定判定是否為近鄰的參數(shù)Θ和聚類數(shù)k。已經(jīng)有一些學(xué)者提出了基于ROCK方法思想的改進(jìn)方法，如VBACC、QROCK、DNNS和GE-ROCK。VBACC采用基于商品價格的相似度定義，對維度較高的商品數(shù)據(jù)集聚類效果較好，而對于一般分類變量數(shù)據(jù)集(如UCI標(biāo)準(zhǔn)數(shù)據(jù)集)的聚類效果不及ROCK。QROCK認(rèn)為期望得到的聚類數(shù)k依賴于相似度閾值Θ，通過適當(dāng)選擇Θ可以消除參數(shù)k。與ROCK相比，QROCK速度較快，但精度和ROCK相同。DNNS利用動態(tài)近鄰選擇模型，將相似度作為權(quán)重作用于聚類的全過程。此外，DNNS引入內(nèi)聚度度量函數(shù)指導(dǎo)聚類過程，可以自動尋找最佳聚類效果，并且得到較高的聚類精度。但是，由于DNNS在執(zhí)行的過程中考慮了更多的近鄰，導(dǎo)致該方法通常慢于ROCK。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的目的在于提供一種基于屬性權(quán)重相似度的分類變量聚類方法，該方法具有較高的聚類精度和較快的聚類速度。
[0005]本發(fā)明的技術(shù)方案，基于屬性權(quán)重相似度的分類變量聚類方法，將數(shù)據(jù)集和相似度閾值Θ輸入計算機(jī)中，數(shù)據(jù)集是指各種信息表，信息表中的每條記錄表示一個數(shù)據(jù)點(diǎn)；具體步驟如下:
[0006]步驟I，求每一個數(shù)據(jù)點(diǎn)與其他所有數(shù)據(jù)點(diǎn)之間的屬性權(quán)重相似度，將所有數(shù)據(jù)點(diǎn)標(biāo)記為未聚類；
[0007]步驟2，將各數(shù)據(jù)點(diǎn)之間的屬性權(quán)重相似度與Θ作比較，當(dāng)兩數(shù)據(jù)點(diǎn)的屬性權(quán)重相似度大于或等于Θ，則認(rèn)為這兩個數(shù)據(jù)點(diǎn)屬于同一類；構(gòu)建無向圖，無向圖的構(gòu)建方法為，兩數(shù)據(jù)點(diǎn)的相似度大于或等于Θ，則在它們之間建立一條連線，一個或多個連線組成通路；將某一數(shù)據(jù)點(diǎn)以及所有與該數(shù)據(jù)點(diǎn)之間有通路的數(shù)據(jù)點(diǎn)標(biāo)記為已聚類，并認(rèn)為它們形成了一個簇C，同理，再尋找其他的簇。
[0008]步驟3，在數(shù)據(jù)集中剔除孤立的數(shù)據(jù)點(diǎn)；若數(shù)據(jù)集中所有數(shù)據(jù)點(diǎn)已被標(biāo)記為已聚類，則將聚類數(shù)和每個簇中的數(shù)據(jù)點(diǎn)輸出，簇是相似度較大的數(shù)據(jù)點(diǎn)的集合，各個存放數(shù)據(jù)點(diǎn)的簇就是最終的聚類結(jié)果。
[0009]本發(fā)明的特點(diǎn)還在于，
[0010]步驟I中，通過下面公式計算屬性權(quán)重相似度，
【權(quán)利要求】
1.基于屬性權(quán)重相似度的分類變量聚類方法，其特征在于，將數(shù)據(jù)集和相似度閾值Θ輸入計算機(jī)中，數(shù)據(jù)集是指各種信息表，信息表中的每條記錄表示一個數(shù)據(jù)點(diǎn)；具體步驟如下: 步驟I，求每一個數(shù)據(jù)點(diǎn)與其他所有數(shù)據(jù)點(diǎn)之間的屬性權(quán)重相似度，將所有數(shù)據(jù)點(diǎn)標(biāo)記為未聚類；步驟2，將各數(shù)據(jù)點(diǎn)之間的屬性權(quán)重相似度與Θ作比較，當(dāng)兩數(shù)據(jù)點(diǎn)的屬性權(quán)重相似度大于或等于Θ，則認(rèn)為這兩個數(shù)據(jù)點(diǎn)屬于同一類；構(gòu)建無向圖，無向圖的構(gòu)建方法為，兩數(shù)據(jù)點(diǎn)的相似度大于或等于Θ，則在它們之間建立一條連線，一個或多個連線組成通路；將某一數(shù)據(jù)點(diǎn)以及所有與該數(shù)據(jù)點(diǎn)之間有通路的數(shù)據(jù)點(diǎn)標(biāo)記為已聚類，并放入一個簇C ;同理，再尋找其他的簇。步驟3，在數(shù)據(jù)集中剔除孤立的數(shù)據(jù)點(diǎn)；若數(shù)據(jù)集中所有數(shù)據(jù)點(diǎn)已被標(biāo)記為已聚類，則將聚類數(shù)和每個簇中的數(shù)據(jù)點(diǎn)輸出，簇是相似度較大的數(shù)據(jù)點(diǎn)的集合，各個存放數(shù)據(jù)點(diǎn)的簇就是最終的聚類結(jié)果。
2.如權(quán)利要求1所述的基于屬性權(quán)重相似度的分類變量聚類方法，其特征在于，步驟I中，通過下面公式計算屬性權(quán)重相似度，
3.如權(quán)利要求1或2所述的基于屬性權(quán)重相似度的分類變量聚類方法，其特征在于，Θ的取值范圍為(0.5714，0.7142]。
【文檔編號】G06F17/30GK104035983SQ201410234518
【公開日】2014年9月10日申請日期:2014年5月29日優(yōu)先權(quán)日:2014年5月29日
【發(fā)明者】周紅芳, 段文聰, 周揚(yáng) 申請人:西安理工大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周紅芳;段文聰;周揚(yáng)
技術(shù)所有人：西安理工大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

分類變量聚類分析方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于屬性權(quán)重相似度的分類變量聚類方法