亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種確定最佳聚類數(shù)的方法

文檔序號:6526246閱讀:1738來源:國知局
一種確定最佳聚類數(shù)的方法
【專利摘要】一種確定最佳聚類數(shù)的方法,通過有效性指標Q(C)來評估數(shù)據(jù)集的聚類效果,聚類有效性指標Q(C)取最小值時所對應的聚類數(shù)為最佳聚類數(shù)。本發(fā)明提出新的數(shù)據(jù)相似度度量方法,結合層次聚類,按照自底向上地生成所有可能的聚類劃分,并計算此時的有效性指標值,根據(jù)該值構建一條關于不同劃分的聚類質量曲線,曲線的極值點所對應的劃分為最佳聚類劃分。這樣就可以避免對大型數(shù)據(jù)集的反復聚類,而且本發(fā)明不依賴于特定的聚類算法。實驗結果和理論分析都表明,本發(fā)明具有良好的性能與可行性,同時也可以大幅度提高計算效率。
【專利說明】一種確定最佳聚類數(shù)的方法
【技術領域】[0001]本發(fā)明屬于數(shù)據(jù)挖掘【技術領域】,涉及一種確定最佳聚類數(shù)的方法。
【背景技術】
[0002]最佳聚類數(shù)的判定大多數(shù)都是采用一種基于迭代的trial-and-error過程來進行的,在給定的數(shù)據(jù)集上,使用不同的參數(shù)(通常是聚類數(shù)k)運行特定的聚類算法對數(shù)據(jù)集進行不同的劃分,然后計算各種劃分的有效性指標值,通過比較各個指標值,選擇符合預定條件的指標值所對應的聚類數(shù)被認為是最佳的聚類數(shù)。實際上,trial-and-error過程存在幾個不足之處,一是聚類數(shù)k值的確定對于缺乏豐富聚類分析經驗的用戶來說是難以準確確定的,這就要求我們進一步提出尋找更合理的聚類數(shù)k的方法;其二是目前已經提出了許多檢驗聚類有效性的指標,主要代表有Vxie指標、Vwsj指標等。由于這些指標都是基于某個特定聚類算法提出的,使得該方法在實際應用中受到了極大的限制。另外該方法對大型、維數(shù)比較復雜的數(shù)據(jù)集,計算效率較差。

【發(fā)明內容】

[0003]本發(fā)明的目的是提供一種確定最佳聚類數(shù)的方法,能避免現(xiàn)有技術對大型數(shù)據(jù)集的反復聚類的問題,且計算效率較高。
[0004]本發(fā)明的技術方案是,一種確定最佳聚類數(shù)的方法,通過有效性指標Q(C)來評估數(shù)據(jù)集的聚類效果,聚類有效性指標Q(C)取最小值時所對應的聚類數(shù)為最佳聚類數(shù)。
[0005]本發(fā)明的特點還在于:
[0006]有效性指標的確定,首先計算類內緊湊度和類間分離度,再根據(jù)兩者的一個線性組合來表示有效性指標;具體包括:
[0007]1、假設對于多維數(shù)據(jù)集DB,其中一個聚類劃分為Ck = IC1, C2, , CJ,而此時聚類Ck的類內緊湊度是通過計算同一類中的任意兩個數(shù)據(jù)對象之間距離的平方和得到的,用Scat (Ck)來表示,
[0008]
【權利要求】
1.一種確定最佳聚類數(shù)的方法,其特征在于:通過有效性指標Q (C)來評估數(shù)據(jù)集的聚類效果,聚類有效性指標Q(C)取最小值時所對應的聚類數(shù)為最佳聚類數(shù)。
2.如權利要求1所述的確定最佳聚類數(shù)的方法,其特征在于:所述有效性指標的確定為,首先計算類內緊湊度和類間分離度,再根據(jù)兩者的一個線性組合來表示有效性指標;具體包括: 1)假設對于多維數(shù)據(jù)集DB,其中一個聚類劃分為Ck= (C1, C2,, CJ,而此時聚類Ck的類內緊湊度是通過計算同一類中的任意兩個數(shù)據(jù)對象之間距離的平方和得到的,用Scat (Ck)來表示,
3.如權利要求1所述的確定最佳聚類數(shù)的方法,其特征在于:所述最佳聚類數(shù)的確定方法為,采用基于MDL剪枝算法來消除噪聲點和孤立點對聚類結果的影響,最后得到最佳聚類數(shù);MDL算法的處理過程為:
4.如權利要求3所述的確定最佳聚類數(shù)的方法,其特征在于:所述噪聲點與孤立點的消除方法為,采用基于MDL(minimal description length)的剪枝方法對結果進行處理,具體處理方法如下: 令G" =……Cl}為G:包含的數(shù)據(jù)對象的個數(shù);首先按照|<|從大到小排序生成一個新的序列C1, C2,.....Ck,然后將這個序列以Cm(l〈m〈k)為界分為兩個部分,即:
5.如權利要求2所述的確定最佳聚類數(shù)的方法,其特征在于:所述數(shù)據(jù)集DB包括人工合成的數(shù)據(jù)集和標準數(shù)據(jù)集。
6.如權利要求1-5任一項所述的確定最佳聚類數(shù)的方法,其特征在于:具體實施過程如下: 1)計算數(shù)據(jù)集DB中任意兩點的相似度,存入數(shù)組D中,并將數(shù)組D中的數(shù)值按照從大到小的順序進行排序; 2)對數(shù)組D中的當前元素,首先判斷這兩個數(shù)據(jù)對象是否已被合并到類中,如果沒有,就將這兩個數(shù)據(jù)對象合并成一個類,如果其中一個數(shù)據(jù)對象已被合并到某一個類中,則將另一個對象也合并到那個類中,如果它們已分別被合并到兩個不同的類,則將其所在的兩個類合并成一個類,如果它們已經屬于同一個類時,則放棄此次合并,此時,根據(jù)式(7),計算此時的聚類有效性指標Q(C)的值,連同此時的聚類劃分一起保存在數(shù)組A中,此時的數(shù)據(jù)集的聚類個數(shù)k=k-l ;然后取D中的下一個元素,繼續(xù)判斷與計算,直到數(shù)據(jù)集的聚類個數(shù)為I時結束; 3)根據(jù)式(8)獲取數(shù)組A中最小的聚類指標值以及所對應的聚類劃分;對所選擇的最小聚類指標值以及所對應的聚類劃分,按式(9)的過程對其中被識別為噪聲點與孤立點所組成的類進行“剔除”,最后獲得最佳的聚類數(shù)k。#。
7.如權利要求6所述的如權利要求2所述的確定最佳聚類數(shù)的方法,其特征在于:所述相似度的度量方法為,在給定的d維數(shù)據(jù)集DB中,任意兩個數(shù)據(jù)對象Xi和\的相似度公式可定義為:

【文檔編號】G06F17/30GK103714154SQ201310739837
【公開日】2014年4月9日 申請日期:2013年12月26日 優(yōu)先權日:2013年12月26日
【發(fā)明者】周紅芳, 王嘯, 趙雪涵, 段文聰, 郭杰, 張國榮, 王心怡, 何馨依 申請人:西安理工大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1