亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種實現(xiàn)K-means聚類的方法及裝置制造方法

文檔序號:6535089閱讀:298來源:國知局
一種實現(xiàn)K-means聚類的方法及裝置制造方法
【專利摘要】本申請公開了一種實現(xiàn)K-means聚類的方法及裝置,包括:對聚類數(shù)據(jù)進行隨機抽樣得到樣本集,樣本集與聚類數(shù)據(jù)滿足預先設置的相似度數(shù)值;利用獲得的樣本集形成K個集群的層次聚類,將層次聚類的K個集群的質(zhì)心作為K-means聚類的初始質(zhì)心;根據(jù)獲取的K-means初始質(zhì)心進行K-means聚類。本發(fā)明通過選取需要數(shù)量的聚類集樣本進行層次聚類,以獲取層次聚類的質(zhì)心作為K-means聚類方法的初始質(zhì)心,使K-means聚類方法不受初始質(zhì)心影響。另一方面,通過聚類算法過程中不滿足聚類第一數(shù)值的聚類進行刪除,從最大的聚類開始拆分相應個數(shù)的聚類,以保證聚類要求的聚類集群的個數(shù)要求。
【專利說明】—種實現(xiàn)K-means聚類的方法及裝置
【技術領域】
[0001]本發(fā)明涉及數(shù)據(jù)挖掘技術,尤指一種實現(xiàn)K-means聚類的方法及裝置。
【背景技術】
[0002]K-means聚類的方法作為數(shù)據(jù)挖掘領域的一種常見方法,在一些數(shù)據(jù)處理的過程中存在以下問題:[0003]一方面,初始質(zhì)心的選擇對聚類結果影響很大。也就是指作為聚類方法的第一步,如果對質(zhì)心的選取不是數(shù)據(jù)集中的正常數(shù)值,那么對于聚類方法獲得的結果,由于初值選擇的隨機性,很可能得出的聚類效果是不理想的。圖1為現(xiàn)有技術對同一聚類數(shù)據(jù)采用隨機選取的初始質(zhì)心進行聚類的四次聚類結果示意圖,如圖1所示,聚類結果al、聚類結果a2和聚類結果a3是采用第一組隨機選取初始質(zhì)心的聚類結果;聚類結果bl、聚類結果b2和聚類結果b3是采用第二組隨機選取初始質(zhì)心的聚類結果;聚類結果Cl、聚類結果c2和聚類結果c3是采用第三組隨機選取初始質(zhì)心的聚類結果;聚類結果dl、聚類結果d2和聚類結果d3是采用第四組隨機選取初始質(zhì)心的聚類結果。圖2是現(xiàn)有技術采用隨機選取初始質(zhì)心的聚類結果示意圖,如圖2所示,聚類結果kl和聚類結果k2為聚類形成的兩個結果,但是從圖中可以看出,這兩個聚類集群的理想效果應當屬于一個聚類集群;而聚類結果k3和聚類結果K4從聚類的結果示意圖上可以看出,其從聚類要達到的理想效果應當是聚類為3個集群。通過分析可見,在現(xiàn)有的K-means聚類方法中,如果一個數(shù)據(jù)集有K個“真實”的集群,那么隨機選擇的K個點作為聚類的初始質(zhì)心,則每個初始質(zhì)心恰好落在一個“真實”的集群上的概率很小。例如,一個數(shù)據(jù)集上有10個類,按照目前的聚類方法隨機選擇10個點作為初始質(zhì)心。那么10個初始點正好落在10個類的集群上的概率為10!/1010=0.00036。
[0004]另一方面,K-means聚類方法對異常點的敏感性高。當數(shù)據(jù)集含存在一定數(shù)量的異常點時,則異常點對SSE的貢獻必然很大(采用的是距離的平方)。由于異常點的存在導致在算法迭代的過程中,質(zhì)心非常容易被異常點“吸附”過去,從而嚴重影響了聚類方法的分析效果。
[0005]再者,出現(xiàn)空集群問題??占菏侵冈谝淮尉垲惙椒▽嵤┑倪^程中,對于選取的一個或幾個質(zhì)心,任何一個數(shù)據(jù)點都沒有被分配到該質(zhì)心上,目前的K-means聚類方法無法避免聚類時出現(xiàn)空集群的現(xiàn)象。
[0006]綜上所述,目前的K-means聚類方法,采用隨機選取初始質(zhì)心的選取進行聚類,在聚類過程中,異常點對聚類結果影響較大,且無法避免出現(xiàn)空集群的現(xiàn)象,嚴重影響了K-means聚類方法在數(shù)據(jù)處理過程中的使用。

【發(fā)明內(nèi)容】

[0007]為了解決上述技術問題,本發(fā)明公開了一種實現(xiàn)K-means聚類的方法及裝置。能夠選取出適合K-means聚類的初始質(zhì)心,降低K-means聚類初始質(zhì)心對聚類結果的影響。
[0008]為了達到本申請的目的,本發(fā)明提供一種實現(xiàn)K-means聚類的方法,包括:[0009]對聚類數(shù)據(jù)進行隨機抽樣得到樣本集,樣本集與聚類數(shù)據(jù)滿足預先設置的相似度數(shù)值;
[0010]利用獲得的樣本集形成K個集群的層次聚類,將層次聚類的K個集群的質(zhì)心作為K-means聚類的初始質(zhì)心;
[0011]根據(jù)獲取的K-means初始質(zhì)心進行K-means聚類。
[0012]進一步地,滿足預先設置的相似度數(shù)值為:預先設置相似度數(shù)值,通過計算公式(1-(1-1/K)S)K的數(shù)值大于或等于預先設置的相似度數(shù)值,獲得樣本集的樣本數(shù)值;
[0013]其中,S為需要計算的樣本集的樣本數(shù)值。
[0014]進一步地,在進行K-means聚類時,設置聚類集群的聚類第一數(shù)值,該方法還包括:
[0015]刪除不滿足聚類第一數(shù)值的聚類集群,在刪除聚類集群時,將最大集群開始的相應個數(shù)的集群進行拆分,以滿足K-means聚類的集群個數(shù)不變。
[0016]另一方面,本申請還提供一種實現(xiàn)K-means聚類的裝置,包括:樣本單元、初始質(zhì)心獲取單元及K-means聚類單元;其中,
[0017]樣本單元,用于對聚類數(shù)據(jù)進行隨機抽樣得到樣本集,樣本集與聚類數(shù)據(jù)滿足預先設置的相似度數(shù)值;
[0018]初始質(zhì)心獲取單元,用于利用樣本單元獲得的樣本集進行形成K個集群的層次聚類,將獲取的層次聚類的K個集群的質(zhì)心設置為K-means聚類的初始質(zhì)心;
[0019]K-means聚類單元,用于根據(jù)初始質(zhì)心獲取單元設置的K-means聚類的初始質(zhì)心進行K-means聚類。
[0020]進一步地,樣本單元具體用于:
[0021]預先設置相似度數(shù)值,通過計算公式(1-(1-1/K)S)K的數(shù)值大于或等于預先設置的相似度數(shù)值,獲得樣本集的樣本數(shù)值;
[0022]其中,S為需要計算的樣本集的樣本數(shù)值。
[0023]進一步地,該裝置還包括聚類處理單元,用于在進行K-means聚類時,設置聚類集群的第一數(shù)值,刪除不滿足第一數(shù)值的聚類集群;在刪除聚類集群時,將最大集群開始的相應個數(shù)的集群進行拆分,以滿足K-means聚類集群個數(shù)不變。
[0024]本申請?zhí)岢鲆环N技術方案,包括:對聚類數(shù)據(jù)進行隨機抽樣得到樣本集,樣本集與聚類數(shù)據(jù)滿足預先設置的相似度數(shù)值;利用獲得的樣本集形成K個集群的層次聚類,將層次聚類的K個集群的質(zhì)心作為K-means聚類的初始質(zhì)心;根據(jù)獲取的Κ-means初始質(zhì)心進行K-means聚類。本申請還包括與方法對應的裝置。本發(fā)明通過選取需要數(shù)量的聚類集樣本進行層次聚類,以獲取層次聚類的質(zhì)心作為K-means聚類方法的初始質(zhì)心,使Κ-means聚類方法不受初始質(zhì)心影響。另一方面,通過聚類算法過程中不滿足聚類第一數(shù)值的聚類進行刪除,從最大的聚類開始拆分相應個數(shù)的聚類,以保證聚類要求的聚類集群的個數(shù)要求。
【專利附圖】

【附圖說明】
[0025]此處所說明的附圖用來提供對本發(fā)明的進一步理解,構成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)明的不當限定。在附圖中:
[0026]圖1為現(xiàn)有技術對同一聚類數(shù)據(jù)采用隨機選取的初始質(zhì)心進行聚類的四次聚類結果示意圖;
[0027]圖2是現(xiàn)有技術采用隨機選取初始質(zhì)心的聚類結果示意圖;
[0028]圖3為本發(fā)明實現(xiàn)K-means聚類的方法的流程圖;
[0029]圖4為本發(fā)明實現(xiàn)K-means聚類的聚類效果示意圖;
[0030]圖5為本發(fā)明實現(xiàn)K-means聚類的裝置的結構框圖。
【具體實施方式】
[0031]圖3為本發(fā)明實現(xiàn)K-means聚類的方法的流程圖,如圖3所示,包括:
[0032]步驟300、對聚類數(shù)據(jù)進行隨機抽樣得到樣本集,樣本集與聚類數(shù)據(jù)滿足預先設置的相似度數(shù)值。
[0033]本步驟中,滿足預先設置的相似度數(shù)值為:預先設置相似度數(shù)值,通過計算公式(1-(1-1/K)S)K的數(shù)值大于或等于預先設置的相似度數(shù)值,獲得樣本集的樣本數(shù)值;
[0034]其中,S為需要計算的樣本集的樣本數(shù)值。
[0035]需要說明的是,采用上述公式是為了獲得進行層次聚類的樣本集中的樣本數(shù)值,樣本數(shù)值的取值大小根據(jù)實際的需求進行相應的設定。假設以相似度為95%和聚類個數(shù)為20進行樣本集的樣本數(shù)值計算,可以獲得樣本數(shù)值為117。當設置的概率越大,樣本數(shù)值也會呈現(xiàn)增大的趨勢,同時,由于樣本數(shù)值的增大,獲得的聚類效果應當會相應的變?yōu)楦鼮槔硐?;需要強調(diào)的是采用其他概率的計算方法也可以得到本發(fā)明樣本集的樣本數(shù)值,當獲得的樣本集的樣本數(shù)值與本發(fā)明計算樣本數(shù)值相同時,采用本發(fā)明層次聚類對獲取初始質(zhì)心,其技術效果是相同的,應當屬于本發(fā)明方法保護的范圍。
[0036]另外,從本發(fā)明的計算公式可以得出,對于樣本集的大小和聚類數(shù)據(jù)的數(shù)據(jù)個數(shù)無關。也就是說,如果在大數(shù)據(jù)或其他數(shù)據(jù)較多的數(shù)據(jù)挖掘領域使用本發(fā)明方法,本發(fā)明方法是具有恒優(yōu)的聚類效果的,不會因為數(shù)據(jù)集群數(shù)據(jù)量大小的改變而影響本發(fā)明方法的技術效果。
[0037]步驟301、利用獲得的樣本集形成K個集群的層次聚類,將層次聚類的K個集群的質(zhì)心作為K-means聚類的初始質(zhì)心。
[0038]步驟302、根據(jù)獲取的K-means初始質(zhì)心進行Kneans聚類。
[0039]在進行K-means聚類時,設置聚類集群的聚類第一數(shù)值,本發(fā)明方法還包括:
[0040]刪除不滿足聚類第一數(shù)值的聚類集群,在刪除聚類集群時,將最大集群開始的相應個數(shù)的集群進行拆分,以滿足K-means聚類集群個數(shù)不變。
[0041 ] 需要說明的是,聚類的第一數(shù)值,可以是一個動態(tài)的數(shù)值,針對集群數(shù)據(jù)及集群個數(shù),和對聚類的效果要求,設置在聚類過程的一個隨著聚類的進展,不斷增加變化的取值;或者,還可以是一個固定的取值,在對聚類數(shù)據(jù)進行聚類到一定程度時,設置一個固定的取值,用來判斷聚類是否滿足一定的聚類效果,如果無法滿足,則根據(jù)本發(fā)明方法,進行刪除處理。
[0042]圖4為本發(fā)明實現(xiàn)K-means聚類的聚類效果示意圖,如圖4所示,通過計算機模擬仿真方式,對本發(fā)明實現(xiàn)K-means聚類效果進行比較分析,效果示意圖為維度為2維,聚類個數(shù)為15,數(shù)據(jù)集大小為5000的一次K-means聚類的聚類結果。
[0043]通過對K-means聚類的初始質(zhì)心采用本發(fā)明方法進行獲取,解決了初始質(zhì)心的選擇對結果影響很大,從聚類結果Kl、聚類結果K2、聚類結果K3、聚類結果K4與圖2的聚類結果kl、聚類結果k2、聚類結果k3、聚類結果k4進行比較可以很清楚的看出本發(fā)明的技術效
果O
[0044]另外,在聚類過程中,采用對在進行K-means聚類時,設置聚類集群的聚類第一數(shù)值,刪除不滿足聚類第一數(shù)值的聚類集群,在刪除聚類集群時,將最大集群開始的相應個數(shù)的集群進行拆分,以滿足K-means聚類集群個數(shù)不變。解決了 Kneans聚類方法對異常點的敏感性問題。同時,通過上述方法的處理,聚類也避免了空集群的問題,使聚類效果更加
理相
[0045]圖5為本發(fā)明實現(xiàn)K-means聚類的裝置的結構框圖,如圖5所示,包括:樣本單元、初始質(zhì)心獲取單元及K-means聚類單元;其中,
[0046]樣本單元,用于對聚類數(shù)據(jù)進行隨機抽樣得到樣本集,樣本集與聚類數(shù)據(jù)滿足預先設置的相似度數(shù)值。
[0047]樣本單元具體用于:預先設置相似度數(shù)值,通過計算公式(1-(1-1/K)S)K的數(shù)值大于或等于預先設置的相似度數(shù)值,獲得樣本集的樣本數(shù)值;
[0048]其中,S為需要計算的樣本集的樣本數(shù)值。
[0049]初始質(zhì)心獲取單元,用于利用樣本單元獲得的樣本集進行形成K個集群的層次聚類,將獲取的層次聚類的K個集群的質(zhì)心設置為K-means聚類的初始質(zhì)心。
[0050]K-means聚類單元,用于根據(jù)初始質(zhì)心獲取單元設置的K-means聚類的初始質(zhì)心進行K-means聚類。
[0051]本發(fā)明裝置還包括聚類處理單元,用于在進行K-means聚類時,設置聚類集群的第一數(shù)值,刪除不滿足第一數(shù)值的聚類集群;在刪除聚類集群時,將最大集群開始的相應個數(shù)的集群進行拆分,以滿足K-means聚類集群個數(shù)不變。
[0052]需要說明的是,聚類處理單元可以是與K-means聚類單元連接,進行交互通信的一個單元,也可以是內(nèi)嵌在K-means聚類單元內(nèi)部的一個單元。另外,聚類單元可以是軟件實現(xiàn)的功能單元,也可以是由相關芯片形成的功能單元。
[0053]雖然本申請所揭露的實施方式如上,但所述的內(nèi)容僅為便于理解本申請而采用的實施方式,并非用以限定本申請。任何本申請所屬領域內(nèi)的技術人員,在不脫離本申請所揭露的精神和范圍的前提下,可以在實施的形式及細節(jié)上進行任何的修改與變化,但本申請的專利保護范圍,仍須以所附的權利要求書所界定的范圍為準。
【權利要求】
1.一種實現(xiàn)K-means聚類的方法,其特征在于,包括: 對聚類數(shù)據(jù)進行隨機抽樣得到樣本集,樣本集與聚類數(shù)據(jù)滿足預先設置的相似度數(shù)值; 利用獲得的樣本集形成K個集群的層次聚類,將層次聚類的K個集群的質(zhì)心作為K-means聚類的初始質(zhì)心; 根據(jù)獲取的K-means初始質(zhì)心進行K-means聚類。
2.根據(jù)權利要求1所述的方法,其特征在于,所述滿足預先設置的相似度數(shù)值為:預先設置相似度數(shù)值,通過計算公式(1-(1-1/k)s)k的數(shù)值大于或等于預先設置的相似度數(shù)值,獲得樣本集的樣本數(shù)值; 其中,S為需要計算的樣本集的樣本數(shù)值。
3.根據(jù)權利要求1所述的方法,其特征在于,在進行K-means聚類時,設置聚類集群的聚類第一數(shù)值,該方法還包括: 刪除不滿足聚類第一數(shù)值的聚類集群,在刪除聚類集群時,將最大集群開始的相應個數(shù)的集群進行拆分,以滿足K-means聚類的集群個數(shù)不變。
4.一種實現(xiàn)K-means聚類的裝置,其特征在于,包括:樣本單元、初始質(zhì)心獲取單元及K-means聚類單元;其中, 樣本單元,用于對聚類數(shù)據(jù)進行隨機抽樣得到樣本集,樣本集與聚類數(shù)據(jù)滿足預先設置的相似度數(shù)值; 初始質(zhì)心獲取單元,用于利用樣本單元獲得的樣本集進行形成K個集群的層次聚類,將獲取的層次聚類的K個集群的質(zhì)心設置為K-means聚類的初始質(zhì)心; K-means聚類單元,用于根據(jù)初始質(zhì)心獲取單元設置的K-means聚類的初始質(zhì)心進行K-means 聚類。
5.根據(jù)權利要求4所述的裝置,其特征在于,所述樣本單元具體用于: 預先設置相似度數(shù)值,通過計算公式(1-(1-1/K)S)K的數(shù)值大于或等于預先設置的相似度數(shù)值,獲得樣本集的樣本數(shù)值; 其中,S為需要計算的樣本集的樣本數(shù)值。
6.根據(jù)權利要求4所述的裝置,其特征在于,該裝置還包括聚類處理單元,用于在進行K-means聚類時,設置聚類集群的第一數(shù)值,刪除不滿足第一數(shù)值的聚類集群;在刪除聚類集群時,將最大集群開始的相應個數(shù)的集群進行拆分,以滿足K-means聚類集群個數(shù)不變。
【文檔編號】G06F17/30GK103744962SQ201410005652
【公開日】2014年4月23日 申請日期:2014年1月6日 優(yōu)先權日:2014年1月6日
【發(fā)明者】李傲 申請人:浪潮(北京)電子信息產(chǎn)業(yè)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1