聚類分析方法、裝置及設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001] 本公開涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種聚類分析方法、裝置及設(shè)備。
【背景技術(shù)】
[0002] 隨著計算機(jī)科學(xué)技術(shù)的蓬勃發(fā)展,諸如商業(yè)管理、政府辦公、工程開發(fā)、科學(xué)研宄 等各個領(lǐng)域所涉及的數(shù)據(jù)量呈爆炸式增長。然而,在數(shù)據(jù)量呈爆炸式增長的同時,如何在 海量的數(shù)據(jù)中高效提取有用信息成為了時下人們較為關(guān)注的一個焦點(diǎn)。為此,聚類分析 (cluster analysis)作為一種將研宄對象分為相對同質(zhì)的群組(clusters)的數(shù)據(jù)挖掘方 法,受到了大家的青睞。
[0003] 相關(guān)技術(shù)中,通常采取 SL(single_linkage,單連接)、CL(complete_linkage,完 全連接)、AL (average-linkage,平均連接)三種層次聚類方法進(jìn)行聚類分析。在計算類間 距離時,依據(jù)相異度矩陣進(jìn)行計算。其中,對于SL層次聚類方法,類間距離等于兩類樣本之 間的最小距離。若用相似度衡量,則類間距離是一類中任一樣本與另一類中任一樣本的最 大相似度。對于CL層次聚類方法,類間距離等于兩類樣本之間的最大距離。對于AL層次 聚類方法,類間距離等于兩類樣本之間的平均距離。在得到類間距離后,基于該類間距離進(jìn) 行聚類。
[0004] 針對上述三種聚類分析方法,在計算類間距離時均依賴于相異度矩陣;如果在計 算相異度矩陣時,某一樣本的數(shù)據(jù)存在誤差,則若重復(fù)使用相異度矩陣,那么便存在將誤差 進(jìn)一步放大的風(fēng)險,從而導(dǎo)致聚類結(jié)果產(chǎn)生更大的偏差,聚類效果較差。
【發(fā)明內(nèi)容】
[0005] 為克服相關(guān)技術(shù)中存在的問題,本公開提供一種聚類分析方法、裝置及設(shè)備。
[0006] 根據(jù)本公開實(shí)施例的第一方面,提供一種聚類分析方法,所述方法包括:
[0007] 對于待聚合類中的第一類和第二類,計算所述第一類和所述第二類中兩兩樣本之 間的距離,所述兩兩樣本中一個樣本來自于所述第一類,另一個樣本來自于所述第二類;
[0008] 將得到的樣本距離按照預(yù)定順序進(jìn)行排序,確定指定數(shù)目個樣本距離,所述指定 數(shù)目根據(jù)所述第一類或所述第二類的類內(nèi)聚合度調(diào)整得到;
[0009] 根據(jù)所述指定數(shù)目個樣本距離,計算所述第一類和所述第二類的類間距離;
[0010] 根據(jù)所述待聚合類中每兩個類之間的類間距離,對所述待聚合類進(jìn)行聚類。
[0011] 可選地,當(dāng)所述第一類和所述第二類的類間距離為平均距離時,所述根據(jù)所述指 定數(shù)目個樣本距離,應(yīng)用如下公式,計算所述第一類和所述第二類的類間距離,包括:
【主權(quán)項】
1. 一種聚類分析方法,其特征在于,所述方法包括: 對于待聚合類中的第一類和第二類,計算所述第一類和所述第二類中兩兩樣本之間的 距離,所述兩兩樣本中一個樣本來自于所述第一類,另一個樣本來自于所述第二類; 將得到的樣本距離按照預(yù)定順序進(jìn)行排序,確定指定數(shù)目個樣本距離,所述指定數(shù)目 根據(jù)所述第一類或所述第二類的類內(nèi)聚合度調(diào)整得到; 根據(jù)所述指定數(shù)目個樣本距離,計算所述第一類和所述第二類的類間距離; 根據(jù)所述待聚合類中每兩個類之間的類間距離,對所述待聚合類進(jìn)行聚類。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,當(dāng)所述第一類和所述第二類的類間距離 為平均距離時,所述根據(jù)所述指定數(shù)目個樣本距離,應(yīng)用如下公式,計算所述第一類和所述 第二類的類間距離,包括:
其中,Gp指代所述第一類,G。指代所述第二類;K為常數(shù),指代所述指定數(shù)目;i為變量, i G [1,時;化i指代所述指定數(shù)目個樣本距離中第i個樣本距離的大??;Dk(Gp,G。)指代所 述第一類和所述第二類的類間距離。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,當(dāng)所述第一類和所述第二類的類間距離 為中值距離時,所述根據(jù)所述指定數(shù)目個樣本距離,應(yīng)用如下公式,計算所述第一類和所述 第二類的類間距離,包括: Dk 佑p,G。)=化k/2 其中,Gp指代所述第一類,G。指代所述第二類;K為常數(shù),指代所述指定數(shù)目;化k/2指代 所述指定數(shù)目個樣本距離中第K/2個樣本距離的大?。籇k(Gp,G。)指代所述第一類和所述第 二類的類間距離。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定指定數(shù)目個樣本距離之前,所述 方法還包括: 根據(jù)所述第一類的樣本數(shù)量和樣本距離,計算所述第一類的類內(nèi)聚合度; 根據(jù)所述類內(nèi)聚合度,調(diào)整所述指定數(shù)目的大小。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述第一類的樣本數(shù)量和樣本 距離,應(yīng)用如下公式,計算所述第一類的類內(nèi)聚合度,包括:
其中,Gp為樣本數(shù)量為rip的類,rip為常數(shù),i和j為變量,i G [l,np],j G [l,np],d。 指代類6。中樣本X郝樣本X之間的距離,^/&指代類6。的類內(nèi)聚合度。
6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述待聚合類中每兩個類之間 的類間距離,對所述待聚合類進(jìn)行聚類,包括: 在所述每兩個類之間的類間距離中,確定類間距離最小的兩個類; 將所述類間距離最小的兩個類進(jìn)行聚合,得到一個新類;
計算所述新類分別與第=類的類間距離,所述第=類為除所述類間距離最小的兩個類 之外的其他類; 重復(fù)執(zhí)行上述步驟,直至得到一個聚合類。
7. -種聚類分析裝置,其特征在于,所述裝置包括: 樣本距離計算模塊,用于對于待聚合類中的第一類和第二類,計算所述第一類和所述 第二類中兩兩樣本之間的距離,所述兩兩樣本中一個樣本來自于所述第一類,另一個樣本 來自于所述第二類; 樣本距離確定模塊,用于將得到的樣本距離按照預(yù)定順序進(jìn)行排序,確定指定數(shù)目個 樣本距離,所述指定數(shù)目根據(jù)所述第一類或所述第二類的類內(nèi)聚合度調(diào)整得到; 類間距離計算模塊,用于根據(jù)所述指定數(shù)目個樣本距離,計算所述第一類和所述第二 類的類間距離; 聚類模塊,用于根據(jù)所述待聚合類中每兩個類之間的類間距離,對所述待聚合類進(jìn)行 聚類。
8. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述類間距離計算模塊,用于當(dāng)所述第一 類和所述第二類的類間距離為平均距離時,根據(jù)所述指定數(shù)目個樣本距離,應(yīng)用如下公式, 計算所述第一類和所述第二類的類間距離:
其中,Gp指代所述第一類,G。指代所述第二類;K為常數(shù),指代所述指定數(shù)目;i為變量, i G [1,時;化i指代所述指定數(shù)目個樣本距離中第i個樣本距離的大??;Dk(Gp,G。)指代所 述第一類和所述第二類的類間距離。
9. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述類間距離計算模塊,用于當(dāng)所述第一 類和所述第二類的類間距離為中值距離時,根據(jù)所述指定數(shù)目個樣本距離,應(yīng)用如下公式, 計算所述第一類和所述第二類的類間距離: Dk 佑p,G。)=化k/2 其中,Gp指代所述第一類,G。指代所述第二類;K為常數(shù),指代所述指定數(shù)目;化k/2指代 所述指定數(shù)目個樣本距離中第K/2個樣本距離的大小;Dk(Gp,G。)指代所述第一類和所述第 二類的類間距離。
10. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置還包括: 類內(nèi)聚合度計算模塊,用于根據(jù)所述第一類的樣本數(shù)量和樣本距離,計算所述第一類 的類內(nèi)聚合度; 指定數(shù)目調(diào)整模塊,用于根據(jù)所述類內(nèi)聚合度,調(diào)整所述指定數(shù)目的大小。
11. 根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述指定數(shù)目調(diào)整模塊,用于根據(jù)所述 第一類的樣本數(shù)量和樣本距離,應(yīng)用如下公式,計算所述第一類的類內(nèi)聚合度:
其中,Gp為樣本數(shù)量為rip的類,rip為常數(shù),i和j為變量,i G [l,np],j G [l,np],d。
指代類Gp中樣本X郝樣本X j.之間的距離,指代類Gp的類內(nèi)聚合度。
12. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述聚類模塊,用于在所述每兩個類之 間的類間距離中,確定類間距離最小的兩個類;將所述類間距離最小的兩個類進(jìn)行聚合,得 到一個新類;計算所述新類分別與第=類的類間距離,所述第=類為除所述類間距離最小 的兩個類之外的其他類;重復(fù)執(zhí)行上述步驟,直至得到一個聚合類。
13. -種聚類分析設(shè)備,其特征在于,所述設(shè)備包括: 處理器; 用于存儲處理器可執(zhí)行指令的存儲器; 其中,所述處理器被配置為;對于待聚合類中的第一類和第二類,計算所述第一類和所 述第二類中兩兩樣本之間的距離,所述兩兩樣本中一個樣本來自于所述第一類,另一個樣 本來自于所述第二類;將得到的樣本距離按照預(yù)定順序進(jìn)行排序,確定指定數(shù)目個樣本距 離,所述指定數(shù)目根據(jù)所述第一類或所述第二類的類內(nèi)聚合度調(diào)整得到;根據(jù)所述指定數(shù) 目個樣本距離,計算所述第一類和所述第二類的類間距離;根據(jù)所述待聚合類中每兩個類 之間的類間距離,對所述待聚合類進(jìn)行聚類。
【專利摘要】本公開是關(guān)于一種聚類分析方法、裝置及設(shè)備,屬于數(shù)據(jù)處理技術(shù)領(lǐng)域。方法包括:對于待聚合類中的第一類和第二類,計算所述第一類和所述第二類中兩兩樣本之間的距離;將得到的樣本距離按照預(yù)定順序進(jìn)行排序,確定指定數(shù)目個樣本距離,所述指定數(shù)目根據(jù)所述第一類或所述第二類的類內(nèi)聚合度調(diào)整得到;根據(jù)所述指定數(shù)目個樣本距離,計算所述第一類和所述第二類的類間距離;根據(jù)所述待聚合類中每兩個類之間的類間距離,對所述待聚合類進(jìn)行聚類。由于基于類的形狀自適應(yīng)地調(diào)整了指定數(shù)目的大小,并基于該指定數(shù)目確定了計算類間距離所使用的樣本距離基數(shù),所以得到的計算結(jié)果較為精準(zhǔn),不易受異常數(shù)據(jù)和噪聲等的影響。在進(jìn)行聚類時,聚類效果較好。
【IPC分類】G06F17-30
【公開號】CN104598544
【申請?zhí)枴緾N201410852005
【發(fā)明人】陳志軍, 張濤, 關(guān)亞勇
【申請人】小米科技有限責(zé)任公司
【公開日】2015年5月6日
【申請日】2014年12月31日