專利名稱:基于分子內(nèi)聚力理論的數(shù)據(jù)聚類方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)聚類技術(shù)領(lǐng)域,特別是一種基于分子內(nèi)聚力理論的數(shù)據(jù)聚類方 法。
背景技術(shù):
聚類是以數(shù)學(xué)公式為基礎(chǔ)的在不同對象之間的相似度的度量。聚類用來獲得彼此 相似而與屬于其他聚類的對象不相似的對象的一種集合。例如,在數(shù)據(jù)挖掘領(lǐng)域中,用聚類 法對數(shù)據(jù)中的模型和關(guān)系進(jìn)行辨識,提取隱含其中有用的信息和知識。關(guān)于聚類算法有很 多,如 K-MEANS、CURE、DBSCAN、STING、EM、CLIQUE 等。K-means算法是目前為止應(yīng)用最為廣泛的一種聚類算法,它用于解決某些公知的 聚類問題。K-means算法被用于產(chǎn)生根據(jù)相似性的距離度量的聚類。K-means聚類算法遵 循過分簡單的方法,通過事先固定的聚類的給定數(shù)目,如k個聚類,把固定的數(shù)據(jù)集進(jìn)行分 類。也就是說,該算法以選擇的k個對象為初始聚類的中心,初始的代表為一個簇,該過程 繼續(xù)進(jìn)行,根據(jù)其與各個簇中心的距離將每個對象重新賦給最近的簇。K-means的一個問題 是,k的某個初始值只是根據(jù)估算值被賦值的。這樣的k值經(jīng)常是錯誤的,對最終結(jié)果產(chǎn)生 負(fù)面影響。即使重新初始化k值運(yùn)行算法,算法可能會以更接近從數(shù)據(jù)所預(yù)期的聚類的數(shù) 目的k值運(yùn)行。但是這種重新運(yùn)行K-means算法的方法不僅費(fèi)時、低效、麻煩,且仍不能消 除或明顯減小k值的負(fù)面影響。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于分子內(nèi)聚力理論的數(shù)據(jù)聚類方法,該方法不用事 先估計類別數(shù)目,提高了聚類結(jié)果的準(zhǔn)確性。為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案是一種基于分子內(nèi)聚力理論的數(shù)據(jù)聚類方 法,其特征在于對于高維空間上具有N個數(shù)據(jù)點(diǎn)的數(shù)據(jù)集,設(shè)每個數(shù)據(jù)點(diǎn)為一個分子,設(shè) 多個數(shù)據(jù)點(diǎn)形成的一個聚類為一個分子團(tuán),按如下步驟進(jìn)行分子內(nèi)聚力聚類
步驟(1)利用分子勢能公式分別計算兩兩數(shù)據(jù)點(diǎn)之間的內(nèi)聚力能量值,并保存; 步驟(2):各數(shù)據(jù)點(diǎn)根據(jù)步驟(1)計算得到的內(nèi)聚力能量值并行尋找能使合并總能量降 低且降到最低的數(shù)據(jù)點(diǎn),與其合并為一個聚類,根據(jù)聚類完成的先后順序,當(dāng)一個數(shù)據(jù)點(diǎn)A 被另一數(shù)據(jù)點(diǎn)B合并為一個聚類后,所述數(shù)據(jù)點(diǎn)A不再主動尋找與其聚類的數(shù)據(jù)點(diǎn),也不再 以單個數(shù)據(jù)點(diǎn)形式作為其他數(shù)據(jù)點(diǎn)的聚類選擇對象;通過該步驟得到多個聚類和未找到使 合并總能量降低數(shù)據(jù)點(diǎn)而無法聚類的數(shù)據(jù)點(diǎn);
步驟(3):步驟(2)得到的各數(shù)據(jù)點(diǎn)和聚類并行尋找能使合并總能量降低且降到最低的 數(shù)據(jù)點(diǎn)或聚類,與其合并為一個新的聚類,根據(jù)聚類完成的先后順序,當(dāng)一個數(shù)據(jù)點(diǎn)或聚類 C被另一數(shù)據(jù)點(diǎn)或聚類D合并為一個新的聚類后,所述數(shù)據(jù)點(diǎn)或聚類C不再主動尋找與其聚 類的數(shù)據(jù)點(diǎn)或聚類,也不再以原形式作為其他數(shù)據(jù)點(diǎn)或聚類的聚類選擇對象;
步驟(4)重復(fù)步驟(3),直至所有數(shù)據(jù)點(diǎn)或聚類都無法使其他數(shù)據(jù)點(diǎn)或聚類能量降低;
步驟(5)所有數(shù)據(jù)點(diǎn)聚類完成,并得到數(shù)據(jù)點(diǎn)最終的類簇及其類別數(shù)目。本發(fā)明的有益效果是將待聚類數(shù)據(jù)點(diǎn)與分子進(jìn)行類比,將分子內(nèi)聚力理論應(yīng)用于 數(shù)據(jù)聚類過程,在聚類過程中不用事先估計類別數(shù)目,從而提高了聚類結(jié)果的準(zhǔn)確性。
圖1是本發(fā)明實(shí)施例的工作流程圖。
具體實(shí)施例方式本發(fā)明基于分子內(nèi)聚力理論的數(shù)據(jù)聚類方法,對于高維空間上具有N個數(shù)據(jù)點(diǎn)的 數(shù)據(jù)集,設(shè)每個數(shù)據(jù)點(diǎn)為一個分子,設(shè)多個數(shù)據(jù)點(diǎn)形成的一個聚類為一個分子團(tuán),按如下步 驟進(jìn)行分子內(nèi)聚力聚類
步驟(1):利用分子勢能公式分別計算兩兩數(shù)據(jù)點(diǎn)之間的內(nèi)聚力能量值,并保存至能量 矩陣中;
步驟(2):各數(shù)據(jù)點(diǎn)根據(jù)步驟(1)計算得到的內(nèi)聚力能量值并行尋找能使合并總能量降 低且降到最低的數(shù)據(jù)點(diǎn),與其合并為一個聚類,根據(jù)聚類完成的先后順序,當(dāng)一個數(shù)據(jù)點(diǎn)A 被另一數(shù)據(jù)點(diǎn)B合并為一個聚類后,所述數(shù)據(jù)點(diǎn)A不再主動尋找與其聚類的數(shù)據(jù)點(diǎn),也不再 以單個數(shù)據(jù)點(diǎn)形式作為其他數(shù)據(jù)點(diǎn)的聚類選擇對象;通過該步驟得到多個聚類和未找到使 合并總能量降低數(shù)據(jù)點(diǎn)而無法聚類的數(shù)據(jù)點(diǎn);
步驟(3):步驟(2)得到的各數(shù)據(jù)點(diǎn)和聚類并行尋找能使合并總能量降低且降到最低的 數(shù)據(jù)點(diǎn)或聚類,與其合并為一個新的聚類,根據(jù)聚類完成的先后順序,當(dāng)一個數(shù)據(jù)點(diǎn)或聚類 C被另一數(shù)據(jù)點(diǎn)或聚類D合并為一個新的聚類后,所述數(shù)據(jù)點(diǎn)或聚類C不再主動尋找與其聚 類的數(shù)據(jù)點(diǎn)或聚類,也不再以原形式作為其他數(shù)據(jù)點(diǎn)或聚類的聚類選擇對象;
步驟(4)重復(fù)步驟(3),直至所有數(shù)據(jù)點(diǎn)或聚類都無法使其他數(shù)據(jù)點(diǎn)或聚類能量降
低;
步驟(5)所有數(shù)據(jù)點(diǎn)聚類完成,并得到數(shù)據(jù)點(diǎn)最終的類簇及其類別數(shù)目。在步驟(2)中,兩兩數(shù)據(jù)點(diǎn)之間的內(nèi)聚力能量值的計算公式為
權(quán)利要求
1.一種基于分子內(nèi)聚力理論的數(shù)據(jù)聚類方法,其特征在于對于高維空間上具有N個 數(shù)據(jù)點(diǎn)的數(shù)據(jù)集,設(shè)每個數(shù)據(jù)點(diǎn)為一個分子,設(shè)多個數(shù)據(jù)點(diǎn)形成的一個聚類為一個分子團(tuán), 基于分子內(nèi)聚力理論按如下步驟進(jìn)行數(shù)據(jù)聚類步驟(1)利用分子勢能公式分別計算兩兩數(shù)據(jù)點(diǎn)之間的內(nèi)聚力能量值,并保存; 步驟(2):各數(shù)據(jù)點(diǎn)并行尋找能使合并總能量降低且降到最低的數(shù)據(jù)點(diǎn),與其合并為一 個聚類,根據(jù)聚類完成的先后順序,當(dāng)一個數(shù)據(jù)點(diǎn)A被另一數(shù)據(jù)點(diǎn)B合并為一個聚類后,所 述數(shù)據(jù)點(diǎn)A不再主動尋找與其聚類的數(shù)據(jù)點(diǎn),也不再以單個數(shù)據(jù)點(diǎn)形式作為其他數(shù)據(jù)點(diǎn)的 聚類選擇對象;通過該步驟得到多個聚類和未找到使合并總能量降低數(shù)據(jù)點(diǎn)而無法聚類的 數(shù)據(jù)點(diǎn);步驟(3):步驟(2)得到的各數(shù)據(jù)點(diǎn)和聚類并行尋找能使合并總能量降低且降到最低的 數(shù)據(jù)點(diǎn)或聚類,與其合并為一個新的聚類,根據(jù)聚類完成的先后順序,當(dāng)一個數(shù)據(jù)點(diǎn)或聚類 C被另一數(shù)據(jù)點(diǎn)或聚類D合并為一個新的聚類后,所述數(shù)據(jù)點(diǎn)或聚類C不再主動尋找與其聚 類的數(shù)據(jù)點(diǎn)或聚類,也不再以原形式作為其他數(shù)據(jù)點(diǎn)或聚類的聚類選擇對象;步驟(4):重復(fù)步驟(3),直至所有數(shù)據(jù)點(diǎn)或聚類都無法使其他數(shù)據(jù)點(diǎn)或聚類能量降低;步驟(5)所有數(shù)據(jù)點(diǎn)聚類完成,并得到數(shù)據(jù)點(diǎn)最終的類簇及其類別數(shù)目。
2.根據(jù)權(quán)利要求1所述的基于分子內(nèi)聚力理論的數(shù)據(jù)聚類方法,其特征在于兩兩數(shù) 據(jù)點(diǎn)之間的內(nèi)聚力能量值的計算公式為
3.根據(jù)權(quán)利要求1或2所述的基于分子內(nèi)聚力理論的數(shù)據(jù)聚類方法,其特征在于一 個數(shù)據(jù)點(diǎn)或聚類加入新的數(shù)據(jù)點(diǎn)后總能量值的計算公式為
全文摘要
本發(fā)明涉及一種基于分子內(nèi)聚力理論的數(shù)據(jù)聚類方法,其特征在于對于高維空間上具有N個數(shù)據(jù)點(diǎn)的數(shù)據(jù)集,設(shè)每個數(shù)據(jù)點(diǎn)為一個分子,設(shè)多個數(shù)據(jù)點(diǎn)形成的聚類為分子團(tuán),基于分子內(nèi)聚力理論進(jìn)行數(shù)據(jù)聚類步驟一計算兩兩數(shù)據(jù)點(diǎn)之間的內(nèi)聚力能量值并保存;步驟二各數(shù)據(jù)點(diǎn)并行尋找能使合并總能量降低且降到最低的數(shù)據(jù)點(diǎn),與其合并為一個聚類,通過該步驟得到多個聚類和未聚類的數(shù)據(jù)點(diǎn);步驟三各數(shù)據(jù)點(diǎn)和聚類并行尋找能使合并總能量降低且降到最低的數(shù)據(jù)點(diǎn)或聚類,與其合并為一個新的聚類;步驟四重復(fù)步驟(3),直至所有數(shù)據(jù)點(diǎn)或聚類都無法使其他數(shù)據(jù)點(diǎn)或聚類能量降低,所有數(shù)據(jù)點(diǎn)聚類完成。該方法不用事先估計類別數(shù)目,提高了聚類結(jié)果的準(zhǔn)確性。
文檔編號G06F17/30GK102087667SQ201110032779
公開日2011年6月8日 申請日期2011年1月30日 優(yōu)先權(quán)日2011年1月30日
發(fā)明者余春艷, 姜云飛, 張棟, 李建明, 王秀 申請人:福州大學(xué)