基于分子內(nèi)聚力理論的數(shù)據(jù)聚類方法

文檔序號：6354127閱讀：522來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于分子內(nèi)聚力理論的數(shù)據(jù)聚類方法
技術(shù)領(lǐng)域：
本發(fā)明涉及數(shù)據(jù)聚類技術(shù)領(lǐng)域，特別是一種基于分子內(nèi)聚力理論的數(shù)據(jù)聚類方法。
背景技術(shù)：
聚類是以數(shù)學(xué)公式為基礎(chǔ)的在不同對象之間的相似度的度量。聚類用來獲得彼此相似而與屬于其他聚類的對象不相似的對象的一種集合。例如，在數(shù)據(jù)挖掘領(lǐng)域中，用聚類法對數(shù)據(jù)中的模型和關(guān)系進(jìn)行辨識，提取隱含其中有用的信息和知識。關(guān)于聚類算法有很多，如 K-MEANS、CURE、DBSCAN、STING、EM、CLIQUE 等。K-means算法是目前為止應(yīng)用最為廣泛的一種聚類算法，它用于解決某些公知的聚類問題。K-means算法被用于產(chǎn)生根據(jù)相似性的距離度量的聚類。K-means聚類算法遵循過分簡單的方法，通過事先固定的聚類的給定數(shù)目，如k個聚類，把固定的數(shù)據(jù)集進(jìn)行分類。也就是說，該算法以選擇的k個對象為初始聚類的中心，初始的代表為一個簇，該過程繼續(xù)進(jìn)行，根據(jù)其與各個簇中心的距離將每個對象重新賦給最近的簇。K-means的一個問題是，k的某個初始值只是根據(jù)估算值被賦值的。這樣的k值經(jīng)常是錯誤的，對最終結(jié)果產(chǎn)生負(fù)面影響。即使重新初始化k值運(yùn)行算法，算法可能會以更接近從數(shù)據(jù)所預(yù)期的聚類的數(shù) 目的k值運(yùn)行。但是這種重新運(yùn)行K-means算法的方法不僅費(fèi)時、低效、麻煩，且仍不能消除或明顯減小k值的負(fù)面影響。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于分子內(nèi)聚力理論的數(shù)據(jù)聚類方法，該方法不用事先估計類別數(shù)目，提高了聚類結(jié)果的準(zhǔn)確性。為實(shí)現(xiàn)上述目的，本發(fā)明的技術(shù)方案是一種基于分子內(nèi)聚力理論的數(shù)據(jù)聚類方法，其特征在于對于高維空間上具有N個數(shù)據(jù)點(diǎn)的數(shù)據(jù)集，設(shè)每個數(shù)據(jù)點(diǎn)為一個分子，設(shè) 多個數(shù)據(jù)點(diǎn)形成的一個聚類為一個分子團(tuán)，按如下步驟進(jìn)行分子內(nèi)聚力聚類
步驟(1)利用分子勢能公式分別計算兩兩數(shù)據(jù)點(diǎn)之間的內(nèi)聚力能量值，并保存；步驟(2):各數(shù)據(jù)點(diǎn)根據(jù)步驟(1)計算得到的內(nèi)聚力能量值并行尋找能使合并總能量降低且降到最低的數(shù)據(jù)點(diǎn)，與其合并為一個聚類，根據(jù)聚類完成的先后順序，當(dāng)一個數(shù)據(jù)點(diǎn)A 被另一數(shù)據(jù)點(diǎn)B合并為一個聚類后，所述數(shù)據(jù)點(diǎn)A不再主動尋找與其聚類的數(shù)據(jù)點(diǎn)，也不再以單個數(shù)據(jù)點(diǎn)形式作為其他數(shù)據(jù)點(diǎn)的聚類選擇對象；通過該步驟得到多個聚類和未找到使合并總能量降低數(shù)據(jù)點(diǎn)而無法聚類的數(shù)據(jù)點(diǎn)；
步驟(3):步驟(2)得到的各數(shù)據(jù)點(diǎn)和聚類并行尋找能使合并總能量降低且降到最低的數(shù)據(jù)點(diǎn)或聚類，與其合并為一個新的聚類，根據(jù)聚類完成的先后順序，當(dāng)一個數(shù)據(jù)點(diǎn)或聚類 C被另一數(shù)據(jù)點(diǎn)或聚類D合并為一個新的聚類后，所述數(shù)據(jù)點(diǎn)或聚類C不再主動尋找與其聚類的數(shù)據(jù)點(diǎn)或聚類，也不再以原形式作為其他數(shù)據(jù)點(diǎn)或聚類的聚類選擇對象；
步驟(4)重復(fù)步驟(3)，直至所有數(shù)據(jù)點(diǎn)或聚類都無法使其他數(shù)據(jù)點(diǎn)或聚類能量降低；
步驟(5)所有數(shù)據(jù)點(diǎn)聚類完成，并得到數(shù)據(jù)點(diǎn)最終的類簇及其類別數(shù)目。本發(fā)明的有益效果是將待聚類數(shù)據(jù)點(diǎn)與分子進(jìn)行類比，將分子內(nèi)聚力理論應(yīng)用于數(shù)據(jù)聚類過程，在聚類過程中不用事先估計類別數(shù)目，從而提高了聚類結(jié)果的準(zhǔn)確性。

圖1是本發(fā)明實(shí)施例的工作流程圖。
具體實(shí)施例方式本發(fā)明基于分子內(nèi)聚力理論的數(shù)據(jù)聚類方法，對于高維空間上具有N個數(shù)據(jù)點(diǎn)的數(shù)據(jù)集，設(shè)每個數(shù)據(jù)點(diǎn)為一個分子，設(shè)多個數(shù)據(jù)點(diǎn)形成的一個聚類為一個分子團(tuán)，按如下步驟進(jìn)行分子內(nèi)聚力聚類
步驟(1):利用分子勢能公式分別計算兩兩數(shù)據(jù)點(diǎn)之間的內(nèi)聚力能量值，并保存至能量矩陣中；
步驟(2):各數(shù)據(jù)點(diǎn)根據(jù)步驟(1)計算得到的內(nèi)聚力能量值并行尋找能使合并總能量降低且降到最低的數(shù)據(jù)點(diǎn)，與其合并為一個聚類，根據(jù)聚類完成的先后順序，當(dāng)一個數(shù)據(jù)點(diǎn)A 被另一數(shù)據(jù)點(diǎn)B合并為一個聚類后，所述數(shù)據(jù)點(diǎn)A不再主動尋找與其聚類的數(shù)據(jù)點(diǎn)，也不再以單個數(shù)據(jù)點(diǎn)形式作為其他數(shù)據(jù)點(diǎn)的聚類選擇對象；通過該步驟得到多個聚類和未找到使合并總能量降低數(shù)據(jù)點(diǎn)而無法聚類的數(shù)據(jù)點(diǎn)；
步驟(3):步驟(2)得到的各數(shù)據(jù)點(diǎn)和聚類并行尋找能使合并總能量降低且降到最低的數(shù)據(jù)點(diǎn)或聚類，與其合并為一個新的聚類，根據(jù)聚類完成的先后順序，當(dāng)一個數(shù)據(jù)點(diǎn)或聚類 C被另一數(shù)據(jù)點(diǎn)或聚類D合并為一個新的聚類后，所述數(shù)據(jù)點(diǎn)或聚類C不再主動尋找與其聚類的數(shù)據(jù)點(diǎn)或聚類，也不再以原形式作為其他數(shù)據(jù)點(diǎn)或聚類的聚類選擇對象；
步驟(4)重復(fù)步驟(3)，直至所有數(shù)據(jù)點(diǎn)或聚類都無法使其他數(shù)據(jù)點(diǎn)或聚類能量降
低；
步驟(5)所有數(shù)據(jù)點(diǎn)聚類完成，并得到數(shù)據(jù)點(diǎn)最終的類簇及其類別數(shù)目。在步驟(2)中，兩兩數(shù)據(jù)點(diǎn)之間的內(nèi)聚力能量值的計算公式為
權(quán)利要求
1.一種基于分子內(nèi)聚力理論的數(shù)據(jù)聚類方法，其特征在于對于高維空間上具有N個數(shù)據(jù)點(diǎn)的數(shù)據(jù)集，設(shè)每個數(shù)據(jù)點(diǎn)為一個分子，設(shè)多個數(shù)據(jù)點(diǎn)形成的一個聚類為一個分子團(tuán)，基于分子內(nèi)聚力理論按如下步驟進(jìn)行數(shù)據(jù)聚類步驟(1)利用分子勢能公式分別計算兩兩數(shù)據(jù)點(diǎn)之間的內(nèi)聚力能量值，并保存；步驟(2):各數(shù)據(jù)點(diǎn)并行尋找能使合并總能量降低且降到最低的數(shù)據(jù)點(diǎn)，與其合并為一個聚類，根據(jù)聚類完成的先后順序，當(dāng)一個數(shù)據(jù)點(diǎn)A被另一數(shù)據(jù)點(diǎn)B合并為一個聚類后，所述數(shù)據(jù)點(diǎn)A不再主動尋找與其聚類的數(shù)據(jù)點(diǎn)，也不再以單個數(shù)據(jù)點(diǎn)形式作為其他數(shù)據(jù)點(diǎn)的聚類選擇對象；通過該步驟得到多個聚類和未找到使合并總能量降低數(shù)據(jù)點(diǎn)而無法聚類的數(shù)據(jù)點(diǎn)；步驟(3):步驟(2)得到的各數(shù)據(jù)點(diǎn)和聚類并行尋找能使合并總能量降低且降到最低的數(shù)據(jù)點(diǎn)或聚類，與其合并為一個新的聚類，根據(jù)聚類完成的先后順序，當(dāng)一個數(shù)據(jù)點(diǎn)或聚類 C被另一數(shù)據(jù)點(diǎn)或聚類D合并為一個新的聚類后，所述數(shù)據(jù)點(diǎn)或聚類C不再主動尋找與其聚類的數(shù)據(jù)點(diǎn)或聚類，也不再以原形式作為其他數(shù)據(jù)點(diǎn)或聚類的聚類選擇對象；步驟(4):重復(fù)步驟(3)，直至所有數(shù)據(jù)點(diǎn)或聚類都無法使其他數(shù)據(jù)點(diǎn)或聚類能量降低；步驟(5)所有數(shù)據(jù)點(diǎn)聚類完成，并得到數(shù)據(jù)點(diǎn)最終的類簇及其類別數(shù)目。
2.根據(jù)權(quán)利要求1所述的基于分子內(nèi)聚力理論的數(shù)據(jù)聚類方法，其特征在于兩兩數(shù) 據(jù)點(diǎn)之間的內(nèi)聚力能量值的計算公式為
3.根據(jù)權(quán)利要求1或2所述的基于分子內(nèi)聚力理論的數(shù)據(jù)聚類方法，其特征在于一個數(shù)據(jù)點(diǎn)或聚類加入新的數(shù)據(jù)點(diǎn)后總能量值的計算公式為
全文摘要
本發(fā)明涉及一種基于分子內(nèi)聚力理論的數(shù)據(jù)聚類方法，其特征在于對于高維空間上具有N個數(shù)據(jù)點(diǎn)的數(shù)據(jù)集，設(shè)每個數(shù)據(jù)點(diǎn)為一個分子，設(shè)多個數(shù)據(jù)點(diǎn)形成的聚類為分子團(tuán)，基于分子內(nèi)聚力理論進(jìn)行數(shù)據(jù)聚類步驟一計算兩兩數(shù)據(jù)點(diǎn)之間的內(nèi)聚力能量值并保存；步驟二各數(shù)據(jù)點(diǎn)并行尋找能使合并總能量降低且降到最低的數(shù)據(jù)點(diǎn)，與其合并為一個聚類，通過該步驟得到多個聚類和未聚類的數(shù)據(jù)點(diǎn)；步驟三各數(shù)據(jù)點(diǎn)和聚類并行尋找能使合并總能量降低且降到最低的數(shù)據(jù)點(diǎn)或聚類，與其合并為一個新的聚類；步驟四重復(fù)步驟(3)，直至所有數(shù)據(jù)點(diǎn)或聚類都無法使其他數(shù)據(jù)點(diǎn)或聚類能量降低，所有數(shù)據(jù)點(diǎn)聚類完成。該方法不用事先估計類別數(shù)目，提高了聚類結(jié)果的準(zhǔn)確性。
文檔編號G06F17/30GK102087667SQ201110032779
公開日2011年6月8日申請日期2011年1月30日優(yōu)先權(quán)日2011年1月30日
發(fā)明者余春艷, 姜云飛, 張棟, 李建明, 王秀申請人:福州大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：余春艷;張棟;王秀;姜云飛;李建明
技術(shù)所有人：福州大學(xué)
我是此專利的發(fā)明人

上一篇：一種確定推薦經(jīng)由地順序的方法及系統(tǒng)的制作方法
上一篇：牙周電子病歷系統(tǒng)及其操作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

聚類數(shù)據(jù)集相關(guān)技術(shù)

數(shù)據(jù)聚類相關(guān)技術(shù)

數(shù)據(jù)挖掘聚類分析案例相關(guān)技術(shù)

聚類分析數(shù)據(jù)相關(guān)技術(shù)

kmeans聚類算法數(shù)據(jù)集相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于分子內(nèi)聚力理論的數(shù)據(jù)聚類方法