一種基于集聚系數(shù)的自適應(yīng)聚類方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種基于集聚系數(shù)的自適應(yīng)聚類方法,包括:根據(jù)已提取出的數(shù)據(jù)點對的屬類和每次提取出的數(shù)據(jù)點間的關(guān)聯(lián)關(guān)系的大小以確定數(shù)據(jù)點歸于哪個屬類,屬類數(shù)目,建立數(shù)據(jù)點間的關(guān)聯(lián)關(guān)系和屬類間的關(guān)聯(lián)關(guān)系;對每個屬類進行預(yù)分割,計算兩個子類的類內(nèi)相似度和兩個子類的類間相似度,判斷預(yù)分割的兩個子類是否滿足分割條件,若是,則接收預(yù)分割;若否,則取消預(yù)分割;計算具有關(guān)聯(lián)關(guān)系的兩個屬類的類內(nèi)相似度和兩個屬類間的類間相似度,判斷兩個屬類是否滿足合并條件,若是,則合并兩個屬類生成新的屬類;若否,則放棄合并。本發(fā)明首次將類中數(shù)據(jù)點兩兩之間的關(guān)系考慮進來,基于集聚系數(shù)計算類內(nèi)相似程度和類間相似程度,使之更精確地集聚數(shù)據(jù)。
【專利說明】一種基于集聚系數(shù)的自適應(yīng)聚類方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于基于網(wǎng)絡(luò)技術(shù)的文本分析【技術(shù)領(lǐng)域】,涉及一種基于網(wǎng)絡(luò)技術(shù)的自適應(yīng) 聚類方法,特別是涉及一種基于集聚系數(shù)的自適應(yīng)聚類方法及系統(tǒng)。
【背景技術(shù)】
[0002] 現(xiàn)實世界數(shù)據(jù)的逐步網(wǎng)絡(luò)化和虛擬化,使得網(wǎng)絡(luò)上數(shù)據(jù)的數(shù)量迅猛增長。隨著數(shù) 據(jù)的不斷積累,網(wǎng)絡(luò)上面的數(shù)據(jù)隱含了大量固有知識,可以幫助人們完成數(shù)據(jù)分析、決策支 持等一系列的智能應(yīng)用。人們越來越渴望從這些大量的數(shù)據(jù)中獲取信息和知識,便于揭示 出隱含的,先前未知的并有潛在價值的信息。數(shù)據(jù)挖掘相關(guān)領(lǐng)域也再度成為當(dāng)下熱門的研 究方向之一。聚類分析是數(shù)據(jù)挖掘中的一個很活躍的研究領(lǐng)域。簡單來說,它是將物理或 者抽象的對象集合進行分析,把特征相似的對象分到同一個類,而特征不相似的對象分到 不同的類的過程。聚類算法在模式識別,智能搜索,生物信息和語義消歧等領(lǐng)域都發(fā)揮重大 的作用。
[0003] 目前已有許多聚類算法被提出。概述來講,現(xiàn)有的聚類算法可以分為五類:劃分方 法,層次方法,基于密度的方法,基于網(wǎng)格的方法和基于模型的方法。大多數(shù)的聚類算法在 考慮類內(nèi)相似度時,只考慮類內(nèi)其它元素和核心元素之間的相似度,或者考慮相鄰元素之 間的相似度,并沒有考慮類中元素間兩兩之間的相似度,因此,現(xiàn)有的聚類算法無法更精確 地將網(wǎng)絡(luò)數(shù)據(jù)集聚。
[0004] 因此,如何提供一種應(yīng)用于計算機網(wǎng)絡(luò)中基于集聚系數(shù)的自適應(yīng)聚類方法及系 統(tǒng),以解決現(xiàn)有技術(shù)中在數(shù)據(jù)的聚類過程中僅考慮類內(nèi)其它元素和核心元素之間的相似 度,或者考慮相鄰元素之間的相似度的聚類方法,而不存在考慮類中元素間兩兩之間的相 似度的聚類算法,無法更精確地聚類數(shù)據(jù)的種種缺陷,實已成為本領(lǐng)域從業(yè)者亟待解決的 技術(shù)問題。
【發(fā)明內(nèi)容】
[0005] 鑒于以上所述現(xiàn)有技術(shù)的缺點,本發(fā)明的目的在于提供一種基于集聚系數(shù)的自適 應(yīng)聚類方法及系統(tǒng),用于解決現(xiàn)有技術(shù)中在數(shù)據(jù)的聚類過程中僅考慮類內(nèi)其它元素和核心 元素之間的相似度,或者考慮相鄰元素之間的相似度的聚類方法,而不存在考慮類中元素 間兩兩之間的相似度的聚類算法,無法更精確地聚類數(shù)據(jù)的問題。
[0006] 為實現(xiàn)上述目的及其他相關(guān)目的,本發(fā)明一方面提供一種基于集聚系數(shù)的自適應(yīng) 聚類方法,藉由多臺服務(wù)器及客戶端構(gòu)建的計算機網(wǎng)絡(luò)系統(tǒng)中,用于需要聚類的元素的集 合,該集合中包括若干聚類對象集中的數(shù)據(jù)點,所述基于集聚系數(shù)的自適應(yīng)聚類方法包括: 初步聚類步驟,即獲取若干聚類對象集中的數(shù)據(jù)點間的關(guān)聯(lián)關(guān)系,獲取適用于查找鄰節(jié)點 數(shù)目的最近鄰算法中鄰節(jié)點的數(shù)目以及通過曲線擬合技術(shù)獲取所述數(shù)據(jù)點的分布曲線收 斂速率;按照所述數(shù)據(jù)點間的關(guān)聯(lián)關(guān)系的大小依次提取數(shù)據(jù)點對,根據(jù)已提取出的數(shù)據(jù)點 對的屬類和每次提取出的數(shù)據(jù)點間的關(guān)聯(lián)關(guān)系的大小以確定所述數(shù)據(jù)點歸于哪個屬類,屬 類數(shù)目,并建立數(shù)據(jù)點間的關(guān)聯(lián)關(guān)系和屬類間的關(guān)聯(lián)關(guān)系,直至處理完所有數(shù)據(jù)點以獲取 初步聚類結(jié)果;自學(xué)習(xí)聚類步驟,包括:分割步驟,即計算每個屬類的類內(nèi)相似度和計算每 個屬類中的數(shù)據(jù)點的局部集聚系數(shù),將每個屬類的類內(nèi)相似度與每個屬類中的數(shù)據(jù)點的局 部集聚系數(shù)進行比較,按照將每個屬類分割成數(shù)據(jù)點的局部集聚系數(shù)大于等于類內(nèi)相似度 和數(shù)據(jù)點的局部集聚系數(shù)小于類內(nèi)相似度的兩個子類的分割方式進行預(yù)分割,并計算兩個 子類的類內(nèi)相似度和兩個子類的類間相似度,判斷預(yù)分割的兩個子類是否滿足分割條件, 若是,則接收所述預(yù)分割,產(chǎn)生由多個屬類組成的屬類集合,并繼續(xù)下一步步驟;若否,則取 消所述預(yù)分割;查找步驟,在所述屬類集合中查找具有關(guān)聯(lián)關(guān)系的兩個屬類;合并步驟,即 計算具有關(guān)聯(lián)關(guān)系的兩個屬類的類內(nèi)相似度和兩個屬類間的類間相似度,判斷具有關(guān)聯(lián)關(guān) 系的兩個屬類是否滿足合并條件,若是,則表示所述兩個屬類之間的關(guān)系密切,合并所述兩 個屬類生成新的屬類;若否,則表示所述兩個屬類之間的關(guān)系疏遠,放棄合并。
[0007] 可選地,所述基于集聚系數(shù)的自適應(yīng)聚類方法中初步聚類步驟還包括:將若干聚 類對象集中的數(shù)據(jù)點間的關(guān)聯(lián)關(guān)系的分布信息進行統(tǒng)計,并根據(jù)統(tǒng)計的分布信息和采用所 述曲線擬合技術(shù)獲取關(guān)于若干聚類對象集中的數(shù)據(jù)點間的關(guān)聯(lián)關(guān)系的曲線收斂速率;根據(jù) 所述查找鄰節(jié)點數(shù)目的最近鄰算法統(tǒng)計所述數(shù)據(jù)點間的鄰節(jié)點數(shù)目的分布信息,獲取鄰節(jié) 點數(shù)目的確定值,判斷所述數(shù)據(jù)點擁有鄰節(jié)點數(shù)目大于所述鄰節(jié)點數(shù)目的確定值的數(shù)據(jù)點 是否大于預(yù)定數(shù)量,若是,則繼續(xù)執(zhí)行按照所述數(shù)據(jù)點間的關(guān)聯(lián)關(guān)系的大小依次提取數(shù)據(jù) 點對步驟;若否,則結(jié)束進程。
[0008] 可選地,在所述分割步驟中還包括更新所述兩個子類與其它屬類之間的類間關(guān)聯(lián) 關(guān)系,刪除所述兩個子類原所屬屬類與其它屬類之間的類間關(guān)聯(lián)關(guān)系;在所述合并步驟中 還包括更新生成的新的屬類與其它屬類之間的類間關(guān)聯(lián)關(guān)系,刪除所述兩個屬類與其它屬 類之間的類間關(guān)聯(lián)關(guān)系。
[0009] 可選地,在所述分割步驟中的兩個子類包括子類A和子類B,計算兩個子類A和B 的類內(nèi)相似度的公式分別為:「/?(/〇=
【權(quán)利要求】
1. 一種基于集聚系數(shù)的自適應(yīng)聚類方法,藉由多臺服務(wù)器及客戶端構(gòu)建的計算機網(wǎng)絡(luò) 系統(tǒng)中,用于需要聚類的元素的集合,該集合中包括若干聚類對象集中的數(shù)據(jù)點,其特征在 于,所述基于集聚系數(shù)的自適應(yīng)聚類方法包括: 初步聚類步驟,即獲取若干聚類對象集中的數(shù)據(jù)點間的關(guān)聯(lián)關(guān)系,獲取適用于查找鄰 節(jié)點數(shù)目的最近鄰算法中鄰節(jié)點的數(shù)目以及通過曲線擬合技術(shù)獲取所述數(shù)據(jù)點的分布曲 線收斂速率;按照所述數(shù)據(jù)點間的關(guān)聯(lián)關(guān)系的大小依次提取數(shù)據(jù)點對,根據(jù)已提取出的數(shù) 據(jù)點對的屬類和每次提取出的數(shù)據(jù)點間的關(guān)聯(lián)關(guān)系的大小以確定所述數(shù)據(jù)點歸于哪個屬 類,屬類數(shù)目,并建立數(shù)據(jù)點間的關(guān)聯(lián)關(guān)系和屬類間的關(guān)聯(lián)關(guān)系,直至處理完所有數(shù)據(jù)點以 獲取初步聚類結(jié)果; 自學(xué)習(xí)聚類步驟,包括: 分割步驟,即計算每個屬類的類內(nèi)相似度和計算每個屬類中的數(shù)據(jù)點的局部集聚系 數(shù),將每個屬類的類內(nèi)相似度與每個屬類中的數(shù)據(jù)點的局部集聚系數(shù)進行比較,按照將每 個屬類分割成數(shù)據(jù)點的局部集聚系數(shù)大于等于類內(nèi)相似度和數(shù)據(jù)點的局部集聚系數(shù)小于 類內(nèi)相似度的兩個子類的分割方式進行預(yù)分割,并計算兩個子類的類內(nèi)相似度和兩個子類 的類間相似度,判斷預(yù)分割的兩個子類是否滿足分割條件,若是,則接收所述預(yù)分割,產(chǎn)生 由多個屬類組成的屬類集合,并繼續(xù)下一步步驟;若否,則取消所述預(yù)分割; 查找步驟,在所述屬類集合中查找具有關(guān)聯(lián)關(guān)系的兩個屬類; 合并步驟,即計算具有關(guān)聯(lián)關(guān)系的兩個屬類的類內(nèi)相似度和兩個屬類間的類間相似 度,判斷具有關(guān)聯(lián)關(guān)系的兩個屬類是否滿足合并條件,若是,則表示所述兩個屬類之間的關(guān) 系密切,合并所述兩個屬類生成新的屬類;若否,則表示所述兩個屬類之間的關(guān)系疏遠,放 棄合并。
2. 根據(jù)權(quán)利要求1所述的基于集聚系數(shù)的自適應(yīng)聚類方法,其特征在于:所述基于集 聚系數(shù)的自適應(yīng)聚類方法中初步聚類步驟還包括: 將若干聚類對象集中的數(shù)據(jù)點間的關(guān)聯(lián)關(guān)系的分布信息進行統(tǒng)計,并根據(jù)統(tǒng)計的分布 信息和采用所述曲線擬合技術(shù)獲取關(guān)于若干聚類對象集中的數(shù)據(jù)點間的關(guān)聯(lián)關(guān)系的曲線 收斂速率; 根據(jù)所述查找鄰節(jié)點數(shù)目的最近鄰算法統(tǒng)計所述數(shù)據(jù)點間的鄰節(jié)點數(shù)目的分布信息, 獲取鄰節(jié)點數(shù)目的確定值,判斷所述數(shù)據(jù)點擁有鄰節(jié)點數(shù)目大于所述鄰節(jié)點數(shù)目的確定值 的數(shù)據(jù)點是否大于預(yù)定數(shù)量,若是,則繼續(xù)執(zhí)行按照所述數(shù)據(jù)點間的關(guān)聯(lián)關(guān)系的大小依次 提取數(shù)據(jù)點對步驟;若否,則結(jié)束進程。
3. 根據(jù)權(quán)利要求1所述的基于集聚系數(shù)的自適應(yīng)聚類方法,其特征在于: 在所述分割步驟中還包括更新所述兩個子類與其它屬類之間的類間關(guān)聯(lián)關(guān)系,刪除所 述兩個子類原所屬屬類與其它屬類之間的類間關(guān)聯(lián)關(guān)系;在所述合并步驟中還包括更新生 成的新的屬類與其它屬類之間的類間關(guān)聯(lián)關(guān)系,刪除所述兩個屬類與其它屬類之間的類間 關(guān)聯(lián)關(guān)系。
4. 根據(jù)權(quán)利要求1所述的基于集聚系數(shù)的自適應(yīng)聚類方法,其特征在于:在所述分割 步驟中的兩個子類包括子類A和子類B, 計算兩個子類A和B的類內(nèi)相似度的公式分別為:
其中,Vi表示數(shù)據(jù)點:^^^表示子類A中數(shù)據(jù)點的集合,^^表示子類B中數(shù)據(jù)點的集合, |VA|表示子類A中數(shù)據(jù)點的數(shù)目,|VB|表示子類B中數(shù)據(jù)點的數(shù)目,eg表示連接數(shù)據(jù)點i 和數(shù)據(jù)點j的邊,EA表示子類A中邊的集合,EB表示子類B中邊的集合,C(i)為數(shù)據(jù)點Vi 的局部集聚系數(shù),
其中,Vj,Vk表示數(shù)據(jù)點j,k,N(i)表示 數(shù)據(jù)點\的鄰接點集合,E是邊的集合,&表示N(i)的數(shù)目,ejk表示連接數(shù)據(jù)點j和數(shù)據(jù) 點k的邊; 計算兩個子類A和子類B的類間相似度的公式分別為:
其中,\表示數(shù)據(jù)點i,A'表示子類A和屬于子類B并與子類A有關(guān)聯(lián)關(guān)系的數(shù)據(jù)點 的類,B'表示子類B和屬于子類A并與子類B有關(guān)聯(lián)關(guān)系的數(shù)據(jù)點的類,|VA,|表示A'類 中數(shù)據(jù)點的數(shù)目,|VB,|表示類B'中數(shù)據(jù)點的數(shù)目,\^表示子類A中數(shù)據(jù)點的集合,VB表示 子類B中數(shù)據(jù)點的集合,表示連接數(shù)據(jù)點i和數(shù)據(jù)點j的邊,C(i)為數(shù)據(jù)點Vi的局部集 聚系I
5. 根據(jù)權(quán)利要求4所述的基于集聚系數(shù)的自適應(yīng)聚類方法,其特征在于:所述分割 條件為兩個子類的類內(nèi)相似度是否分別大于所述兩個子類的類間相似度,即clu(A) > assoc (A,),且 clu (B) > assoc (B')。
6. 根據(jù)權(quán)利要求1所述的基于集聚系數(shù)的自適應(yīng)聚類方法,其特征在于:在所述合并 過程中兩個屬類包括屬類A1和屬類A2, 計算兩個屬類A1和屬類A2的類內(nèi)相似度的公式分別為:
其中,Vi表示數(shù)據(jù)點i,VA1表示屬類A1中數(shù)據(jù)點的集合,VA2表示屬類A2中數(shù)據(jù)點的 集合,|VA1|表示屬類A1中數(shù)據(jù)點的數(shù)目,|VA2|表示屬類A2中數(shù)據(jù)點的數(shù)目,表示連接 數(shù)據(jù)點i和數(shù)據(jù)點j的邊,EA,表示屬舉A1中仂的隼合,R,"表示屬類A2中邊的集合,C(i) 為數(shù)據(jù)點\的局部集聚系數(shù),
其中,',Vk表示數(shù)據(jù)點j, k,N(i)表示數(shù)據(jù)點的鄰接點集合,E是邊的集合,表示N(i)的數(shù)目,ejk表示連接數(shù)據(jù) 點j和數(shù)據(jù)點k的邊; 計算兩個屬類A1和屬類A2的類間相似度的公式分別為:
其中,\表示數(shù)據(jù)點i,Al'表示屬類A1和屬類A2并與屬類A1有關(guān)聯(lián)關(guān)系的數(shù)據(jù)點的 屬類,A2'表示屬類A2和屬類A1并與屬類A2有關(guān)聯(lián)關(guān)系的數(shù)據(jù)點的屬類,|VA1,|表示A1' 屬類中數(shù)據(jù)點的數(shù)目,|VA2,|表示屬類A2'中數(shù)據(jù)點的數(shù)目,VA1表示屬類A1中數(shù)據(jù)點的集 合,VA2表示屬類A2中數(shù)據(jù)點的集合,ei1表示連接數(shù)據(jù)點i和數(shù)據(jù)點j的邊,C(i)為數(shù)據(jù) 點\的局部集聚系數(shù)
7. 根據(jù)權(quán)利要求6所述的基于集聚系數(shù)的自適應(yīng)聚類方法,其特征在于:所述合 并條件為兩個屬類的類間相似度是否分別大于等于所述兩個屬類的類內(nèi)相似度,即
8. 根據(jù)權(quán)利要求1所述
的基于集聚系數(shù)的自適應(yīng)聚類方法,其特征在于:按照所述數(shù) 據(jù)點間的關(guān)聯(lián)關(guān)系的大小依次提取數(shù)據(jù)點對的步驟還包括根據(jù)檢測原則檢測提取出的數(shù) 據(jù)點對是否滿足一屬類的特征。
9. 根據(jù)權(quán)利要求8所述的基于集聚系數(shù)的自適應(yīng)聚類方法,其特征在于:所述檢測原 則為:所述一屬類中的數(shù)據(jù)點個數(shù)為1^,屬類內(nèi)平均關(guān)系權(quán)重為avg(ni),提取出來的數(shù)據(jù) 點與所述一屬類中類內(nèi)數(shù)據(jù)點之間的關(guān)系權(quán)重為Wl,所述一屬類的平均關(guān)系權(quán)重收斂速率 為JV若滿足公式(l+.v",)?v妨提取出來的數(shù)據(jù)點便能加入到所述一屬類中;反 之,不能加入。
10. -種基于集聚系數(shù)的自適應(yīng)聚類系統(tǒng),藉由多臺服務(wù)器及客戶端構(gòu)建的計算機網(wǎng) 絡(luò)系統(tǒng)中,用于需要聚類的元素的集合,該集合中包括若干聚類對象集中的數(shù)據(jù)點,其特征 在于,所述基于集聚系數(shù)的自適應(yīng)聚類系統(tǒng)包括: 初步聚類模塊,用于完成初步聚類,所述初步聚類模塊包括預(yù)處理單元和初步聚類單 元,其中,所述預(yù)處理單元用于獲取若干聚類對象集中的數(shù)據(jù)點間的關(guān)聯(lián)關(guān)系,獲取適用于 查找鄰節(jié)點數(shù)目的最近鄰算法中鄰節(jié)點的數(shù)目以及通過曲線擬合技術(shù)獲取所述數(shù)據(jù)點的 分布曲線收斂速率;所述初步聚類單元用于按照所述數(shù)據(jù)點間的關(guān)聯(lián)關(guān)系的大小依次提取 數(shù)據(jù)點對,根據(jù)已提取出的數(shù)據(jù)點對的屬類和已提取出的數(shù)據(jù)點間的關(guān)聯(lián)關(guān)系的大小以確 定所述數(shù)據(jù)點歸于哪個屬類,屬類數(shù)目,并建立數(shù)據(jù)點間的關(guān)聯(lián)關(guān)系和屬類間的關(guān)聯(lián)關(guān)系, 直至處理完所有數(shù)據(jù)點以獲取初步聚類結(jié)果; 自學(xué)習(xí)聚類模塊,用于完成自學(xué)習(xí)聚類,所述自學(xué)習(xí)聚類模塊包括第一計算單元、預(yù)分 割單元、第一判斷單元、查找單元、第二計算單元、第二判斷單元、及合并單元; 其中,所述第一計算單元用于計算每個屬類的類內(nèi)相似度和計算每個屬類中的數(shù)據(jù)點 的局部集聚系數(shù),將每個屬類的類內(nèi)相似度與每個屬類中的數(shù)據(jù)點的局部集聚系數(shù)進行比 較,調(diào)用所述預(yù)分割單元; 所述預(yù)分割單元用于按照將每個屬類分割成數(shù)據(jù)點的局部集聚系數(shù)大于等于類內(nèi)相 似度和數(shù)據(jù)點的局部集聚系數(shù)小于類內(nèi)相似度的兩個子類的分割方式進行預(yù)分割,并計算 兩個子類的類內(nèi)相似度和兩個子類的類間相似度; 所述第一判斷單元用于判斷預(yù)分割的兩個子類是否滿足分割條件,若是,則接收所述 預(yù)分割,產(chǎn)生由多個屬類組成的屬類集合;若否,則取消所述預(yù)分割; 所述查找單元,用于在所述屬類集合中查找具有關(guān)聯(lián)關(guān)系的兩個屬類; 所述第二計算單元,用于計算具有關(guān)聯(lián)關(guān)系的兩個屬類的類內(nèi)相似度和兩個屬類間的 類間相似度; 所述第二判斷單元用于判斷具有關(guān)聯(lián)關(guān)系的兩個屬類是否滿足合并條件,若是,則表 示所述兩個屬類之間的關(guān)系密切,調(diào)用所述合并單元合并所述兩個屬類生成新的屬類;若 否,則表示所述兩個屬類之間的關(guān)系疏遠,放棄合并。
【文檔編號】G06F17/30GK104281674SQ201410512802
【公開日】2015年1月14日 申請日期:2014年9月29日 優(yōu)先權(quán)日:2014年9月29日
【發(fā)明者】蔣昌俊, 陳閎中, 閆春鋼, 丁志軍, 鐘明潔, 孫海春 申請人:同濟大學(xué)