本發(fā)明屬于人工智能中的機器學習技術領域屬于數(shù)據(jù)挖掘中模式識別聚類技術領域,具體涉及一種從空間角度定位技術的聚類方法。
背景技術:
:
聚類是一種常見的數(shù)據(jù)分析工具,其目的是把大量數(shù)據(jù)點的集合分成若干簇,使得簇與簇之間的差異盡可能大,同一簇的差異盡可能小。類簇是數(shù)據(jù)點的集合,聚類分析又稱群集分析,聚類分析使得簇內部的相關性比簇與簇之間的相關性更加緊密,同簇內的相似性很大,而不同的簇之間的差異性很大。相差性可以根據(jù)樣本點的屬性進行計算,而樣本點的“距離”則是度量標準常用的方法。從空間角度上來看,“距離”則體現(xiàn)了點與點之間的緊密程度。
迄今為止,聚類算法的研究已有60余年,作為數(shù)據(jù)挖掘中模式識別技術的一個子功能,聚類作為一個單獨的方法來獲得數(shù)據(jù)點在空間中的分布情況。根據(jù)各簇之間的差異性,集中對某些的特定簇做深層次的分析。此外,它還可以作為其它算法(如特征、圖像和分類等)的預處理步驟,這些算法在形成的簇上進一步做相關處理。
聚類算法的研究是極具挑戰(zhàn)性的,在基于距離和相似度的研究上,產(chǎn)生了許多研究成果,大體上聚類算法可以分為:基于密度聚類算法;基于層次聚類算法;基于網(wǎng)格的聚類算法;基于神經(jīng)網(wǎng)絡的聚類算法;基于統(tǒng)計學的聚類算法以及模糊聚類算法。
技術實現(xiàn)要素:
:
本發(fā)明針對空間角度定位技術,提出了一種類似方向性視覺距離的聚類算法,反應了空間點的緊密程度。點與點之間的緊密,即從任何方位上來看,同一簇的點都是緊密聯(lián)系的。而不同簇的點不可能在任何角度上都是緊密聯(lián)系的,肯定可以從某個方位上可將其區(qū)分。類似人眼視覺,在空間不同方位上直觀的呈現(xiàn)點與點之間的緊密聯(lián)系,從而體現(xiàn)相異性,達到“物以類聚”的效果。
技術方案
本發(fā)明為實現(xiàn)上述目的,采用如下技術方案:
步驟1),輸入樣本數(shù)據(jù)集S={1≤i≤N};
步驟2),隨機選擇基點X0p={X0p|1≤p≤M,M為最終選取的基點數(shù)};
步驟3),以X0p為基點計算樣本集S中各點與X0p的距離Dip,并進行升序排列得到序鏈:Sp={Xip|1≤i≤N,p表示基點,X0p為基點};
步驟4),確定經(jīng)驗值R,即R=DNp/N?;
步驟5),在序鏈Sp中,以經(jīng)驗值R,每相鄰兩點間距為Dip-Di-1p,若Dip-Di-1p>R,則由第i-1個點到其前未被歸簇的點為一簇,可得出Sp的若干簇:Cjp={Cjp|1≤j≤K,K表示此基點的簇數(shù)}否則i+1;
步驟6),隨機改變X0p某幾個維度的正負性,得到此點其他方位上的基點X0p+1,重復步驟3),4),5)得出相應的簇Cjp+1;
步驟7),對于Cjp和Cjp+1的各簇進行相交得到簇Clustern,形如:C1p∩C1p+1;C1p∩C2p+1;...;C2p∩C1p+1;...(重復步驟與Clustern相交);
步驟8),這樣舍去空集得到聚在一起的類簇Clustern;
步驟9),重復步驟6),7),8)若Clustern不變,則得到就為最終的類簇,否則重復步驟6),7),8);若6)中已無法改變維度值,則跳至步驟10);
步驟10),跳至步驟2),直至Clustern不在變化,即得到最終類簇Clustern。
有益效果
本發(fā)明公布了基于空間角度定位技術的聚類方法,不同于現(xiàn)有的聚類算法,本發(fā)明提出了方向性視覺“距離”,即任何角度下同類簇點都具有極大的緊密性,更加直觀的體現(xiàn)了聚類算法的研究理念。本發(fā)明反應了點與點間的緊密程度,相對于現(xiàn)有的聚類算法,本發(fā)明基于空間定位技術的聚類算法更加具有直觀性,更易于人理解,在反應聚類的精準度、緊密性方面更具有優(yōu)勢。
附圖說明
圖1為本發(fā)明技術方案原理圖。
具體實施方式:
下面將結合附圖1及具體實施例對本發(fā)明所述的基于空間角度定位技術的聚類方法作進一步詳細描述。
具體步驟如下:
步驟1,輸入樣本數(shù)據(jù)集S={1≤i≤N};
步驟2,隨機選擇基點X0p={X0p|1≤p≤M,M為最終選取的基點數(shù)};
步驟3,以X0p為基點計算樣本集S中各點與X0p的距離,并進行升序排列得到序鏈:Sp={Xip|1≤i≤N,p表示基點,X0p為基點};
步驟4,確定經(jīng)驗值R(R為從基點角度判斷哪些點應該歸屬同一簇的距離;),這里我們以點間間隔均值為R,即R=DNp/N;
步驟5,在序鏈Sp={Xip|1≤i≤N}(i的初始值為1)中,以經(jīng)驗值R,每相鄰兩點間距為Dip-Di-1p:
步驟5.1,若Dip-Di-1p≤R,則Xip歸入簇Cjp={Cjp|1≤j≤K}(j的初始值為1);i=i+1;
步驟5.2,若Dip-Di-1p>R,j=j+1;
步驟5.3,循環(huán)步驟5.1,5.2直至Sp中點全部歸并;
步驟6,隨機改變X0p某幾個維度的正負性,得到此點其他方位上的新基點X0p,p=p+1,重復步驟3),4),5)得出相應的簇Cjp;
步驟7,對于Cjp和Cjp+1的各簇進行相交得到簇Clustern,形如:C1p∩C1p+1;C1p∩C2p+1;...;C2p∩C1p+1;...;(重復步驟與Clustern相交)
步驟8,這樣舍去空集得到聚在一起的類簇Clustern;
步驟9,重復步驟6,7,8:
步驟9.1,若Clustern不變,則得到就為最終的類簇,否則重復步驟6,7,8,p=p+1;
步驟9.2,若步驟6中已無法改變維度值,則跳至步驟10;
步驟10,跳至步驟2,p=p+1,直至Clustern不在變化,即得到最終類簇。