專利名稱:聚類裝置和聚類方法
技術(shù)領(lǐng)域:
本發(fā)明涉及聚類(clustering)裝置和聚類方法。
背景技術(shù):
對(duì)數(shù)字信息(例如工廠中的傳感器數(shù)據(jù)等)進(jìn)行數(shù)據(jù)分析,以進(jìn)行輸出預(yù)測(cè)或異常檢測(cè)的需求正在增加。對(duì)于所觀測(cè)到的數(shù)字?jǐn)?shù)據(jù),有構(gòu)成其本質(zhì)的機(jī)制。如果該機(jī)制是足夠明確的,則能夠構(gòu)造精確的數(shù)學(xué)模型并根據(jù)該數(shù)學(xué)模型獲得預(yù)測(cè)值。
然而通常,如果系統(tǒng)變得復(fù)雜,則難以通過(guò)數(shù)字等式構(gòu)建能夠進(jìn)行精確計(jì)算的高精度模型。
因此,通過(guò)使用例如數(shù)據(jù)挖掘這樣的分析技術(shù),根據(jù)所觀測(cè)到的數(shù)據(jù)來(lái)建立模型。當(dāng)獲得多個(gè)傳感器輸出數(shù)據(jù)時(shí),所觀測(cè)到的數(shù)據(jù)是包含多個(gè)變量的多維數(shù)據(jù)。為了根據(jù)所觀測(cè)到的數(shù)據(jù)建立模型,有必要了解多個(gè)變量之間的關(guān)系。如果多個(gè)變量間的關(guān)系復(fù)雜,則通常將數(shù)據(jù)分成多個(gè)集合。
例如,假設(shè)有兩個(gè)變量的散布圖。假設(shè)該散布圖大致包括兩類數(shù)據(jù)集,即,鄰近于某一直線L1的數(shù)據(jù)以及鄰近于另一直線L2的數(shù)據(jù)。在這種情況下,適合于將數(shù)據(jù)分為兩類數(shù)據(jù)集再進(jìn)行分析。
如果之前不知道數(shù)據(jù)被分類為兩條直線,則需要執(zhí)行用于自動(dòng)將數(shù)據(jù)分為多個(gè)數(shù)據(jù)集的處理,即聚類處理。
然而,在傳統(tǒng)的聚類技術(shù)中,在某些情況下,不能獲得預(yù)期的聚類結(jié)果,即,接近人類直覺(jué)的聚類結(jié)果。例如,鄰近某一直線的數(shù)據(jù)集通常被分為不同的簇。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個(gè)方面,提供了一種聚類裝置,包括初始簇生成器,用于劃分多維數(shù)據(jù)以生成多個(gè)簇,每個(gè)簇包含一個(gè)或多個(gè)數(shù)據(jù)段(data piece);簇記錄器,用于記錄生成的簇;簇選擇器,用于根據(jù)每個(gè)簇來(lái)計(jì)算模型的參數(shù),并基于根據(jù)簇所計(jì)算的參數(shù)來(lái)選擇將合并的簇;簇合并器,用于合并由簇選擇器選擇的簇;以及簇評(píng)估器,用于計(jì)算用于評(píng)估一組簇的評(píng)估值。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種聚類方法,包括劃分多維數(shù)據(jù)以生成多個(gè)簇,每個(gè)簇包含一個(gè)或多個(gè)數(shù)據(jù)段;記錄生成的簇;根據(jù)每個(gè)簇來(lái)計(jì)算模型的參數(shù);基于根據(jù)簇所計(jì)算的參數(shù)來(lái)選擇將合并的簇;合并所選擇的簇;計(jì)算用于評(píng)估一組簇的評(píng)估值;當(dāng)評(píng)估值不滿足閾值時(shí)返回選擇步驟。
圖1是示意性地顯示根據(jù)本發(fā)明的實(shí)施例的聚類裝置的框圖;圖2是顯示由圖1中顯示的聚類裝置執(zhí)行的典型的處理流程的流程圖;圖3是顯示二維數(shù)據(jù)的例子的示圖;圖4是顯示初始簇的例子的示圖;圖5是顯示通過(guò)對(duì)圖4中的相應(yīng)初始簇建模而獲得的直線的示圖;圖6是顯示n維數(shù)據(jù)的例子的示圖;圖7是顯示合并簇的例子的示圖;圖8是顯示由圖1所示的聚類裝置執(zhí)行的具體處理的例子的流程圖;圖9是顯示生成不合適的初始簇的例子的示圖;圖10是顯示線段區(qū)域的示圖;圖11是顯示由二條線段形成的角θ以及二條線段的重心點(diǎn)(gravity-point)之間的距離d的示圖;圖12是顯示距線段的距離為r以內(nèi)的區(qū)域的示圖。
具體實(shí)施例方式
(第一實(shí)施例)圖1是示意性地顯示根據(jù)本發(fā)明的實(shí)施例的聚類裝置的框圖。圖2是顯示由圖1中顯示的聚類裝置執(zhí)行的典型的處理流程的流程圖。
圖1中的聚類裝置包括初始簇生成器11,數(shù)據(jù)庫(kù)12,簇評(píng)估器13,簇記錄器14,簇選擇器15和簇合并器16。由元件11到16執(zhí)行的功能可以通過(guò)使計(jì)算機(jī)執(zhí)行使用普通的編程技術(shù)生成的程序來(lái)實(shí)現(xiàn),也可以通過(guò)硬件來(lái)實(shí)現(xiàn),或者通過(guò)它們的組合來(lái)實(shí)現(xiàn)。
數(shù)據(jù)庫(kù)12存儲(chǔ)序列長(zhǎng)度為n的多維數(shù)據(jù)。圖3顯示了序列長(zhǎng)度為9的二維數(shù)據(jù)的例子。變量x1和x2是按時(shí)間順序從例如第一和第二傳感器獲取的數(shù)據(jù)。
初始簇生成器11根據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)12中的多維數(shù)據(jù)生成初始簇(S1)。例如通過(guò)象網(wǎng)格一樣劃分多維數(shù)據(jù)來(lái)生成初始簇。
圖4是顯示根據(jù)圖3中所示的多維數(shù)據(jù)生成初始簇的例子的示圖。
圖3所示的包含在多維數(shù)據(jù)中的九個(gè)數(shù)據(jù)被標(biāo)示在x1-x2平面上。該x1-x2平面被劃分成類似于網(wǎng)格。也就是說(shuō),使用以確定的間隔設(shè)置的、以致垂直于x1軸的平面(如果多維數(shù)據(jù)是二維的則為直線),以及以確定的間隔設(shè)置的、以致垂直于x2軸的平面來(lái)劃分多維數(shù)據(jù)。通過(guò)劃分,生成簇C1、C2和C3。
初始簇生成器11將生成的簇C1、C2和C3記錄在簇記錄器14中。
簇選擇器15從記錄在簇記錄器14中的簇集合中選擇將合并的簇。具體地,簇選擇器15針對(duì)每個(gè)簇計(jì)算之前給出的模型的參數(shù)(S2),并根據(jù)計(jì)算出的各個(gè)簇的參數(shù)選擇將合并的簇(S3)。下面將描述一個(gè)例子,其中簇C1、C2和C3被用作簇集合,并且直線y=ax+b被用作預(yù)先給出的模型。
直線模型的參數(shù)是斜率a和截距b。屬于簇Ci(i=1、2、3)的數(shù)據(jù)集被表示為Di。根據(jù)Di的數(shù)據(jù)計(jì)算的直線的模型參數(shù)被表示為(ai,bi)。如果|Di|≥2,則可以如下計(jì)算直線的參數(shù)
ai=Σ(xj,yj)∈Dixjyj-1n(Σxj∈Dixj)(Σyj∈Diyj)Σxj∈Dixj2-1n(Σxj∈Dixj)2,bi=1nΣyj∈Diyj-ainΣxj∈Dixj---(1)]]>使用通過(guò)等式(1)得到的參數(shù),根據(jù)下列等式來(lái)計(jì)算簇的誤差Ei。
Ei=1|D|Σ(xj,yj)∈Di(yj-aixj-bi)2---(2)]]>簇的誤差的意思是模型和實(shí)際數(shù)據(jù)間的偏差。
根據(jù)等式(1)得到簇C1、C2和C3的參數(shù)為,C1(a1,b1)=(1,0),C2(a2,b2)=(1,0),C3(a3,b3)=(0,2)。如圖5所示,在圖4中的坐標(biāo)系上畫出具有相應(yīng)參數(shù)的直線。這里,通過(guò)組合簇C1、C2和C3生成所有簇對(duì)。從而生成(C1,C2),(C1,C3)和(C2,C3)。對(duì)(C1,C2),(C1,C3)和(C2,C3)計(jì)算參數(shù)距離,并對(duì)計(jì)算出的距離進(jìn)行互相比較。因此,可以得出(C1,C2)的參數(shù)之間的距離最短(相同),如以下所述。因此,簇C1和C2成為合并候選。這里,參數(shù)間距離最短的簇已被選為合并候選。或者,參數(shù)間距離等于或小于預(yù)定值的全部簇對(duì)都可以被選為合并候選。例如,參數(shù)間的距離可以如下計(jì)算。
使表示直線斜率的ai和表示y-截距的bi具有相同的權(quán)重,如下計(jì)算兩個(gè)簇C1(a1,b1)和C2(a2,b2)之間的距離DD=(a1-a2)2+(b1-b2)2---(3)]]>或者對(duì)兩個(gè)簇的斜率賦予權(quán)重,則距離D可以被如下計(jì)算D=A(a1-a2)2+(b1-b2)2---(4)]]>這里,A是比1大的正常量。
以上描述了多維數(shù)據(jù)是二維的情況?;蛘撸梢允褂镁哂懈呔S的多維數(shù)據(jù)。
通常,當(dāng)數(shù)據(jù)被標(biāo)示在n維空間上時(shí),可以使用(n+1)個(gè)系數(shù)ai(i=0,1,…n)(這里,它們中的n個(gè)系數(shù)是自變數(shù))來(lái)表示超平面(hyperplane),如下所示a0+Σi=1naixi=0,(Σi=1nal2=1)---(5)]]>如圖6所示,如果有N個(gè)n維數(shù)據(jù),則可以如下得出系數(shù) 根據(jù)等式(5)的方括號(hào)中的條件,可以確定a0。最終,可以確定全部ai(i=0,1,…n)。
可以如下計(jì)算簇誤差1NΣi=1N|a0+Σj=1najxij|2---(7)]]>在n維空間中,簇之間的距離可以使用(n+1)個(gè)系數(shù)ai(i=0,1,…,n)來(lái)定義。例如,兩個(gè)簇C1si(i=0,1,…n)和C2ti(i=0,1,…n)之間的距離可以如下定義D=Σk=0n(si-ti)2---(8)]]>參照?qǐng)D1,簇合并器16合并由簇選擇器15所選擇的簇(S4)。在本例中,如上所述,簇C1和C2被簇選擇器15選為合并候選。簇合并器16將簇C1和C2合并。圖7顯示了簇C1和C2被合并以生成簇C12的情況。
簇評(píng)估器13計(jì)算用于評(píng)估簇記錄器14中的簇集合(包含簇C12和C3的集合)的評(píng)估值,并確定評(píng)估值是否達(dá)到閾值(S5)。
例如,根據(jù)簇集合中的簇的數(shù)量是否達(dá)到預(yù)定數(shù)量k來(lái)做出決定。
如果簇評(píng)估器13判定評(píng)估值未達(dá)到閾值(S5否),那么處理返回到步驟S2或S3。如果評(píng)估值已達(dá)到閾值(S5是),那么結(jié)束處理。
可以采用下面的方法替代判斷簇的數(shù)量是否已經(jīng)達(dá)到預(yù)定值K。也就是說(shuō),當(dāng)使用簇的數(shù)量k以及各個(gè)簇的誤差Ei(這里,分別計(jì)算合并簇的誤差和模型參數(shù))計(jì)算的參考值(例如2k+(E1+E2+…+Ek)/k)在簇合并時(shí)由減小變?yōu)樵龃髸r(shí),處理結(jié)束。
圖8是顯示由圖1中所示的聚類裝置執(zhí)行的具體處理的例子流程圖。
首先,初始簇生成器11利用數(shù)據(jù)庫(kù)12生成初始簇,并且將生成的初始簇記錄在簇記錄器14中(S11)。此外,初始簇生成器11將足夠大的值代入評(píng)估參數(shù)X作為其初值(S12)。
簇選擇器15從簇記錄器14中的簇集合中刪除數(shù)據(jù)的數(shù)量小于等于1的簇,并且將刪除后的簇總數(shù)代入k(S13)。
簇選擇器15根據(jù)等式(1),使用屬于每個(gè)簇的數(shù)據(jù)來(lái)計(jì)算每個(gè)簇的模型參數(shù)。同時(shí),簇選擇器15根據(jù)等式(2)計(jì)算每個(gè)簇的簇誤差(S14)。
簇選擇器15根據(jù)等式(3)為所有簇對(duì)計(jì)算簇對(duì)中的兩個(gè)簇之間的距離,并且選擇例如具有最短距離的一對(duì)簇(S15)。
簇合并器16將所選的兩個(gè)簇合并為一個(gè)簇(S16)。簇合并器16或者簇選擇器15針對(duì)合并后的簇根據(jù)等式(1)計(jì)算模型參數(shù)并且根據(jù)等式(2)計(jì)算誤差,并從簇的總數(shù)k中減去1(S16)。
簇評(píng)估器13通過(guò)使用例如關(guān)系式X1=2K+(E1+…EK)/K,來(lái)計(jì)算評(píng)估值X1(S17),并且將評(píng)估值X1和評(píng)估參數(shù)X進(jìn)行比較(S18)。如果評(píng)估值X1小于或等于評(píng)估參數(shù)X(S18否),那么簇評(píng)估器13將X1代入X(S19),并返回步驟S15。另一方面,如果評(píng)估值X1大于評(píng)估參數(shù)X(S18是),那么將之前剛剛合并的簇恢復(fù)為兩個(gè)原始的簇(S20),然后結(jié)束處理。
將通過(guò)與傳統(tǒng)情況相比,來(lái)描述本實(shí)施例的效果。
通過(guò)使用傳統(tǒng)方法來(lái)對(duì)圖4所示的初始簇執(zhí)行聚類。通常,聚類技術(shù)大致分為兩種分割(division)法和聚合(aggregation)法。在分割法中,以自頂向下的方式逐漸分割區(qū)域(簇)。在聚合法中,將開始時(shí)分割的區(qū)域(簇)逐漸合并。這里描述使用聚合法的例子。
根據(jù)傳統(tǒng)方法,基于簇中心之間的距離來(lái)合并簇,在這種情況下,根據(jù)圖3所示的二維數(shù)據(jù),計(jì)算簇C1,C2和C3的重心點(diǎn),得到C1(2,2),C2(6,6),C3(6,2)。用dij表示Ci和Cj間的距離,從而d12=4×21/2,d13=4以及d23=4。因此,要合并的簇變?yōu)镃1和C3的組合,或者C2和C3的組合。因此,本應(yīng)屬于同一直線的數(shù)據(jù)卻未屬于同一個(gè)簇。
然而,如果如上所述,在本實(shí)施例中采用y=ax+b作為模型,那么就會(huì)選擇簇C1和C2的組合作為合并候選,并且簇C1和C2被合并。因此,在本實(shí)施例中,能夠進(jìn)行接近人類直覺(jué)的聚類(數(shù)據(jù)劃分)。
(第二實(shí)施例)假定初始簇C1、C2和C3如圖9所示。在這種情況下,即使連續(xù)進(jìn)行簇合并,也不能預(yù)期改進(jìn)分類精度。重劃分不合適的初始簇是本實(shí)施例的特征。
更具體地,通過(guò)使用最小二乘法,根據(jù)包含在初始簇中的數(shù)據(jù)得到直線(y=ax+b)。并且計(jì)算實(shí)際數(shù)據(jù)與該直線的偏差,即誤差。對(duì)于具有至少達(dá)到指定值的誤差的初始簇,將其劃分成多段(即多個(gè)簇)。例如,使用以預(yù)定的間隔設(shè)置的、以致垂直于橫坐標(biāo)軸的平面(或直線),以及以預(yù)定的間隔設(shè)置的、以致垂直于縱坐標(biāo)軸的平面(或直線)來(lái)劃分初始簇。通過(guò)例如初始簇生成器11來(lái)執(zhí)行該處理。
在圖9的例子中,初始簇C1的誤差至少達(dá)到指定值,隨后初始簇C1被劃分為多個(gè)簇。圖10顯示了通過(guò)劃分初始簇C1而獲得的結(jié)果。之后,按照與第一實(shí)施例相同的方式,繼續(xù)進(jìn)行聚類。
(第三實(shí)施例)在本實(shí)施例中,將描述將線段用作模型的情況。
這里,對(duì)于用于根據(jù)屬于簇(例如,初始簇)的數(shù)據(jù)得到線段的方法,可以使用一種方法,其中,從簇中選擇兩個(gè)數(shù)據(jù)并用所選擇的兩個(gè)數(shù)據(jù)作為線段的兩個(gè)端點(diǎn),或使用另一種方法,其中,通過(guò)使用最小二乘法,根據(jù)屬于簇的數(shù)據(jù)得到一條直線,并截取包含在簇中的直線部分?;蛘撸€可以使用一種方法,其中,通過(guò)使用主成分分析(main component analysis),根據(jù)變?yōu)榈谝恢鞒煞值妮S,得到平行于一條線段的向量,根據(jù)向量計(jì)算穿過(guò)數(shù)據(jù)的重心點(diǎn)的直線,然后截取包含在簇中的直線部分。
線段的模型參數(shù)被直接表示為線段的兩個(gè)端點(diǎn)的坐標(biāo)。在確定是否合并兩個(gè)簇時(shí),將三個(gè)參數(shù)用作評(píng)估指標(biāo),即,兩個(gè)線段之間的線段長(zhǎng)度比l,兩個(gè)線段形成的夾角θ,以及兩個(gè)線段的重心點(diǎn)之間的距離d(重心距離)。
圖11是顯示由線段形成的夾角θ以及重心點(diǎn)距離d的示圖。
假設(shè)兩個(gè)線段是線段x1x2和線段y1y2。線段x1x2的端點(diǎn)坐標(biāo)是x1=(x11,x12,…x1n)和x2=(x21,x22,…x2n)。線段y1y2的端點(diǎn)坐標(biāo)是y1=(y11,y12,…y1n)和y2=(y21,y22,…y2n)。線段的中心坐標(biāo)可以被選作線段的重心(gravity),或者屬于線段的線段區(qū)域(后面描述)的數(shù)據(jù)的重心點(diǎn)可以被選擇作為線段的重心點(diǎn)。如果線段的中心坐標(biāo)被用作線段的重心點(diǎn),那么重心距離d由下面的等式給出d=Σk=1n(x1k+x2k2-y1k+y2k2)2---(9)]]>兩條線段所形成的夾角的余弦由下面的等式得到cosθ=Σk=1n(x1k-x2k)(y1k-y2k)Σk=1n(x1k-x2k)2Σk=1n(y1k-y2k)2---(10)]]>線段長(zhǎng)度比l由下面的等式得到l=length of segment y1y2length of segment x1x2=Σk=1n(y1k-y2k)2Σk=1n(x1k-x2k)2---(11)]]>
在本實(shí)施例中,使用距離指標(biāo)(l,d,cosθ)來(lái)判斷簇之間的距離。例如,如果簇C1和簇C2之間的距離指標(biāo)是(l1,d1,cosθ1),那么通過(guò)為距離指標(biāo)(l1,d1,cosθ1)中的所有元素賦予權(quán)重,使用A1(l1-1)2+A2d12+A3(cosθ1-1)2---(12)]]>來(lái)計(jì)算簇之間的接近度(closeness)。這里,A1、A2和A3是合適的正常量。
或者可以使用距離d和夾角θ將簇之間的距離定義為A2d12+A3(cosθ1-1)2---(13)]]>以便聚集鄰近的平行線段。
選擇一對(duì)簇,對(duì)于該對(duì)簇來(lái)說(shuō),通過(guò)使用公式(12)或公式(13)得到的值是最小的,并將所選的簇合并。
這里,可以按如下所述來(lái)合并簇。
首先,使用根據(jù)每個(gè)簇而獲得的線段來(lái)執(zhí)行再聚類(re-clustering)。也就是說(shuō),屬于一個(gè)線段區(qū)域內(nèi)的數(shù)據(jù)被視為一個(gè)簇(線段簇),其中,所述線段區(qū)域是指距線段的距離為確定的距離r或小于r的區(qū)域。圖12顯示了由線段AB所形成的線段區(qū)域的例子。相對(duì)于相應(yīng)的線段得到線段簇。對(duì)于各個(gè)線段,例如,r可以相同。如果存在不屬于任何線段區(qū)域的數(shù)據(jù),那么逐漸延長(zhǎng)每個(gè)線段的r,并且將該數(shù)據(jù)視為屬于其首先進(jìn)入的區(qū)域。在本例中,將被合并的簇是線段簇。按照如上所述的方式,使用公式(11)或公式(12)來(lái)選擇將被合并的線段簇,并合并所選擇的線段簇。根據(jù)本例,與之前描述的例子相比,雖然計(jì)算量增大了,但是可以預(yù)期更合適的聚類。
(第四實(shí)施例)如果對(duì)象數(shù)據(jù)是二維數(shù)據(jù),那么可以代替直線,將n次多項(xiàng)式y(tǒng)=a0+a1x+a2x2+…+anxn(14)用作模型。
例如,如果模型是由二次多項(xiàng)式形成,那么可以使用y=a0+a1x+a2x2中的三個(gè)參數(shù)(a0,a1,a2)來(lái)計(jì)算兩個(gè)簇之間的距離。假設(shè)一個(gè)簇中有N組數(shù)據(jù)(x1,y1),(x2,y2),…,(xN,yN),則可以如下計(jì)算各個(gè)參數(shù)a0a1a2NΣi=1NxiΣi=1Nxi2Σi=1NxiΣi=1Nxi2Σi=1Nxi3Σi=1Nxi2Σi=1Nxi3Σi=1Nxi4-1·Σi=1NyiΣi=1NxiyiΣi=1Nxi2yi---(15)]]>用(a01,a11,a21)表示簇1的參數(shù),用(a02,a12,a22)表示簇2的參數(shù),則可以例如,如下來(lái)計(jì)算簇之間的距離DD=(a01-a02)2+(a11-a12)2+(a21-a22)2---(16)]]>
權(quán)利要求
1.一種聚類裝置,包括初始簇生成器,用于劃分多維數(shù)據(jù)以生成多個(gè)簇,所述多個(gè)簇中的每一個(gè)包含一個(gè)或多個(gè)數(shù)據(jù)段;簇記錄器,用于記錄所述生成的簇;簇選擇器,用于根據(jù)所述簇中的每一個(gè)來(lái)計(jì)算模型的參數(shù),并根據(jù)基于每個(gè)簇而計(jì)算出的參數(shù)來(lái)選擇待合并的簇;簇合并器,用于合并由所述簇選擇器選擇的簇,以生成一個(gè)簇;以及簇評(píng)估器,用于計(jì)算用來(lái)評(píng)估一組所述簇的評(píng)估值。
2.如權(quán)利要求1所述的聚類裝置,其中所述初始簇生成器根據(jù)由所述初始簇生成器生成的簇中的每一個(gè)簇來(lái)生成初始簇模型,通過(guò)使用屬于每個(gè)簇的數(shù)據(jù),分別計(jì)算所述生成的初始簇模型的誤差,以及劃分具有誤差不滿足指定值的初始簇模型的簇。
3.如權(quán)利要求1所述的聚類裝置,其中,所述簇選擇器針對(duì)多個(gè)簇對(duì)中的每個(gè)簇對(duì),基于其中的兩個(gè)簇的參數(shù)來(lái)計(jì)算所述兩個(gè)簇之間的距離,并選擇具有最小距離的簇對(duì)作為所述待合并的簇。
4.如權(quán)利要求1所述的聚類裝置,其中,所述簇選擇器針對(duì)多個(gè)簇對(duì)中的每個(gè)簇對(duì),基于其中的兩個(gè)簇的參數(shù)來(lái)計(jì)算所述兩個(gè)簇之間的距離,并選擇具有等于或小于預(yù)定值的距離的簇對(duì),作為所述待合并的簇。
5.如權(quán)利要求1所述的聚類裝置,其中所述簇評(píng)估器通過(guò)使用包含在所述一組簇中的簇的數(shù)量來(lái)計(jì)算所述評(píng)估值。
6.如權(quán)利要求5所述的聚類裝置,其中所述簇評(píng)估器對(duì)具有根據(jù)包含在所述一組簇中的每個(gè)簇計(jì)算的參數(shù)的模型中的每一個(gè)計(jì)算誤差,并通過(guò)使用根據(jù)所述每個(gè)簇而計(jì)算的誤差來(lái)計(jì)算所述評(píng)估值。
7.如權(quán)利要求1所述的聚類裝置,其中所述簇選擇器使用線性回歸方程式作為所述模型。
8.如權(quán)利要求1所述的聚類裝置,其中所述簇選擇器使用線段作為所述模型。
9.如權(quán)利要求1所述的聚類裝置,其中所述簇選擇器使用多項(xiàng)式作為所述模型。
10.一種聚類方法,包括劃分多維數(shù)據(jù)以生成多個(gè)簇,所述多個(gè)簇中的每一個(gè)包含一個(gè)或多個(gè)數(shù)據(jù)段;記錄所述生成的簇;根據(jù)所述簇中的每一個(gè)來(lái)計(jì)算模型的參數(shù);根據(jù)基于每個(gè)簇而計(jì)算出的參數(shù)來(lái)選擇待合并的簇;合并所選擇的簇以生成一個(gè)簇;計(jì)算用于評(píng)估一組所述簇的評(píng)估值;當(dāng)所述評(píng)估值不滿足閾值時(shí)返回所述選擇步驟。
11.如權(quán)利要求10所述的聚類方法,還包括根據(jù)通過(guò)所述劃分而生成的簇中的每一個(gè)簇來(lái)生成初始簇模型,通過(guò)使用屬于每個(gè)簇的數(shù)據(jù),計(jì)算所述生成的初始簇模型的誤差,以及劃分具有誤差不滿足指定值的初始簇模型的簇。
12.如權(quán)利要求10所述的聚類方法,其中,所述選擇包括針對(duì)多個(gè)簇對(duì)中的每個(gè)簇對(duì),基于其中的兩個(gè)簇的參數(shù)來(lái)計(jì)算所述兩個(gè)簇之間的距離,并選擇具有最小距離的簇對(duì)作為所述待合并的簇。
13.如權(quán)利要求10所述的聚類方法,其中,所述選擇包括針對(duì)多個(gè)簇對(duì)中的每個(gè)簇對(duì),基于其中的兩個(gè)簇的參數(shù)來(lái)計(jì)算所述兩個(gè)簇之間的距離,并選擇具有等于或小于預(yù)定值的距離的簇對(duì),作為所述待合并的簇。
14.如權(quán)利要求10所述的聚類方法,其中,所述計(jì)算所述評(píng)估值包括通過(guò)使用包含在所述一組簇中的簇的數(shù)量來(lái)計(jì)算所述評(píng)估值。
15.如權(quán)利要求14所述的聚類方法,其中,所述計(jì)算所述評(píng)估值包括,對(duì)具有根據(jù)包含在所述一組簇中的每個(gè)簇計(jì)算的參數(shù)的模型中的每一個(gè)計(jì)算誤差,并通過(guò)使用根據(jù)所述每個(gè)簇而計(jì)算的誤差來(lái)計(jì)算所述評(píng)估值。
16.如權(quán)利要求10所述的聚類方法,其中所述計(jì)算所述參數(shù)包括使用線性回歸方程式作為所述模型。
17.如權(quán)利要求10所述的聚類方法,其中所述計(jì)算所述參數(shù)包括使用線段作為所述模型。
18.如權(quán)利要求10所述的聚類方法,其中所述計(jì)算所述參數(shù)包括使用多項(xiàng)式作為所述模型。
全文摘要
提供了一種聚類裝置,包括初始簇生成器,用于劃分多維數(shù)據(jù)以生成多個(gè)簇,所述多個(gè)簇中的每一個(gè)包含一個(gè)或多個(gè)數(shù)據(jù)段;簇記錄器,用于記錄所述生成的簇;簇選擇器,用于根據(jù)每一個(gè)簇來(lái)計(jì)算模型的參數(shù),并根據(jù)基于每個(gè)簇而計(jì)算出的參數(shù)來(lái)選擇待合并的簇;簇合并器,用于合并由所述簇選擇器選擇的簇,以生成一個(gè)簇;以及簇評(píng)估器,用于計(jì)算用來(lái)評(píng)估一組所述簇的評(píng)估值。
文檔編號(hào)G06F17/30GK1881218SQ20061009252
公開日2006年12月20日 申請(qǐng)日期2006年6月15日 優(yōu)先權(quán)日2005年6月16日
發(fā)明者波田野壽昭, 久保田和人, 森田千繪, 仲瀨明彥 申請(qǐng)人:株式會(huì)社東芝