一種基于內(nèi)積的曲線片段聚類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及矢量聚類技術(shù)領(lǐng)域,尤其是一種曲線片段聚類方法。
【背景技術(shù)】
[0002] 傳統(tǒng)的矢量聚類如K-均值、譜聚類等方法都是以矢量在其分布的空間內(nèi)的"聚集 性"為分類準(zhǔn)則的,所以一般使用歐式距離、或其他距離度量來衡量矢量之間的差異,其相 似性體現(xiàn)在幾何位置或矢量分布的區(qū)域形狀上的一致性、連貫性。在一維時(shí)間序列的模式 分類中需要研究這些以"曲線片段"形式展現(xiàn)的模式的類別劃分,在計(jì)算機(jī)處理中曲線可以 使用離散的點(diǎn)組表示,每一個(gè)點(diǎn)組可以視作一個(gè)矢量,對于曲線片段的分類實(shí)際上就是矢 量的聚類問題。這時(shí)候傳統(tǒng)的歐式距離的差異度量并不完全能反映時(shí)間序列的模式區(qū)分, 需要研究新的類別區(qū)分方法。
【發(fā)明內(nèi)容】
[0003] 為了克服已有矢量聚類方法的無法處理曲線片段的分類的不足,本發(fā)明提供一種 有效實(shí)現(xiàn)曲線片段的分類的基于內(nèi)積的曲線片段聚類方法。
[0004] 本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
[0005] -種基于內(nèi)積的曲線片段聚類方法,所述聚類方法包括以下步驟:
[0006] 第一步,將需要分類的m個(gè)曲線片段的所有點(diǎn)組進(jìn)行等長化處理,所有點(diǎn)組為m 個(gè),統(tǒng)一轉(zhuǎn)化到一個(gè)相同的數(shù)目n,例如以點(diǎn)數(shù)最多的組的數(shù)目為基準(zhǔn),其他組向其轉(zhuǎn)化,生 成m個(gè)η維矢量;
[0007] 第二步,將m個(gè)η維矢量一律寫成列向量形式,這m個(gè)矢量轉(zhuǎn)置后排成m行,形成 一個(gè)m行η列矩陣,記該矩陣為A;
[0008] 第三步,將矩陣A乘以其轉(zhuǎn)置,得到m行m列矩陣B ;
[0009] 第四步,計(jì)算矩陣B的特征值,并且這些特征值都是非負(fù)的;
[0010] 假如其含t個(gè)非0特征值,其中t<m,則這m個(gè)矢量分成t類;在此t個(gè)特征值中 由數(shù)值從大到小取s個(gè)特征值,s<t,這s個(gè)特征值所占t個(gè)特征值的份額,S卩(s個(gè)特征 值數(shù)值之和)At個(gè)特征值數(shù)值之和)X100 %,該份額大于等于設(shè)定百分?jǐn)?shù),則分成s類;
[0011] 第五步,求出這S個(gè)特征值對應(yīng)的特征矢量,其中第i個(gè)類別的代表矢量由第i個(gè) 特征值對應(yīng)的特征矢量作為組合系數(shù)去與由第二步得到的m個(gè)列向量做線性組合,這個(gè)組 合得到的矢量再乘以第i個(gè)特征值的平方根倒數(shù),得到代表第i個(gè)類別的代表矢量,該矢量 是單位化矢量;
[0012] 第六步,將第j個(gè)待分類矢量與第五步得到的s個(gè)代表矢量做內(nèi)積,將其歸到內(nèi)積 絕對值最大的那一個(gè)類別,完成曲線片段的類別數(shù)目的確定、類別的劃分以及分類。
[0013] 進(jìn)一步,所述第一步中,點(diǎn)數(shù)轉(zhuǎn)化的方法使用線性插值法。當(dāng)然,也可以采用其他 插值法。
[0014] 再進(jìn)一步,所述第一步中,對生成的m個(gè)η維矢量的集合進(jìn)行預(yù)處理.
[0015] 更進(jìn)一步,所述預(yù)處理包括零均值化和單位化處理,所述零均值化為每個(gè)向量的 分量減去其所有分量和的算術(shù)平均,這樣處理后得到向量的分量和為〇 ;所述單位化是指 將向量的每一個(gè)分量除以它的模,這樣處理后得到的向量的模為1。
[0016] 或者是:所述預(yù)處理包括單位化處理,所述單位化是指將向量的每一個(gè)分量除以 它的模,這樣處理后得到的向量的模為1。
[0017] 當(dāng)然,所述預(yù)處理也可以是空,即什么也不做。
[0018]本發(fā)明的有益效果主要表現(xiàn)在:有效實(shí)現(xiàn)曲線片段的分類,聚類效果良好。
【具體實(shí)施方式】
[0019] 下面對本發(fā)明作進(jìn)一步描述。
[0020] 一種基于內(nèi)積的曲線片段聚類方法,包括以下步驟:
[0021] 第一步,將需要分類的m個(gè)曲線片段的所有點(diǎn)組進(jìn)行等長化處理,所有點(diǎn)組為m個(gè),不同點(diǎn)組含的點(diǎn)數(shù)可能不一樣,統(tǒng)一轉(zhuǎn)化到一個(gè)相同的數(shù)目n,例如以點(diǎn)數(shù)最多的組的 數(shù)目為基準(zhǔn),其他組向其轉(zhuǎn)化,點(diǎn)數(shù)轉(zhuǎn)化的方法使用線性插值法;
[0022] 對生成的m個(gè)η維矢量的集合進(jìn)行預(yù)處理:
[0023]這個(gè)預(yù)處理可以是空,即什么也不做;也可以是零均值化和單位化處理;還可以 是直接單位化處理等三種處理方式。
[0024]所謂零均值化就是每個(gè)向量的分量減去其所有分量和的算術(shù)平均,這樣處理后得 到向量的分量和為〇 ;
[0025]所謂單位化是指將向量的每一個(gè)分量除以它的模,這樣處理后得到的向量的模為 1〇
[0026]第二步,將m個(gè)η維矢量一律寫成列向量形式,這m個(gè)矢量轉(zhuǎn)置后排成m行,形成 一個(gè)m行η列矩陣,記該矩陣為A;
[0027]第三步,將矩陣A乘以其轉(zhuǎn)置,得到m行m列矩陣B ;
[0028]第四步,計(jì)算矩陣B的特征值,并且這些特征值都是非負(fù)的;
[0029]假如其含t個(gè)非0特征值,其中t<m,則這m個(gè)矢量分成t類;在此t個(gè)特征值 中由數(shù)值從大到小取s個(gè)特征值,s<t,這s個(gè)特征值所占t個(gè)特征值的份額,S卩(s個(gè)特 征值數(shù)值之和)At個(gè)特征值數(shù)值之和)X100 %,該份額恰好大于等于設(shè)定百分?jǐn)?shù)(例如 90% ),則在忽略10%的小類別成份下可以分成s類,其中90%可以視具體情況而定,可以 是95%或者99%等等。
[0030] 第五步,需要解決這S類,具體是哪一些類別,在均值聚類等方法中就是確定每一 個(gè)類別的聚類中心。
[0031] 首先求出這S個(gè)特征值對應(yīng)的特征矢量,其中第i個(gè)類別的代表矢量由第i個(gè)特 征值對應(yīng)的特征矢量作為組合系數(shù)去與由第二步得到的m個(gè)列向量做線性組合,這個(gè)組合 得到的矢量再乘以第i個(gè)特征值的平方根倒數(shù),得到代表第i個(gè)類別的代表矢量,該矢量是 單位化矢量;
[0032]第六步,需要確定由第二步得到的m個(gè)矢量具體分到哪一類?只要將第j個(gè)待分 類矢量與第五步得到的s個(gè)代表矢量做內(nèi)積,將其歸到內(nèi)積絕對值最大的那一個(gè)類別,以 上諸步驟完成曲線片段的類別數(shù)目的確定、類別的劃分、以及具體的分類。
[0033] 其中,當(dāng)待分類的矢量的分量的取值動態(tài)范圍不是很大時(shí),在第2步預(yù)處理取空、 或者直接單位化處理時(shí),這個(gè)分類方法等價(jià)于基于歐式距離的均值聚類法。
[0034] 本實(shí)施例中,第一步,等長化后得到m個(gè)η維列矢量,SP(aHa2i. . .ani)T,i= 1,2, ···,m,不論經(jīng)過何種預(yù)處理,仍記為如此;其中前足標(biāo)1,2,…,n表示向量的每一維分 量,后足標(biāo)i表示向量的序號。
[0035] 第二、三步驟可寫為:
[0036]
[0037] A為m個(gè)η維的向量組成的mXη矩陣,B是A和A的轉(zhuǎn)置相乘的結(jié)果。
[0038] B的特征值記為:
[0039]入丨彡λ2彡· ··彡λt> 0,其中t<m;B的t個(gè)特征值由大到小排列。
[0040] 假如S是滿,
Γ的最小自然數(shù),就是在t個(gè)特征值中取前S個(gè)其所占份額 恰好大于比例系數(shù)τ,其中〇<τ<1,則稱忽略l-τ的小類別意義下m個(gè)矢量可分為s 類;
[0041]引入B的特征值λ;對應(yīng)的特征矢量
』第i類代表矢量為用特征向量的分 量系數(shù)去線性組合原來的m個(gè)待分類矢量:
[0042]
V~nJ / VH/ jn /
[0043] 分類過程是計(jì)算待分類矢遷
各個(gè)代表矢量1的內(nèi)積,
[0044]
;取絕對值最大的為,將a'分到第i。類,j= 1,2,… m,這樣就完成了所有m類矢量的分類。
【主權(quán)項(xiàng)】
1. 一種基于內(nèi)積的曲線片段聚類方法,其特征在于:所述聚類方法包括以下步驟: 第一步,將需要分類的m個(gè)曲線片段的所有點(diǎn)組進(jìn)行等長化處理,所有點(diǎn)組為m個(gè),統(tǒng) 一轉(zhuǎn)化到一個(gè)相同的數(shù)目n,例如以點(diǎn)數(shù)最多的組的數(shù)目為基準(zhǔn),其他組向其轉(zhuǎn)化,生成m個(gè)η維矢量; 第二步,將m個(gè)η維矢量一律寫成列向量形式,這m個(gè)矢量轉(zhuǎn)置后排成m行,形成一個(gè)m行η列矩陣,記該矩陣為A; 第三步,將矩陣A乘以其轉(zhuǎn)置,得到m行m列矩陣B; 第四步,計(jì)算矩陣B的特征值,并且這些特征值都是非負(fù)的; 假如其含t個(gè)非0特征值,其中t<m,則這m個(gè)矢量分成t類;在此t個(gè)特征值中由 數(shù)值從大到小取s個(gè)特征值,s<t,這s個(gè)特征值所占t個(gè)特征值的份額,S卩(s個(gè)特征值 數(shù)值之和)At個(gè)特征值數(shù)值之和)X100 %,該份額大于等于設(shè)定百分?jǐn)?shù),則分成s類; 第五步,求出這s個(gè)特征值對應(yīng)的特征矢量,其中第i個(gè)類別的代表矢量由第i個(gè)特征 值對應(yīng)的特征矢量作為組合系數(shù)去與由第二步得到的m個(gè)列向量做線性組合,這個(gè)組合得 到的矢量再乘以第i個(gè)特征值的平方根倒數(shù),得到代表第i個(gè)類別的代表矢量,該矢量是單 位化矢量; 第六步,將第j個(gè)待分類矢量與第五步得到的s個(gè)代表矢量做內(nèi)積,將其歸到內(nèi)積絕對 值最大的那一個(gè)類別,完成曲線片段的類別數(shù)目的確定、類別的劃分以及分類。2. 如權(quán)利要求1所述的一種基于內(nèi)積的曲線片段聚類方法,其特征在于:所述第一步 中,點(diǎn)數(shù)轉(zhuǎn)化的方法使用線性插值法。3. 如權(quán)利要求1或2所述的一種基于內(nèi)積的曲線片段聚類方法,其特征在于:所述第 一步中,對生成的m個(gè)η維矢量的集合進(jìn)行預(yù)處理。4. 如權(quán)利要求3所述的一種基于內(nèi)積的曲線片段聚類方法,其特征在于:所述預(yù)處理 包括零均值化和單位化處理,所述零均值化為每個(gè)向量的分量減去其所有分量和的算術(shù)平 均,這樣處理后得到向量的分量和為0 ;所述單位化是指將向量的每一個(gè)分量除以它的模, 這樣處理后得到的向量的模為1。5. 如權(quán)利要求3所述的一種基于內(nèi)積的曲線片段聚類方法,其特征在于:所述預(yù)處理 包括單位化處理,所述單位化是指將向量的每一個(gè)分量除以它的模,這樣處理后得到的向 量的模為1。
【專利摘要】一種基于內(nèi)積的曲線片段聚類方法,包括以下步驟:第一步,將需要分類的m個(gè)曲線片段的所有點(diǎn)組進(jìn)行等長化處理,生成m個(gè)n維矢量;第二步,將m個(gè)n維矢量一律寫成列向量形式,這m個(gè)矢量轉(zhuǎn)置后排成m行形成一個(gè)m行n列矩陣,記該矩陣為A;第三步,將矩陣A乘以其轉(zhuǎn)置,得到矩陣B;第四步,計(jì)算矩陣B的特征值,并且這些特征值都是非負(fù)的,留下非0的s個(gè)分成s類;第五步,求出這s個(gè)特征值對應(yīng)的特征矢量,將其分量和m個(gè)待分類矢量作線性組合,并乘以相應(yīng)的特征值的平方根倒數(shù)得到s個(gè)代表矢量;第六步,將第j個(gè)待分類矢量與第五步得到的s個(gè)代表矢量做內(nèi)積,將其歸到內(nèi)積絕對值最大的那一個(gè)類別。本發(fā)明能有效實(shí)現(xiàn)曲線片段的分類。
【IPC分類】G06K9/62
【公開號】CN105426906
【申請?zhí)枴緾N201510746999
【發(fā)明人】陸成剛
【申請人】浙江工業(yè)大學(xué)
【公開日】2016年3月23日
【申請日】2015年11月5日