本發(fā)明涉及對高維數(shù)據(jù)的分類分析,特別涉及一種基于局部樣條嵌入的線性分類方法。
背景技術:
局部樣條嵌入算法是一種優(yōu)秀的流形降維算法,它對于嵌入在高維輸入空間的低維流形,通過獲得樣本點鄰域在切空間上投影的局部坐標,在通過樣條函數(shù)的嵌入將局部坐標映射成為全局低維坐標,盡量減少樣本數(shù)據(jù)在局部映射到切空間再從切空間映射到全局的兩次映射過程中的映射誤差,這樣能夠極大地保持樣本數(shù)據(jù)的局部特性。但是局部樣條嵌入算法僅僅是一種降維算法,降維后的數(shù)據(jù)并不一定利于分類,換句話說,局部樣條嵌入算法只是一種不以分類為目的的降維算法。所以,對局部樣條嵌入算法進行改進,使其更加便于分類是很有必要的。
在本發(fā)明提出之前,研究者們在局部樣條嵌入的基礎上提出了少量的分類算法,主要有袁暋等人提出的正交局部樣條判別投影算法和Lei等人提出的判別稀疏局部樣條嵌入算法。袁暋等人提出的正交局部樣條判別投影算法將局部樣條嵌入算法與最大邊緣準則相結合,通過最小化數(shù)據(jù)映射的重構誤差,同時最大化類間平均邊緣來尋找最優(yōu)線性映射。然而,他們的方法只是簡單的將兩種不同的優(yōu)化目標聯(lián)立得到多目標優(yōu)化市,并使用了最簡單的單目標優(yōu)化方式來求解。該方法在降維過程中直接搬用了最原始的局部樣條嵌入算法,在圖的構建中未對類內(nèi)近鄰和類間近鄰進行區(qū)分,只使用了最普通的k近鄰構圖,并且在最后把局部樣條嵌入的目標優(yōu)化式和最大邊緣準則的優(yōu)化式相除作為單目標優(yōu)化問題進行求解。這種方法相當于是在兩個特征值分解問題中取一個折中,很可能結果在兩方面都達不到預期的效果。Lei等人提出的判別稀疏局部樣條嵌入法是在局部樣條嵌入算法的基礎上,使用稀疏學習的方法選出每個點的異類近鄰數(shù)據(jù),然后在最小化數(shù)據(jù)重構誤差的優(yōu)化式之外,同時最大化不同類近鄰數(shù)據(jù)間的映射距離。他們的方法相比正交局部樣條判別投影算法,進一步考慮了關于類間近鄰的映射關系,但是仍然保留了最原始的正交局部樣條降維算法,沒有對其進行深層的剖析和修改,也沒有考慮到要最小化類內(nèi)近鄰的映射距離。綜上所述,目前已有的基于局部樣條嵌入的分類算法囿于原始的降維算法框架,沒有全面的分析數(shù)據(jù)的類內(nèi)近鄰圖(對應類內(nèi)緊湊性)和類間近鄰圖(對應類間離散性),因而未能充分利用訓練數(shù)據(jù)的類別信息,亟需深層次的算法改良和性能優(yōu)化。
技術實現(xiàn)要素:
本發(fā)明的目的在于克服上述缺陷,設計一種基于局部樣條嵌入的線性分類方法。
本發(fā)明的技術方案是:
一種基于局部樣條嵌入的線性分類方法,其主要技術特征在于步驟如下:
(1)輸入訓練數(shù)據(jù)和測試數(shù)據(jù);
(2)訓練數(shù)據(jù)的有監(jiān)督的局部樣條嵌入降維,包括:
(2.1)構建類內(nèi)圖、類間圖選取鄰域;
(2.2)根據(jù)所選取的訓練數(shù)據(jù)點的類內(nèi)圖和類間圖分別構建訓練數(shù)據(jù)點的類內(nèi)局部切空間和類間局部切空間;
(2.3)從類內(nèi)局部切空間、類間局部切空間出發(fā),獲得訓練數(shù)據(jù)點的全局低維坐標,計算使得訓練數(shù)據(jù)點映射到全局低維坐標時的重構誤差最小并且具有最佳局部類判別性的目標函數(shù),得到對應的最佳線性映射;
(3)根據(jù)已獲得的最佳線性映射進行測試數(shù)據(jù)擴展,將測試數(shù)據(jù)映射至低維流形中去;
(4)使用K近鄰分類對降維后的測試數(shù)據(jù)進行分類,得到測試數(shù)據(jù)的類別標簽。
所述步驟(1)訓練數(shù)據(jù)為高維有標簽的數(shù)據(jù),測試數(shù)據(jù)為高維無標簽的數(shù)據(jù)。
所述步驟(2)結合了局部樣條嵌入算法和線性判別分析的基本思想,通過構建類內(nèi)圖、類間圖選取鄰域,再分別針對類內(nèi)圖、類間圖構建局部切空間坐標,計算出訓練數(shù)據(jù)點的全局低維坐標,計算使得訓練數(shù)據(jù)從所在的高維空間映射到低維空間產(chǎn)生的重構誤差最小并且具有最佳局部類判別性的目標函數(shù),使投影后的樣本達到最大的類間離散度和最小類內(nèi)離散度,即達到數(shù)據(jù)的最佳降維分類效果,并得到對應的最佳線性映射。
所述步驟(3)測試數(shù)據(jù)擴展是:通過使用最佳線性映射將測試數(shù)據(jù)映射到目訓練數(shù)據(jù)的低維流形中,實現(xiàn)對無標簽高維數(shù)據(jù)的有監(jiān)督線性低維嵌入。
所述步驟(4)通過比較嵌入后的低維流形上最近的k個訓練數(shù)據(jù)點的類別,選擇頻率最高的類別作為測試數(shù)據(jù)的類別標簽。
本發(fā)明的優(yōu)點和效果在于采用一種基于有局部樣條嵌入的線性算法對高維無標簽測試數(shù)據(jù)進行降維分類分析,表現(xiàn)為:
(1)借鑒了局部樣條嵌入算法和線性判別函數(shù)算法的思想,并融合了監(jiān)督信息,在保持了樣本局部特性的同時,提高了信息分類的準確度。
(2)在數(shù)據(jù)鄰域中構建類內(nèi)圖和類間圖,對類內(nèi)近鄰和類間近鄰進行區(qū)分,通過最大化樣條插值函數(shù)的類內(nèi)近鄰光滑度,同時最小化樣條插值函數(shù)的類間近鄰光滑度,得到最佳線性映射,實現(xiàn)映射后數(shù)據(jù)類內(nèi)緊湊和類間離散的效果。
(3)數(shù)據(jù)樣本降維的過程展示了對高維數(shù)據(jù)分析的中間過程,更有益于對降維分類過程的理解和分析。
(4)使用K近鄰分類器對線性降維后的數(shù)據(jù)進行分類,不但可以在一定程度上克服數(shù)據(jù)線性不可分的問題,而且簡單直觀易于使用。
本方法采用基于局部樣條嵌入的線性分類算法對高維的流形數(shù)據(jù)進行了有監(jiān)督線性降維,大大降低了數(shù)據(jù)的復雜程度,提高了數(shù)據(jù)的可觀測性和可判別性,有助于大大改善對高維流形上數(shù)據(jù)的分類準確率。
附圖說明
圖1——本發(fā)明流程示意圖。
具體實施方式
本發(fā)明的主要技術思路是:
本發(fā)明采用一種基于局部樣條嵌入的線性分類算法對高維流形數(shù)據(jù)進行降維分類,即在每個數(shù)據(jù)點的鄰域中構建類內(nèi)圖和類間圖,對類內(nèi)近鄰和類間近鄰進行區(qū)分,通過最大化樣條插值函數(shù)的類內(nèi)近鄰光滑度,同時最小化樣條插值函數(shù)的類間近鄰光滑度,以有監(jiān)督的方式得到最佳線性映射,使得映射后數(shù)據(jù)類內(nèi)緊湊度更強、類間離散度更大,有利于降維后數(shù)據(jù)的分類。本發(fā)明中,降維后的數(shù)據(jù)可以通過可視化分析,有益于對分類過程的理解和分析。同時本發(fā)明將高維無標簽的測試數(shù)據(jù)通過線性映射映射到訓練數(shù)據(jù)的低維空間,實現(xiàn)了對高維無標簽數(shù)據(jù)的線性低維嵌入,并且對降維后的無標簽數(shù)據(jù)進行K近鄰分類。
本發(fā)明的步驟如下并如圖1所示:
1.輸入訓練數(shù)據(jù)和測試數(shù)據(jù)。
其中,訓練數(shù)據(jù)為高維有標簽的數(shù)據(jù),測試數(shù)據(jù)為高維無標簽的數(shù)據(jù)。
2.對訓練數(shù)據(jù)進行有監(jiān)督的局部樣條嵌入降維,這個步驟包括三個階段:
(2.1).通過構建類內(nèi)圖、類間圖來選取鄰域。定義一個樣本點并選其k個近鄰作為鄰域其鄰域Xi可以分為和兩個部分,與它具有相同類標簽的樣本點為與它具有不同類標簽的樣本點為對鄰域和這兩個樣本點定義如下:
其中,表示在樣本點xi的鄰域中具有同類標簽的第j個樣本點,表示在樣本點xi的鄰域中具有不同類標簽的第j個樣本點,根據(jù)類內(nèi)樣本點和類間樣本點分別構建樣本點xi的類內(nèi)圖和類間圖。
(2.2)假設切空間的維度為d(d遠小于原始維度D),分別對Ni|ω(xi)和Ni|b(xi)分別構建xi的類內(nèi)局部切空間坐標ηi|ω和類間局部切空間坐標ηi|b:
先對類內(nèi)圖構建每個類內(nèi)點xi|ω的低維局部切空間坐標。令表示該類內(nèi)點的第ki|ω個類內(nèi)近鄰點,對Xi|ω進行奇異值分解:
則樣本中點在近局部切空間中的坐標為:
其中表示類內(nèi)點xi|ω的第j個近鄰在局部切空間中的坐標,則有
然后再對類間圖構建每個類間點xi|b的低維局部切空間坐標。令表示該類內(nèi)點的第ki|b個類內(nèi)近鄰點,對Xi|b進行奇異值分解:
則樣本中點在近局部切空間中的坐標為:
其中表示類間點xi|b的第j個近鄰在局部切空間中的坐標,則有
(2.3)假設對于每個點的類內(nèi)局部切空間ηi|ω和ηi|b的每個維度和其中r∈[1,d],各存在一個樣條插值函數(shù)其中表示ηi|ω中的ki|ω個數(shù)據(jù)點在全局嵌入流形中的第r維坐標,其中表示ηi|b中的ki|b個數(shù)據(jù)點在全局嵌入流形中的第r維坐標。
現(xiàn)定義最小化全局坐標重構誤差并且具有最佳局部類判別性的目標函數(shù)為
其中λ為正則化權重系數(shù),表示局部類內(nèi)近鄰坐標的重構誤差,表示局部類間近鄰坐標的重構誤差,為在d維上的光滑度懲罰項,為在d維上的光滑度懲罰項。由于類內(nèi)近鄰應該越近越好,所以應越小越好;同時,類間近鄰越遠越好,所以應越大越好。
由于和是相互獨立的,所以我們可以把式(11)改寫為:
min Q=Qω+Qb (12)
其中
在Sovolev空間,和被定義為如下形式1,
Duchon已證明在Sovolev空間,特定的條件下,能夠最小化式(13)的插值函數(shù),和的形式為
其中βi|ω、βi|b、αi|ω、αi|b皆為權重向量系數(shù),Pi|ω為ηi|ω在d維空間中的多項式基矩陣,Pi|b為ηi|b在d維空間中的多項式基矩陣,Φi|ω和Φi|b則為ηi|ω和ηi|b在d維空間中的Green矩陣,且
同理,且
顯然,Φi|ω和Φi|b各自衡量了ηi|ω和ηi|b的局部類內(nèi)離散度和類間離散度,Φi|ω越大,局部類內(nèi)離散度越大;Φi|b越大,局部類間離散度越大。
Duchon已證明式(15)(16)成立的前提條件是
其中,和為Pi|ω和Pi|b的前k列。
所以,將(13)(15)(16)(19)式聯(lián)立,可得
其中
此時式(13)可以改寫為
假設和可以完全恢復和原因在于插值函數(shù)具有較強的擬合能力,所以式(22)可以進一步的簡寫為
Xiang等人已證明在式(20)成立的前提下,αi|b,yi|ω,yi|b下式也成立
其中,為的左上角矩陣,即同理,的左上角矩陣,即此時,將和擴展為和的多維向量,則可將式(23)(24)合并寫為
其中,是訓練數(shù)據(jù)的全局低維坐標,Sω是類內(nèi)近鄰的0-1選擇矩陣,滿足yi|ω=Y Si|ω。類似地,Sb是類內(nèi)近鄰的0-1選擇矩陣,其中滿足yi|b=Y Si|b。此外,其中,
此時,再將式(25)代入至式(11),可得
令則得min Q=tr(YΩYT)?,F(xiàn)假設存在一個從X到Y的直接線性映射,即Y=WTX,將其代入上式可得
min Q=tr(WTXΩXTW) (27)
為了保證解的唯一性,可以令WWT=I,則式(27)的解為
W=[ω1,ω2,...,ωd] (28)
且滿足XΩXTωi=σiωi,0<σ1≤σ2≤...≤σd,σi為XΩXT的第i個最小的特征值,ωi為σi對應的特征向量。
3.測試數(shù)據(jù)擴展
給定任意的測試數(shù)據(jù)可以通過最佳的線性映射W將其直接嵌入到訓練數(shù)據(jù)的低維流形中,即
yt=WTxt (29)
4.使用K近鄰方法對測試數(shù)據(jù)分類
在嵌入后的低維流形上,尋找其最近的k個訓練數(shù)據(jù)點,將這k個近鄰中出現(xiàn)頻率最高的類別賦給yt,當k為1時,即
l(yt)=l[arg minj∈S d(yj,yt)] (30)。