一種基于數(shù)據(jù)全局-局部結(jié)構(gòu)保持投影的數(shù)據(jù)降維方法
【專利摘要】一種基于數(shù)據(jù)全局-局部結(jié)構(gòu)保持投影的數(shù)據(jù)降維方法,包括以下步驟:(1)建立樣本集,計(jì)算各樣本對之間的歐式距離;(2)劃分各樣本點(diǎn)的領(lǐng)域,得到其近鄰點(diǎn)和非近鄰點(diǎn);(3)建立樣本集的鄰接權(quán)矩陣和非鄰接權(quán)矩陣;(4)建立對應(yīng)于數(shù)據(jù)全局結(jié)構(gòu)保持和局部結(jié)構(gòu)保持的目標(biāo)函數(shù),構(gòu)造優(yōu)化問題;(5)將優(yōu)化問題轉(zhuǎn)換為廣義特征值問題,利用求解得到的特征向量構(gòu)建投影矩陣;(6)對樣本集進(jìn)行投影,得到降維數(shù)據(jù)。本發(fā)明在對高維數(shù)據(jù)進(jìn)行降維時同時保持了數(shù)據(jù)的全局結(jié)構(gòu)和局部結(jié)構(gòu),使得降維后的數(shù)據(jù)能夠更加完整、準(zhǔn)確地描述原高維數(shù)據(jù)的基本特征,從而改善了數(shù)據(jù)降維的效果。
【專利說明】一種基于數(shù)據(jù)全局-局部結(jié)構(gòu)保持投影的數(shù)據(jù)降維方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及機(jī)器學(xué)習(xí)、模式識別和人工智能領(lǐng)域,具體涉及一種基于數(shù)據(jù)全 局-局部結(jié)構(gòu)保持投影的數(shù)據(jù)降維方法。
【背景技術(shù)】
[0002]當(dāng)今,受益于信息技術(shù)的迅猛發(fā)展,數(shù)據(jù)獲取和存儲變得相對容易,科學(xué)研究、工 程應(yīng)用、社會生活的各個領(lǐng)域每時每刻都在快速地產(chǎn)生著海量的數(shù)據(jù)。這些數(shù)據(jù)呈現(xiàn)出多 樣化、大規(guī)模、高維度等特征,其中雖蘊(yùn)含了內(nèi)容豐富的規(guī)律與信息,但它們往往被大量的 冗余數(shù)據(jù)所掩蓋,難以直觀觀察得到。如何有效地從高維海量數(shù)據(jù)中提取出有用的特征信 息或規(guī)律,成為當(dāng)今信息科學(xué)與技術(shù)所面臨的基本問題。
[0003]目前,數(shù)據(jù)降維是處理高維數(shù)據(jù)最有效的手段,己被廣泛用于解決實(shí)際應(yīng)用中的 信息處理問題。數(shù)據(jù)降維的基本思想是通過將高維數(shù)據(jù)投影至一個低維空間,去除原數(shù)據(jù) 中的冗余信息,得到原數(shù)據(jù)特征在低維空間中的等價表示,從而在低維空間更高效、準(zhǔn)確地 開展數(shù)據(jù)分析,探知數(shù)據(jù)的本質(zhì)規(guī)律。數(shù)據(jù)降維旨在挖掘隱藏在高維數(shù)據(jù)背后的本質(zhì)特征, 幫助我們更深入地理解數(shù)據(jù)特征和總結(jié)數(shù)據(jù)規(guī)律。數(shù)據(jù)降維的關(guān)鍵在于找到一個合適的投 影,使得投影到低維空間的數(shù)據(jù)盡可能等價地描述原數(shù)據(jù)的基本特征。
[0004]在過去幾十年間,許多數(shù)據(jù)降維方法被提出,其中代表性方法包括:主成分分析 (PCA, principal component analysis)、獨(dú)立成分分析(ICA, independent component analysis)、線性判別分析(LDA, linear discriminant analysis)、局部線性嵌入(LLE, locally linear embedding)、局部保持投影(LPP, locality preserving projections)等。 這些方法大致可劃分為兩大類:全局性降維方法和基于流形學(xué)習(xí)的局部性降維方法,分別 以PCA和LPP為典型代表。全局性降維方法僅關(guān)注了數(shù)據(jù)的全局結(jié)構(gòu)信息(方差信息),而 沒有考慮數(shù)據(jù)的局部結(jié)構(gòu)信息(數(shù)據(jù)點(diǎn)之間的拓?fù)潢P(guān)系),容易導(dǎo)致降維過程中數(shù)據(jù)局部特 征的丟失。與全局性降維方法相反,基于流形學(xué)習(xí)的局部性降維方法雖能很好地保持?jǐn)?shù)據(jù) 的局部結(jié)構(gòu)信息,但由于對數(shù)據(jù)全局結(jié)構(gòu)特征的保持沒有給出明確的約束,降維后可能會 破壞數(shù)據(jù)的全局特征,造成數(shù)據(jù)信息的丟失。
[0005]數(shù)據(jù)的結(jié)構(gòu)包含全局結(jié)構(gòu)和局部結(jié)構(gòu)兩部分內(nèi)容,全局結(jié)構(gòu)描述了數(shù)據(jù)的外部整 體特征,而局部結(jié)構(gòu)則反映了數(shù)據(jù)的內(nèi)在組織方式,二者都包含了重要的數(shù)據(jù)信息,缺一不 可。因此,在實(shí)施數(shù)據(jù)降維和特征提取時應(yīng)對兩者進(jìn)行綜合考慮,使得降維后的數(shù)據(jù)不僅具 有與原始數(shù)據(jù)相似的整體結(jié)構(gòu),而且具有相似的局部結(jié)構(gòu)。但現(xiàn)有的絕大多數(shù)據(jù)降維方法, 不論是全局性降維方法還是局部性降維方法,都只考慮了其中一個方面,因而降維后的數(shù) 據(jù)難以完整、準(zhǔn)確地反映原數(shù)據(jù)的特征,易造成數(shù)據(jù)特征信息的丟失和誤讀,嚴(yán)重影響數(shù)據(jù) 降維和特征提取的效果。
【發(fā)明內(nèi)容】
[0006]為了克服現(xiàn)有數(shù)據(jù)降維方法僅關(guān)注數(shù)據(jù)全局或局部特征、易造成數(shù)據(jù)特征信息丟失的缺陷,本發(fā)明提供一種能同時挖掘數(shù)據(jù)全局和局部特征、降維效果良好的基于數(shù)據(jù)全局-局部結(jié)構(gòu)保持投影(GLSPP, global-local structure preserving pro jections)的數(shù)據(jù)降維方法。
[0007]本發(fā)明所采用的技術(shù)方案包括如下步驟:
[0008](I)選擇n個m維數(shù)據(jù)樣本(X1, X2,…,Xi, xj ,建立樣本集X=Hx1, X2,… ,xj G Rmxn,并將其標(biāo)準(zhǔn)化為具有零均值和單位方差的數(shù)據(jù),然后計(jì)算各樣本對(Xi,Xj)之間的距離d (Xi, Xj);
[0009](2)劃分各樣本點(diǎn)Xi的鄰域Q (Xi),得到其近鄰點(diǎn)和非近鄰點(diǎn);
[0010](3)根據(jù)各樣本對(Xi, Xj)之間的鄰接和非鄰接關(guān)系,分別求取權(quán)值Wij和可/,建立樣本集X的鄰接權(quán)矩陣W和非鄰接權(quán)矩陣汞;
[0011](4)利用鄰接權(quán)矩陣W和非鄰接權(quán)矩陣f分別建立對應(yīng)于數(shù)據(jù)局部結(jié)構(gòu)保持和全局結(jié)構(gòu)保持的目標(biāo)函數(shù)J^al (a)和Jatjbal (a),構(gòu)造優(yōu)化問題;
[0012](5)將步驟(4)中的優(yōu)化問題轉(zhuǎn)換為廣義特征值問題,求解該問題分別得到一組特征值A(chǔ)nA2,…,、和特征向量士,^,…,am,利用前I個最小的非零特征值所對應(yīng)的特征向量構(gòu)成投影矩陣A=[ai,a2,…,aj G Rnixl;
[0013](6)利用投影矩陣A對樣本集X進(jìn)行投影得到低維數(shù)據(jù)Y。
[0014]所述步驟(1)中,各樣本對(Xi,Xj)之間的距離d(Xi,Xj)為歐式距離,計(jì)算公式為 d(Xi, Xj) = | X1-Xj |,式中 I I ? I I 是向量的 Euclid 范數(shù)。
[0015]所述步驟(2)中,樣本點(diǎn)Xi的鄰域Q (Xi)可用兩種方式定義:k近鄰和 £近鄰,其中k近鄰定義為:Q(Xi) = {距離Xi最近的k個點(diǎn)},而e近鄰定義為: Q (Xi) = Ul I !X-Xi I |2〈 e },參數(shù)k或e都是正實(shí)數(shù)。Xi的近鄰點(diǎn)指在Xi鄰域內(nèi)的那些樣本點(diǎn),Xi的非近鄰點(diǎn)指不屬于Xi鄰域的那些樣本點(diǎn)。
`[0016]所述步驟(3)中,權(quán)值Wij和&的計(jì)算公式為:
[0017]
【權(quán)利要求】
1.一種基于數(shù)據(jù)全局-局部結(jié)構(gòu)保持投影的數(shù)據(jù)降維方法,其特征在于:包括以下步驟:(1)選擇n 個 m 維數(shù)據(jù)樣本(X1, X2,...,Xi,…,xj ,建立樣本集 X= [X1, X2, xn] G RmXn, 并將其標(biāo)準(zhǔn)化為具有零均值和單位方差的數(shù)據(jù),然后計(jì)算各樣本對(Xi,\)之間的距離d (Xi, Xj);(2)劃分各樣本點(diǎn)Xi的鄰域Q(Xi),得到其近鄰點(diǎn)和非近鄰點(diǎn);(3)根據(jù)各樣本對(Xi,xj之間的鄰接和非鄰接關(guān)系,分別求取權(quán)值&^和%,建立樣本集X的鄰接權(quán)矩陣W和非鄰接權(quán)矩陣r;(4)利用鄰接權(quán)矩陣W和非鄰接權(quán)矩陣JT分別建立對應(yīng)于數(shù)據(jù)局部結(jié)構(gòu)保持和全局結(jié)構(gòu)保持的目標(biāo)函數(shù)J1^al (a)和Jeltjbal (a),構(gòu)造優(yōu)化問題;(5)將步驟(4)中的優(yōu)化問題轉(zhuǎn)換為廣義特征值問題,求解該問題分別得到一組特征值 A1, A2,…,Xm和特征向量ai,ai,…,am,利用前I個最小的非零特征值所對應(yīng)的特征向量構(gòu)成投影矩陣A=[ai,a2,…,aj G Rfflxl ;(6)利用投影矩陣A對樣本集X進(jìn)行投影得到低維數(shù)據(jù)Y。
2.如權(quán)利要求1所述的一種基于數(shù)據(jù)全局-局部結(jié)構(gòu)保持投影的數(shù)據(jù)降維方法,其特征在于:所述步驟(1)中,樣本對(Xi,Xp之間的距離d(Xi,Xp為歐式距離,計(jì)算公式為 d(Xi, Xj) = | X1-Xj I ,式中 ||*|| 是向量的 Euclid 范數(shù)。
3.如權(quán)利要求1所述的一種基于數(shù)據(jù)全局-局部結(jié)構(gòu)保持投影的數(shù)據(jù)降維方法,其特征在于:所述步驟(2)中,樣本點(diǎn)Xi的鄰域Q(Xi)可用兩種方式定義:k近鄰和e近鄰,其中k近鄰定義為:Q(Xi) = {距離Xi最近的k個點(diǎn)},而e近鄰定義為: Q (Xi) = Ul I !X-Xi I |2〈 e },參數(shù)k或e都是正實(shí)數(shù)。Xi的近鄰點(diǎn)指在Xi鄰域內(nèi)的那些樣本點(diǎn),Xi的非近鄰點(diǎn)指不屬于Xi鄰域的那些樣本點(diǎn)。
4.如權(quán)利要求1所述的一種基于數(shù)據(jù)全局-局部結(jié)構(gòu)保持投影的數(shù)據(jù)降維方法,其特征在于:所述步驟(3)中權(quán)值和丐的計(jì)算公式為:
5.如權(quán)利要求1所述的一種基于數(shù)據(jù)全局-局部結(jié)構(gòu)保持投影的數(shù)據(jù)降維方法,其特征在于:所述步驟(4)中,目標(biāo)函數(shù)Ua)和Jatjbal (a)分別為:
6.如權(quán)利要求1所述的一種基于數(shù)據(jù)全局-局部結(jié)構(gòu)保持投影的數(shù)據(jù)降維方法,其特征在于:所述步驟(5)中,廣義特征值問題為:XMXTa=X Na,式中M=H _ R是Laplacian矩陣,穴=7妒— (I —。求解該問題分別得到一組特征值X1, A2,…,Am和特征向量
7.如權(quán)利要求1所述的一種基于數(shù)據(jù)全局-局部結(jié)構(gòu)保持投影的數(shù)據(jù)降維方法,其特征在于:所述步驟(6)中,利用公式Y(jié)=AtX對樣本集X進(jìn)行投影得到低維數(shù)據(jù)Y。
【文檔編號】G06F19/00GK103605889SQ201310567890
【公開日】2014年2月26日 申請日期:2013年11月13日 優(yōu)先權(quán)日:2013年11月13日
【發(fā)明者】羅利佳, 包士毅, 高增梁 申請人:浙江工業(yè)大學(xué)