一種基于數(shù)據(jù)全局-局部結(jié)構(gòu)保持投影的數(shù)據(jù)降維方法

文檔序號：6518995閱讀：638來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于數(shù)據(jù)全局-局部結(jié)構(gòu)保持投影的數(shù)據(jù)降維方法
【專利摘要】一種基于數(shù)據(jù)全局-局部結(jié)構(gòu)保持投影的數(shù)據(jù)降維方法，包括以下步驟：（1）建立樣本集，計(jì)算各樣本對之間的歐式距離；（2）劃分各樣本點(diǎn)的領(lǐng)域，得到其近鄰點(diǎn)和非近鄰點(diǎn)；（3）建立樣本集的鄰接權(quán)矩陣和非鄰接權(quán)矩陣；（4）建立對應(yīng)于數(shù)據(jù)全局結(jié)構(gòu)保持和局部結(jié)構(gòu)保持的目標(biāo)函數(shù)，構(gòu)造優(yōu)化問題；（5）將優(yōu)化問題轉(zhuǎn)換為廣義特征值問題，利用求解得到的特征向量構(gòu)建投影矩陣；（6）對樣本集進(jìn)行投影，得到降維數(shù)據(jù)。本發(fā)明在對高維數(shù)據(jù)進(jìn)行降維時同時保持了數(shù)據(jù)的全局結(jié)構(gòu)和局部結(jié)構(gòu)，使得降維后的數(shù)據(jù)能夠更加完整、準(zhǔn)確地描述原高維數(shù)據(jù)的基本特征，從而改善了數(shù)據(jù)降維的效果。
【專利說明】一種基于數(shù)據(jù)全局-局部結(jié)構(gòu)保持投影的數(shù)據(jù)降維方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及機(jī)器學(xué)習(xí)、模式識別和人工智能領(lǐng)域，具體涉及一種基于數(shù)據(jù)全局-局部結(jié)構(gòu)保持投影的數(shù)據(jù)降維方法。
【背景技術(shù)】
[0002]當(dāng)今，受益于信息技術(shù)的迅猛發(fā)展，數(shù)據(jù)獲取和存儲變得相對容易，科學(xué)研究、工程應(yīng)用、社會生活的各個領(lǐng)域每時每刻都在快速地產(chǎn)生著海量的數(shù)據(jù)。這些數(shù)據(jù)呈現(xiàn)出多樣化、大規(guī)模、高維度等特征，其中雖蘊(yùn)含了內(nèi)容豐富的規(guī)律與信息，但它們往往被大量的冗余數(shù)據(jù)所掩蓋，難以直觀觀察得到。如何有效地從高維海量數(shù)據(jù)中提取出有用的特征信息或規(guī)律，成為當(dāng)今信息科學(xué)與技術(shù)所面臨的基本問題。
[0003]目前，數(shù)據(jù)降維是處理高維數(shù)據(jù)最有效的手段，己被廣泛用于解決實(shí)際應(yīng)用中的信息處理問題。數(shù)據(jù)降維的基本思想是通過將高維數(shù)據(jù)投影至一個低維空間，去除原數(shù)據(jù) 中的冗余信息，得到原數(shù)據(jù)特征在低維空間中的等價表示，從而在低維空間更高效、準(zhǔn)確地開展數(shù)據(jù)分析，探知數(shù)據(jù)的本質(zhì)規(guī)律。數(shù)據(jù)降維旨在挖掘隱藏在高維數(shù)據(jù)背后的本質(zhì)特征，幫助我們更深入地理解數(shù)據(jù)特征和總結(jié)數(shù)據(jù)規(guī)律。數(shù)據(jù)降維的關(guān)鍵在于找到一個合適的投影，使得投影到低維空間的數(shù)據(jù)盡可能等價地描述原數(shù)據(jù)的基本特征。
[0004]在過去幾十年間，許多數(shù)據(jù)降維方法被提出，其中代表性方法包括:主成分分析 (PCA, principal component analysis)、獨(dú)立成分分析(ICA, independent component analysis)、線性判別分析(LDA, linear discriminant analysis)、局部線性嵌入(LLE, locally linear embedding)、局部保持投影(LPP, locality preserving projections)等。這些方法大致可劃分為兩大類:全局性降維方法和基于流形學(xué)習(xí)的局部性降維方法，分別以PCA和LPP為典型代表。全局性降維方法僅關(guān)注了數(shù)據(jù)的全局結(jié)構(gòu)信息(方差信息)，而沒有考慮數(shù)據(jù)的局部結(jié)構(gòu)信息(數(shù)據(jù)點(diǎn)之間的拓?fù)潢P(guān)系)，容易導(dǎo)致降維過程中數(shù)據(jù)局部特征的丟失。與全局性降維方法相反，基于流形學(xué)習(xí)的局部性降維方法雖能很好地保持?jǐn)?shù)據(jù) 的局部結(jié)構(gòu)信息，但由于對數(shù)據(jù)全局結(jié)構(gòu)特征的保持沒有給出明確的約束，降維后可能會破壞數(shù)據(jù)的全局特征，造成數(shù)據(jù)信息的丟失。
[0005]數(shù)據(jù)的結(jié)構(gòu)包含全局結(jié)構(gòu)和局部結(jié)構(gòu)兩部分內(nèi)容，全局結(jié)構(gòu)描述了數(shù)據(jù)的外部整體特征，而局部結(jié)構(gòu)則反映了數(shù)據(jù)的內(nèi)在組織方式，二者都包含了重要的數(shù)據(jù)信息，缺一不可。因此，在實(shí)施數(shù)據(jù)降維和特征提取時應(yīng)對兩者進(jìn)行綜合考慮，使得降維后的數(shù)據(jù)不僅具有與原始數(shù)據(jù)相似的整體結(jié)構(gòu)，而且具有相似的局部結(jié)構(gòu)。但現(xiàn)有的絕大多數(shù)據(jù)降維方法，不論是全局性降維方法還是局部性降維方法，都只考慮了其中一個方面，因而降維后的數(shù) 據(jù)難以完整、準(zhǔn)確地反映原數(shù)據(jù)的特征，易造成數(shù)據(jù)特征信息的丟失和誤讀，嚴(yán)重影響數(shù)據(jù) 降維和特征提取的效果。

【發(fā)明內(nèi)容】

[0006]為了克服現(xiàn)有數(shù)據(jù)降維方法僅關(guān)注數(shù)據(jù)全局或局部特征、易造成數(shù)據(jù)特征信息丟失的缺陷，本發(fā)明提供一種能同時挖掘數(shù)據(jù)全局和局部特征、降維效果良好的基于數(shù)據(jù)全局-局部結(jié)構(gòu)保持投影(GLSPP, global-local structure preserving pro jections)的數(shù)據(jù)降維方法。
[0007]本發(fā)明所采用的技術(shù)方案包括如下步驟:
[0008](I)選擇n個m維數(shù)據(jù)樣本(X1, X2,…，Xi, xj ,建立樣本集X=Hx1, X2,… ，xj G Rmxn，并將其標(biāo)準(zhǔn)化為具有零均值和單位方差的數(shù)據(jù)，然后計(jì)算各樣本對(Xi，Xj)之間的距離d (Xi, Xj)；
[0009](2)劃分各樣本點(diǎn)Xi的鄰域Q (Xi)，得到其近鄰點(diǎn)和非近鄰點(diǎn)；
[0010](3)根據(jù)各樣本對(Xi, Xj)之間的鄰接和非鄰接關(guān)系，分別求取權(quán)值Wij和可/，建立樣本集X的鄰接權(quán)矩陣W和非鄰接權(quán)矩陣汞；
[0011](4)利用鄰接權(quán)矩陣W和非鄰接權(quán)矩陣f分別建立對應(yīng)于數(shù)據(jù)局部結(jié)構(gòu)保持和全局結(jié)構(gòu)保持的目標(biāo)函數(shù)J^al (a)和Jatjbal (a)，構(gòu)造優(yōu)化問題；
[0012](5)將步驟(4)中的優(yōu)化問題轉(zhuǎn)換為廣義特征值問題，求解該問題分別得到一組特征值A(chǔ)nA2,…，、和特征向量士，^，…，am，利用前I個最小的非零特征值所對應(yīng)的特征向量構(gòu)成投影矩陣A=[ai，a2，…，aj G Rnixl;
[0013](6)利用投影矩陣A對樣本集X進(jìn)行投影得到低維數(shù)據(jù)Y。
[0014]所述步驟(1)中，各樣本對(Xi，Xj)之間的距離d(Xi，Xj)為歐式距離，計(jì)算公式為 d(Xi, Xj) = | X1-Xj |，式中 I I ? I I 是向量的 Euclid 范數(shù)。
[0015]所述步驟(2)中，樣本點(diǎn)Xi的鄰域Q (Xi)可用兩種方式定義:k近鄰和￡近鄰，其中k近鄰定義為:Q(Xi) = {距離Xi最近的k個點(diǎn)}，而e近鄰定義為: Q (Xi) = Ul I !X-Xi I |2〈 e }，參數(shù)k或e都是正實(shí)數(shù)。Xi的近鄰點(diǎn)指在Xi鄰域內(nèi)的那些樣本點(diǎn)，Xi的非近鄰點(diǎn)指不屬于Xi鄰域的那些樣本點(diǎn)。
`[0016]所述步驟(3)中，權(quán)值Wij和&的計(jì)算公式為:
[0017]
【權(quán)利要求】
1.一種基于數(shù)據(jù)全局-局部結(jié)構(gòu)保持投影的數(shù)據(jù)降維方法，其特征在于:包括以下步驟:(1)選擇n 個 m 維數(shù)據(jù)樣本(X1, X2,...,Xi,…，xj ,建立樣本集 X= [X1, X2, xn] G RmXn, 并將其標(biāo)準(zhǔn)化為具有零均值和單位方差的數(shù)據(jù)，然后計(jì)算各樣本對(Xi，\)之間的距離d (Xi, Xj)；(2)劃分各樣本點(diǎn)Xi的鄰域Q(Xi)，得到其近鄰點(diǎn)和非近鄰點(diǎn)；(3)根據(jù)各樣本對(Xi,xj之間的鄰接和非鄰接關(guān)系，分別求取權(quán)值&^和％，建立樣本集X的鄰接權(quán)矩陣W和非鄰接權(quán)矩陣r;(4)利用鄰接權(quán)矩陣W和非鄰接權(quán)矩陣JT分別建立對應(yīng)于數(shù)據(jù)局部結(jié)構(gòu)保持和全局結(jié)構(gòu)保持的目標(biāo)函數(shù)J1^al (a)和Jeltjbal (a),構(gòu)造優(yōu)化問題；(5)將步驟(4)中的優(yōu)化問題轉(zhuǎn)換為廣義特征值問題，求解該問題分別得到一組特征值 A1, A2,…，Xm和特征向量ai，ai，…，am，利用前I個最小的非零特征值所對應(yīng)的特征向量構(gòu)成投影矩陣A=[ai，a2，…，aj G Rfflxl ；(6)利用投影矩陣A對樣本集X進(jìn)行投影得到低維數(shù)據(jù)Y。
2.如權(quán)利要求1所述的一種基于數(shù)據(jù)全局-局部結(jié)構(gòu)保持投影的數(shù)據(jù)降維方法，其特征在于:所述步驟(1)中，樣本對(Xi，Xp之間的距離d(Xi，Xp為歐式距離，計(jì)算公式為 d(Xi, Xj) = | X1-Xj I ,式中 ||*|| 是向量的 Euclid 范數(shù)。
3.如權(quán)利要求1所述的一種基于數(shù)據(jù)全局-局部結(jié)構(gòu)保持投影的數(shù)據(jù)降維方法，其特征在于:所述步驟(2)中，樣本點(diǎn)Xi的鄰域Q(Xi)可用兩種方式定義:k近鄰和e近鄰，其中k近鄰定義為:Q(Xi) = {距離Xi最近的k個點(diǎn)}，而e近鄰定義為: Q (Xi) = Ul I !X-Xi I |2〈 e }，參數(shù)k或e都是正實(shí)數(shù)。Xi的近鄰點(diǎn)指在Xi鄰域內(nèi)的那些樣本點(diǎn)，Xi的非近鄰點(diǎn)指不屬于Xi鄰域的那些樣本點(diǎn)。
4.如權(quán)利要求1所述的一種基于數(shù)據(jù)全局-局部結(jié)構(gòu)保持投影的數(shù)據(jù)降維方法，其特征在于:所述步驟(3)中權(quán)值和丐的計(jì)算公式為:
5.如權(quán)利要求1所述的一種基于數(shù)據(jù)全局-局部結(jié)構(gòu)保持投影的數(shù)據(jù)降維方法，其特征在于:所述步驟(4)中，目標(biāo)函數(shù)Ua)和Jatjbal (a)分別為:
6.如權(quán)利要求1所述的一種基于數(shù)據(jù)全局-局部結(jié)構(gòu)保持投影的數(shù)據(jù)降維方法，其特征在于:所述步驟(5)中，廣義特征值問題為:XMXTa=X Na,式中M=H _ R是Laplacian矩陣，穴=7妒— (I —。求解該問題分別得到一組特征值X1, A2,…，Am和特征向量
7.如權(quán)利要求1所述的一種基于數(shù)據(jù)全局-局部結(jié)構(gòu)保持投影的數(shù)據(jù)降維方法，其特征在于:所述步驟(6)中，利用公式Y(jié)=AtX對樣本集X進(jìn)行投影得到低維數(shù)據(jù)Y。
【文檔編號】G06F19/00GK103605889SQ201310567890
【公開日】2014年2月26日申請日期:2013年11月13日優(yōu)先權(quán)日:2013年11月13日
【發(fā)明者】羅利佳, 包士毅, 高增梁申請人:浙江工業(yè)大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：羅利佳;包士毅;高增梁
技術(shù)所有人：浙江工業(yè)大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

局部保持投影相關(guān)技術(shù)

局部保持投影算法lpp相關(guān)技術(shù)

lpp局部保持投影相關(guān)技術(shù)

局部保持投影算法相關(guān)技術(shù)

全局變量和局部變量相關(guān)技術(shù)

js全局變量和局部變量相關(guān)技術(shù)

局部最優(yōu)和全局最優(yōu)相關(guān)技術(shù)

全局特征和局部特征相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于數(shù)據(jù)全局-局部結(jié)構(gòu)保持投影的數(shù)據(jù)降維方法