專利名稱:基于曲率預(yù)測的流形學(xué)習(xí)自適應(yīng)鄰域選擇算法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種應(yīng)用于流形學(xué)習(xí)的自適應(yīng)鄰域選擇算法。
背景技術(shù):
自2000年在《科學(xué)》雜志發(fā)表兩篇關(guān)于等距映射算法(Isometric Mapping,IS0MAP)流形學(xué)習(xí)算法和局部線性嵌入算法(Local Linear Embedding,LLE)的論文起,流形學(xué)習(xí)成為了解決計(jì)算機(jī)科學(xué)領(lǐng)域問題,特別是機(jī)器視覺和模式識別領(lǐng)域的常用方法,通過將嵌入在高維空間的數(shù)據(jù)映射到低維空間,實(shí)現(xiàn)對高維數(shù)據(jù)的維數(shù)約簡。隨著現(xiàn)今科技發(fā)展情況下海量數(shù)據(jù)處理需求,流形學(xué)習(xí)算法成為了眾多研究領(lǐng)域的熱點(diǎn),如人臉識別,指紋識別,網(wǎng)絡(luò)海量數(shù)據(jù)處理等。目前基于流形假設(shè)的維數(shù)約簡算法有很多,它們各自采用不同的方法來保持高維 數(shù)據(jù)某一特征或多個特征來實(shí)現(xiàn)對高維數(shù)據(jù)的低維映射,LLE算法通過保持高維流形的局部線性結(jié)構(gòu)實(shí)現(xiàn)對高維數(shù)據(jù)的降維;而ISOMAP算法通過保持高維數(shù)據(jù)點(diǎn)之間的測地線距離不變而實(shí)現(xiàn)維數(shù)約簡的目標(biāo)?;谏鲜鰞煞N算法,近年來出現(xiàn)了解決不同具體問題的流形學(xué)習(xí)算法,像拉普拉斯特征映射(Laplacian Eigen Mapping, LE)、局部線性投影算法(Local Linear Pro jection, LLP)及一些改進(jìn)算法,如帶標(biāo)記的等距映射(L-IS0MAP)、海賽局部線性嵌入(Hessian LLE,HLLE)。據(jù)不完全統(tǒng)計(jì),目前基于流形假設(shè)的降維算法不少于二十種。通過分析典型流形學(xué)習(xí)算法的實(shí)現(xiàn)流程,可以發(fā)現(xiàn)基于流形假設(shè)的維數(shù)約簡算法都有一些共同的算法步驟,如計(jì)算距離、尋找鄰近點(diǎn)、特征向量預(yù)測等。不同的流形學(xué)習(xí)算法對于距離的衡量各不相同,LLE等算法中采用歐氏距離,LE算法采用拉普拉斯特征算子來衡量距離,ISOMAP算法中提出用測地線來表示高維數(shù)據(jù)點(diǎn)距離。在距離表示上,許多算法的不同之處正是基于這一點(diǎn)實(shí)現(xiàn)了對高維數(shù)據(jù)的不同特征的提取與保持。但在已有的流形學(xué)習(xí)算法中,特別是基于LLE和ISOMAP算法提出的眾多流形學(xué)習(xí)算法,都有一個關(guān)鍵步驟一尋找鄰近點(diǎn)。鄰近點(diǎn),即鄰域,選取的大小與嵌入結(jié)果的好壞息息相關(guān)。因?yàn)榱餍螌W(xué)習(xí)是基于數(shù)據(jù)點(diǎn)之間信息傳播及高維數(shù)據(jù)局部特征提取的方法,只有適當(dāng)?shù)泥徲虼笮〔拍茏詈玫牡玫降途S嵌入結(jié)果,并同時(shí)實(shí)現(xiàn)算法復(fù)雜度最小和嵌入“質(zhì)量”最高。常見鄰域選擇的方式有兩種一是K最鄰近(K Nearest Neighbors, KNN) ;二是ε -超球體(ε -ball)??紤]到現(xiàn)有的流形學(xué)習(xí)算法,基本上都是基于KNN方法來實(shí)現(xiàn),提出的技術(shù)發(fā)明中自適應(yīng)KNN鄰域的選擇方法。從目前已有的參考文獻(xiàn)來看,提出自適應(yīng)鄰域選擇算法的文獻(xiàn)很少,并且沒有文獻(xiàn)提出通用于目前大多數(shù)流形算法的自適應(yīng)鄰域選擇算法。因此,提高低維嵌入質(zhì)量,同時(shí)一定程度上降低算法復(fù)雜度,找到一種簡單有效且有一定普適性的自適應(yīng)鄰域選擇算法具體現(xiàn)實(shí)意義。從流形假設(shè)出發(fā),即高維數(shù)據(jù)點(diǎn)至少給分布在一個廣義流形上,那么高維數(shù)據(jù)點(diǎn)的函數(shù)關(guān)系是存在的,并且是可微的。從這一假設(shè)出發(fā),滿足流形學(xué)習(xí)條件的數(shù)據(jù)集是可以計(jì)算或估計(jì)其數(shù)據(jù)點(diǎn)相應(yīng)的曲率。通過閱讀數(shù)學(xué)資料及文獻(xiàn),可以得出在已知確定函數(shù)關(guān)系條件下,由微分幾何可知,可能通過計(jì)算導(dǎo)數(shù)的方法來求出相應(yīng)自變量取值處的斜率。斜率變化趨勢就可以用來表示隨著自變量的改變,因變量的變化情況。當(dāng)處理多元函數(shù)的曲率問題時(shí),可以應(yīng)用黎曼微分幾何的相關(guān)的知識來求解。但在求解高維數(shù)據(jù)對應(yīng)的函數(shù)關(guān)系時(shí)有兩個明顯的問題一是,對于高維數(shù)據(jù),自變量與因變量的關(guān)系是不確定的,即無法確定哪些變量是自變量,哪些變量是因變量;二是在離散點(diǎn)條件下,準(zhǔn)確的求解函數(shù)關(guān)系不可行的,最多只是采用某種算法來進(jìn)行擬合,如此一來,那么就要假定數(shù)據(jù)點(diǎn)滿足某種特定的函數(shù)關(guān)系,再來計(jì)算相應(yīng)的系數(shù)。這兩個明顯的問題使得上述提出的理論計(jì)算方法變得不可以實(shí)現(xiàn)。綜上所述,現(xiàn)有的領(lǐng)域選擇算法應(yīng)用于流形學(xué)習(xí)算法存在適應(yīng)性差,低維嵌入質(zhì)量差,算法復(fù)雜度較高的問題。
發(fā)明內(nèi)容
本發(fā)明的目的是為解決現(xiàn)有的領(lǐng)域選擇算法應(yīng)用于流形學(xué)習(xí)算法存在適應(yīng)性差,低維嵌入質(zhì)量差,算法復(fù)雜度較高的問題,進(jìn)而提供一種基于曲率預(yù)測的流形學(xué)習(xí)自適應(yīng)鄰域選擇算法。本發(fā)明為解決上述問題采取的技術(shù)方案是本發(fā)明的基于曲率預(yù)測的流形學(xué)習(xí)自適應(yīng)鄰域選擇算法的具體步驟為步驟一、高維離散數(shù)據(jù)點(diǎn)的曲率計(jì)算,假定Ni = {xn, xi2,…,XiJ為數(shù)據(jù)點(diǎn)Xi鄰近的N個點(diǎn),則Jacobi矩陣可以由下式預(yù)測
權(quán)利要求
1.基于曲率預(yù)測的流形學(xué)習(xí)自適應(yīng)鄰域選擇算法,所述自適應(yīng)鄰域選擇算法的具體步驟為 步驟一、高維離散數(shù)據(jù)點(diǎn)的曲率計(jì)算,假定Ni = {xn, Xi2, ···, xiN}為數(shù)據(jù)點(diǎn)Xi鄰近的N個點(diǎn),則Jacobi矩陣可以由下式預(yù)測
全文摘要
基于曲率預(yù)測的流形學(xué)習(xí)自適應(yīng)鄰域選擇算法,它涉及一種應(yīng)用于流形學(xué)習(xí)的自適應(yīng)鄰域選擇算法,以解決現(xiàn)有的領(lǐng)域選擇算法應(yīng)用于流形學(xué)習(xí)算法存在適應(yīng)性差,低維嵌入質(zhì)量差,算法復(fù)雜度較高的問題,算法的具體步驟為,步驟一、高維離散數(shù)據(jù)點(diǎn)的曲率計(jì)算;步驟二、自適應(yīng)鄰域選擇,本發(fā)明能夠廣泛的應(yīng)用到目前的流形學(xué)習(xí)算法,本發(fā)明能夠根據(jù)數(shù)據(jù)集分布的不同曲率選擇合適的領(lǐng)域大小,本發(fā)明以高維數(shù)據(jù)點(diǎn)的一個自適應(yīng)鄰域選擇矩陣,能夠有效地降低流形學(xué)習(xí)算法的復(fù)雜度和找到優(yōu)化的鄰域大小,實(shí)現(xiàn)最佳的低維嵌入,低維嵌入質(zhì)量好。本發(fā)明用于流形學(xué)習(xí)算法。
文檔編號G06F17/16GK102880593SQ20121032565
公開日2013年1月16日 申請日期2012年9月5日 優(yōu)先權(quán)日2012年9月5日
發(fā)明者馬琳, 周才發(fā), 劉曦, 馬欣茹, 徐玉濱, 強(qiáng)蔚 申請人:哈爾濱工業(yè)大學(xué)