專利名稱::模式識別裝置和方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及模式識別裝置.和方法,更具體地說,本發(fā)明涉及采用半監(jiān)督學(xué)習(xí)機制在核空間內(nèi)對模式對象進行線性嵌入描述從而實現(xiàn)模式識別的裝置和方法。
背景技術(shù):
:為了實現(xiàn)模式識別、排序和檢索等目的,傳統(tǒng)的方法往往依靠一些已標注的對象樣本來進行訓(xùn)練、學(xué)習(xí)以獲得一個目標函數(shù),從而實現(xiàn)上述的功能。舉例來說,在手寫體數(shù)字識別中,需要預(yù)先收集一些手寫數(shù)字的圖像,然后對這些圖像樣本進行處理和學(xué)習(xí),從而得到一個分類函數(shù)。例如首先對圖像進行二值化處理,然后提取筆劃方向和結(jié)構(gòu)信息特征,最后根據(jù)這些特征判斷數(shù)字的類別,即生成分類函數(shù)進行識別分類。在這一學(xué)習(xí)過程中,需要告知各個圖像中的數(shù)字的真實值,即需要對這些圖像樣本進行標注。分類函數(shù)的輸入為手寫數(shù)字圖像(或者是對應(yīng)的特征),輸出為該圖像中的數(shù)字的值。這樣,當需要識別一個新的手寫數(shù)字圖像時,直接將該手寫數(shù)字圖像輸入上述分類函數(shù),即可得到其中的數(shù)字的值。然而,在實際應(yīng)用中,獲取標注樣本往往需要花費很多的時間和精力,而且只有專業(yè)的人員才能完成獲取標注樣本的任務(wù)。例如,在生物和計算科學(xué)領(lǐng)域中,為了對蛋白質(zhì)進行分類,需要獲取蛋白質(zhì)的形狀樣本進行預(yù)學(xué)習(xí),然而,即使是專業(yè)的結(jié)晶體分析人員,也需要花費幾個月的時間才能獲取一個蛋白質(zhì)樣本。與此相反,未標注樣本往往大量存在,而且很容易獲取。因此,如何將未標注樣本同標注樣本結(jié)合起來,并從中提取有用的信息,就成為機器學(xué)習(xí)領(lǐng)域的一個重要任務(wù)。標注樣本和未標注樣本的區(qū)別在于是否提供了與其對應(yīng)的目標值。所謂的未標注樣本,僅是一個被處理對象,而標注樣本則不僅包含被處理對象,還包含該被處理對象的目標值。例如,在手寫體數(shù)字識別中,未標注樣本就是一個手寫體數(shù)字圖像,而標注樣本除了包含該圖像以外,還包含該圖像中的數(shù)字的真實值。依靠標注樣本進行模式分類的方法可以分為兩類,即監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)是指僅僅依靠標注樣本進行學(xué)習(xí)、訓(xùn)練,并從中得到分類函數(shù);半監(jiān)督學(xué)習(xí)是指同時從標注樣本和未標注樣本中進行學(xué)習(xí)的機制和方法。半監(jiān)督學(xué)習(xí)的基本思路為未標注樣本中雖然不包含對象的目標值,因而不能像標注樣本那樣直接進行學(xué)習(xí)和訓(xùn)練,然而,這些未標注樣本中包含了一些關(guān)于對象樣本空間分布的有用信息。如果能夠?qū)⑦@些有用信息提取出來,并同標注樣本結(jié)合在一起,就能幫助提高分類、識別的性能。給定一個模式識別問題,如果能提供足夠多的標注樣本進行學(xué)習(xí)、訓(xùn)練,那么監(jiān)督學(xué)習(xí)方法也能達到較好的性能;然而,如果標注樣本較少,例如上述的蛋白質(zhì)分類問題,監(jiān)督學(xué)習(xí)方法往往失敗。與此相反,由于半監(jiān)督學(xué)習(xí)方法能從未標注樣本中提取有用的信息,因此,能大大提高識別的性能。在半監(jiān)督學(xué)習(xí)機制中,給定一個由標注樣本和未標注樣本組成的樣本集合(稱為部分標注樣本集,一般來說,該集合包含少量的標注樣本和大量的未標注樣本)后,首先分析這些樣本的內(nèi)在結(jié)構(gòu),得到其空間分布特征;然后,基于樣本的空間分布和標注樣本進行學(xué)習(xí);最后,對未標注樣本進行分類、排序。'在實際應(yīng)用中,輸入的模式對象樣本往往包含很多變量,即這些樣本位于一個高維空間中。例如在手寫體數(shù)字識別中,輸入的對象樣本均為圖像,因此,對象樣本原始空間的維數(shù)就可以看作為圖像中的像素數(shù)。然而,這些圖像樣本的內(nèi)在空間的維數(shù)遠低于其原始空間的維數(shù)。以數(shù)字0為例,如果用橢圓來近似這個數(shù)字的話,其內(nèi)在空間的維數(shù)為4,即中心坐標和長短軸的半徑??紤]到手寫數(shù)字的變形以及橢圓近似的畸變等因素,與數(shù)字0對應(yīng)的圖像樣本的內(nèi)在維數(shù)要高于4,然而,這個值還是要遠遠小于圖像中的像素數(shù)?;谶@種現(xiàn)象,半監(jiān)督學(xué)習(xí)機制一般都假設(shè)(1)高維空間中的這些數(shù)據(jù)樣本具有內(nèi)在的低維空間結(jié)構(gòu),而且,在這個低維空間中服從流型結(jié)構(gòu)分布,所謂流型結(jié)構(gòu)分布,是指這些樣本的分布是平滑的;(2)在該流型結(jié)構(gòu)上,近鄰的樣本點一般具有相同的類別或標號。近年來,已經(jīng)提出了很多半監(jiān)督學(xué)習(xí)方法,以達到從未標注樣本中提取信息從而提高性能的目的。拉普拉斯本征圖(L即lacianEigenmap)是一種比較有代表性的半監(jiān)督學(xué)習(xí)方法,參見[非專利文獻l]。在該方法中,首先利用樣本點.(所有的樣本,包括標注樣本和未標注樣本)間的歐氏距離和k近鄰方法構(gòu)建一個鄰接圖,由此得到其拉普拉斯矩陣。所謂鄰接圖就是用圖的方式來表達樣本點間的關(guān)系,圖的節(jié)點對應(yīng)于樣本點,圖的邊由k近鄰方法確定。所謂k近鄰方法,就是對每一個樣本,找出與其歐式距離最近的前k'個樣本,在鄰接圖中,為這個樣本和它的前k個近鄰樣本添加邊,邊的屬性值為樣本間的歐式距離。在建立鄰接圖之后,可以很容易地得到其拉普拉斯矩陣,之后對該矩陣進行特征值分解。最后,根據(jù)特征值較小的特征向量以及標注的樣本,對數(shù)據(jù)集中的未標注樣本進行分類。從本質(zhì)上看,該方法有三個重要的特性(1)該方法假設(shè)輸入的數(shù)據(jù)集是以流型結(jié)構(gòu)嵌入在高維的原始空間中,即這些數(shù)據(jù)的內(nèi)在空間的維數(shù)比較低;(2)采用所有的數(shù)據(jù)(即包括標注樣本和未標注樣本)來估計其流型結(jié)構(gòu);(3)利用LaplacianBeltrami算子實現(xiàn)高維空間到低維空間的映射,并完成分類的目的。局部鄰域拉普拉斯本征圖方法(參見[專利文獻l])事實上是對[非專利文獻l]中的拉普拉斯本征圖方法的延伸。在[非專利文獻l]的方法中,根據(jù)樣本集中的所有樣本點構(gòu)建拉普拉斯矩陣,并進行特征值分解,因此,當樣本點較多時,該方法比較費時。為了解決這個問題,[專利文獻l]中只對待分類樣本點所在的一個子矩陣進行特征值分解,因而,能較大地提高速度。與此同時,[專利文獻l]中的方法還解決了新樣本點的分類問題。流型排序是另一種常見的半監(jiān)督學(xué)習(xí)方法,參見[非專利文獻2]。該方法的主要思想是根據(jù)樣本點的內(nèi)在結(jié)構(gòu)對樣本點進行排序。與[非專利文獻1]類似,該方法首先根據(jù)樣本點間的歐氏距離構(gòu)建k近鄰圖,之后,將標注樣本的目標值沿這個近鄰圖進行重復(fù)傳播,最后所有的樣本點都將得到一個評價值,而這些評價值就是最終的排序依據(jù)。該方法的原理可以用一個電路網(wǎng)絡(luò)來解釋正如前面所述,樣本點的關(guān)系可以用鄰接圖來表示,鄰接圖的節(jié)點對應(yīng)于樣本點,圖的邊由k近鄰方法確定;下面,將這個鄰接圖看作為一個電路網(wǎng)絡(luò),圖中與標注樣本對應(yīng)的節(jié)點分別和電極相連,正樣本連接正的電極,負樣本連接負的電極,圖的邊看作為電阻器,邊的屬性值(樣本間的歐式距離)對應(yīng)于電阻器的電阻值,就是說,樣本間的歐式距離越小,對應(yīng)節(jié)點間的電阻就越小,反之亦然;開通電源后,電路網(wǎng)絡(luò)達到平衡狀態(tài),那么,在每一個未標注樣本對應(yīng)的節(jié)點上,都可以測量到一個電壓值,電壓值越高,說明該樣本越接近于正樣本,電壓值越低,說明該樣本越接近于負樣本。在具體實施中,[非專利文獻2]采用了圖正則化技術(shù)實現(xiàn)上述過程。中提出了利用高斯場調(diào)和函數(shù)(GaussianFieldsandHarmonicFunctions)進行半監(jiān)督學(xué)習(xí)的方法,該方法事實上同[非專利文獻2]中的方法屬于同一個范疇,只是圖正則化的實現(xiàn)手段不同而已,在該方法中,采用了內(nèi)推正則化(Interpolatedregularization)。[非專利文獻4]對這兩種不同的方法進行了分析,并從理論上得出了其誤差上限。在圖正則化的框架之下,[非專利文獻5]對優(yōu)化的目標函數(shù)進行修正,并引入松弛因子,從而將圖正則化轉(zhuǎn)化成標準支持向量機的形式。同上述方法類似,現(xiàn)有的半監(jiān)督學(xué)習(xí)方法大都根據(jù)樣本點的歐氏距離建立近鄰圖(近鄰矩陣),并假設(shè)該近鄰圖能完全描述這些樣本點的內(nèi)在流型結(jié)構(gòu),即將原始空間中樣本點的歐氏距離等同于流型結(jié)構(gòu)上的"測量距離"。然而,這種假設(shè)在很多情況下是有偏差的,或者說是不夠精確的。[非專利文獻6]和[專利文獻5]都對這個問題進行了闡述。圖l(a)和圖1(b)用具體的示例對這個問題進行了展示。圖1(a)為三維空間中的類似于"S"的形狀的一個流型結(jié)構(gòu),圖1(b)為該流型結(jié)構(gòu)的對應(yīng)采樣點,即樣本集合。在該圖中,用灰度來表示樣點的目標值,即數(shù)據(jù)樣點的灰度值越相近,表示它們越相似("S"形狀的兩個端點處除外)。該空間中的兩個數(shù)據(jù)點A、B,其歐氏距離如圖l(b)中的實線所示,而這兩個點在流型結(jié)構(gòu)上的測量距離如1(b)中的虛線所示。由圖可見,用歐氏距離來表達數(shù)據(jù)點的內(nèi)在流型結(jié)構(gòu)是不準確的。因此,基于歐式距離構(gòu)建的近鄰圖能完全描述樣本點的內(nèi)在流型結(jié)構(gòu)這一假設(shè)是不準確的,因而,構(gòu)建于這一假設(shè)之上的現(xiàn)有的技術(shù)方法都是有缺陷的,其性能也是受限的。US專利申請公報US2006/0235812Al[專利文獻2]US專利申請公報US2006/0045353Al[非專利文獻1]MikhailBelkin,ParthaNiyogi,Semi-SupervisedLearningonRimanianManifolds,MachineLearning,Vol.56,pp.209-239,2004DengyongZhou,OlivierBousquet,ThomasNaviLai,JasonWeston,andBernhardScholkopf,'LearningwithLocalandGlobalConsistency,AdvancesinNeuralInformationProcessingSystems,Vol.16,pp.321-328,2003XiaojinZhu,ZoubinGhahramani,JohnLafferty,Semi-S卯ervised■Learning'UsingGaussian'Fields',andHarmonicFunctions,'inProceedingsofthetwentiethinternationalconferenceonmachinelearning(ICML2003),pp.912-919,2003MikhailBelkin,IrinaMatveeva,ParthaNiyogi,RegularizationandSemiSupervisedLearningonLargeGraphs,inProceedingsofannualconferenceonlearningtheory(C0L/T),2004ZhiliWu,Chun-hungLi,JiZhu,JianHuang,ASemi-SupervisedSVMforManifoldLearning,inProceedingsofthe18thinternationalconferenceonpatternrecognition(ICPR'06),Vol.2,pp.490-493JoshuaB.Tenenbaum,VindeSilva,JohnC.Langford,Aglobalgeometricframeworkfornonlineardimensionalityreduction,Science,Vol.290,pp.2319—2323,2000[非專禾ll文獻7]SamT.Roweis,LawrenceK.Saul,Nonlineardimensionalityreductionbylocallylinearembedding,Science,Vol.290,pp.2323-2326'2000
發(fā)明內(nèi)容鑒于現(xiàn)有技術(shù)中的上述問題而提出了本發(fā)明。本發(fā)明的目的至少在于提供一種基于半監(jiān)督學(xué)習(xí)機制來對模式進行分類識別的裝置和方法,其能夠克服基于歐式距離構(gòu)建的近鄰圖不能完全表示樣本點的內(nèi)在流型結(jié)構(gòu)的問題。根據(jù)本發(fā)明,輸入模式對象同時包含標注和未標注樣本,基于這些樣本,所述裝置分析樣本的空間分布特征并完成對未標注樣本識別(分類和排序)。該裝置的一個特征是在核空間中采用局部線性嵌入來估計輸入對象的流型結(jié)構(gòu),并以此為基礎(chǔ),利用圖正則化實現(xiàn)識別的功能。首先,計算輸入對象樣本兩兩之間的距離,即計算任意兩個輸入對象樣本之間的距離。距離計算與輸入對象樣本的形式和種類相關(guān),在模式識別問題中,一般需要首先對輸入對象樣本進行處理,提取其主要特征,例如在手寫體數(shù)字識別中,特征可以為輸入對象樣本本身,即圖像像素的值,也可以為筆劃方向直方圖;而在說話人身份識別中,特征可以為利用語音信號得到的倒譜系數(shù)、基音頻率等。如果輸入對象樣本的特征被表示為向量的形式,則可以用歐氏距離或其他距離測度計算對象樣本間的距離;如果輸入對象樣本被表示為結(jié)構(gòu)化的特征,則需要利用與該特征對應(yīng)的距離計算方式。之后,根據(jù)上述得到的輸入對象樣本兩兩之間的距離,利用k近鄰方式建立k近鄰圖,就是說,用圖的方式表示輸入對象樣本之間的關(guān)系。接下來,根據(jù)上述近鄰圖構(gòu)建再生核希爾伯特空間(R印roducingKernelHilbertSpace),例如拉普拉斯核空間(UplacianKernelSpace),并在該空間內(nèi)進行局部線性嵌入。進一步講,就是對每一個樣本,都利用其在核空間中的近鄰樣本進行線性重構(gòu),而所有樣本的重構(gòu)系數(shù)就能很好的表達樣本的內(nèi)在空間分布特征。9最后,利用上述重構(gòu)系數(shù)和標注樣本的目標值,釆用圖正則化技術(shù),賦予未標注樣本一個評價值。而這些評價值就是對未標注樣本進行識別的依據(jù)。根據(jù)本發(fā)明的一個方面,提供了一種模式識別裝置,該模式識別裝置利用半監(jiān)督學(xué)習(xí)機制來對輸入的模式對象樣本進行識別,其中所述模式對象樣本包括標注樣本和未標注樣本,并以數(shù)字化特征表示,所述標注樣本包括模式對象的數(shù)字化特征以及相應(yīng)的目標值,所述模式識別裝置包括非歐空間內(nèi)核構(gòu)建部,其基于輸入的模式對象樣本來構(gòu)建非歐空間內(nèi)核矩陣,該非歐空間適于構(gòu)造模式對象的流型結(jié)構(gòu);核空間內(nèi)局部線性嵌入部,其根據(jù)所述非歐空間內(nèi)核構(gòu)建部構(gòu)建出的非歐空間內(nèi)核矩陣,對模式對象樣本進行局部線性嵌入,以生成模式對象樣本的重構(gòu)系數(shù)矩陣;以及正則化部,其根據(jù)所述核空間內(nèi)局部線性嵌入部生成的重構(gòu)系數(shù)矩陣和所述標注樣本的目標值,來為所有輸入的模式對象樣本生成評測值。根據(jù)本發(fā)明的另一個方面,提供了一種模式識別方法,該模式識別方法利用半監(jiān)督學(xué)習(xí)機制來對輸入的模式對象樣本進行識別,其中所述模式對象樣本包括標注樣本和未標注樣本,并以數(shù)字化特征表示,所述標注樣本包括模式對象的數(shù)字化特征以及相應(yīng)的目標值,所述模式識別方法包括以下步驟基于輸入的模式對象樣本來構(gòu)建非歐空間內(nèi)核矩陣,該非歐空間適于構(gòu)造模式對象的流型結(jié)構(gòu);根據(jù)構(gòu)建出的非歐空間內(nèi)核矩陣,對模式對象樣本進行局部線性嵌入,以生成模式對象樣本的重構(gòu)系數(shù)矩陣;以及根據(jù)生成的重構(gòu)系數(shù)矩陣和所述標注樣本的目標值,來為所有輸入的模式對象樣本生成評測值。本發(fā)明的上述模式識別裝置和模式識別方法,由于采用了適于構(gòu)建模式對象樣本的內(nèi)在流型結(jié)構(gòu)的非歐空間內(nèi)核矩陣(例如,再生核希爾伯特空間內(nèi)核矩陣,更具體而言,是拉普拉斯空間內(nèi)核矩陣)來對模式對象樣本進行局部線性嵌入,從而能夠準確地表達模式對象樣本的內(nèi)在流型結(jié)構(gòu),并最終實現(xiàn)準確的模式識別。10圖1(a)例示了流型結(jié)構(gòu)的一個示例。圖1(b)例示了對應(yīng)于圖1(a)中的流型結(jié)構(gòu)的采樣點,以及歐氏距離與流型結(jié)構(gòu)上測量距離的示例。圖2為根據(jù)本發(fā)明實施方式的模式識別裝置的示意框圖。圖3為拉普拉斯內(nèi)核構(gòu)建模塊的流程圖。圖4為根據(jù)本發(fā)明的實施例中的輸入對象的示意圖。圖5為根據(jù)本發(fā)明的實施例中的輸入對象的評測值示意圖。圖6為根據(jù)本發(fā)明的實施例中的手寫體數(shù)字識別的部分輸入對象。具體實施例方式圖2為根據(jù)本發(fā)明實施方式的模式識別裝置的示意框圖。如圖所示,該模式識別裝置包括拉普拉斯內(nèi)核構(gòu)建模塊,其根據(jù)輸入對象樣本(包括標注樣本和未標注樣本)來構(gòu)建拉普拉斯內(nèi)核空間矩陣;核空間內(nèi)局部線性嵌入模塊,其根據(jù)拉普拉斯內(nèi)核構(gòu)建模塊構(gòu)建出的拉普拉斯內(nèi)核空間矩陣,對輸入對象樣本進行局部線性嵌入,以生成對象樣本的重構(gòu)系數(shù)矩陣;以及正則化模塊,其根據(jù)核空間內(nèi)局部線性嵌入模塊生成的重構(gòu)系數(shù)矩陣和標注樣本的目標值,為所有的輸入對象樣本生成評測值。除了上述拉普拉斯內(nèi)核空間,該模式識別裝置還可以采用其他的再生核希爾伯特空間。構(gòu)建該空間的目的在于較好的描述輸入對象的流型結(jié)構(gòu)。輸入對象即被處理對象集合,例如圖像識別中的圖像、語音識別中的語音信號等。輸入對象一般以數(shù)字特征的方式來表示,該數(shù)字特征由多個變量組成,用以描述該對象的特性,例如在圖像識別中,該特征可以為圖像中各像素的顏色值、圖像的紋理特征向量、圖像的顏色直方圖等;在說話人識別中,該特征可以為根據(jù)語音信號得到的倒譜系數(shù)、基音頻率等。輸入對象同時包含有標注樣本和未標注樣本。所謂標注樣本,即除了與該樣本對應(yīng)的特征外,還輸入一個與該樣本對應(yīng)的目標值,例如在兩類別圖像識別中,對于第一類的圖像,其目標值可以設(shè)置為l,而對于第二類的圖像,其目標值可以設(shè)置為-l;在說話人識別中,目標值可以為說話人的編號等。而對于非標注樣本,則只輸入與該樣本對應(yīng)的特征。拉普拉斯內(nèi)核構(gòu)建模塊用來從輸入對象樣本中構(gòu)建拉普拉斯內(nèi)核空間。首先,計算輸入對象樣本兩兩之間的距離。之后,根據(jù)k近鄰方法構(gòu)建近鄰圖,計算拉普拉斯空間矩陣。最后,得到拉普拉斯內(nèi)核空間矩陣。核空間內(nèi)局部線性嵌入模塊實現(xiàn)在拉普拉斯內(nèi)核空間內(nèi)描述輸入對象的內(nèi)在幾何結(jié)構(gòu)。進一步講,在具有流型結(jié)構(gòu)的數(shù)據(jù)集上,任意一個無限小的區(qū)域都是線性的,因此,對于每一個輸入對象樣本,都可以利用其相鄰樣本的線性組合來重構(gòu)(或近似),而這些重構(gòu)系數(shù)則反映了輸入對象集的幾何結(jié)構(gòu)特征。正則化模塊用來計算未標注對象樣本的評測值。根據(jù)上述核空間內(nèi)局部線性嵌入模塊得到的重構(gòu)系數(shù),每一個對象樣本都可以由它的近鄰樣本的線性組合來近似,因此,對象樣本的評測值也能夠根據(jù)這些重構(gòu)系數(shù)來近似。基于這一原則,在圖正則化的框架之下進行優(yōu)化計算,得到未標注樣本的評測值。從上述正則化模塊得到的評測值反映了未標注樣本和標注樣本之間的相似程度。例如,在兩類模式識別中,將第一類模式的標注樣本的目標值設(shè)置為l,而將第二類模式的標注樣本的目標值設(shè)置為-1,那么,未標注樣本的評測值越接近于1,表示該樣本屬于第一類模式的概率越大,相反,越接近于-1,表示該樣本屬于第二類模式的概率越大。下面具體描述模式識別裝置的各構(gòu)成模塊。1、拉普拉斯內(nèi)核構(gòu)建模塊令輸入對象為義={^,義£/}。其中,&={(^,兀),為標注樣本集合,》,,A分別表示標注樣本的數(shù)字特征,J為標注樣本的數(shù)目,凡…,JO為這些樣本的目標值;^={^,...,}為未標注樣本集合,;^,…,A分別表示未標注樣本的數(shù)字特征,共有/7-J個對象樣本,/7為輸入樣本的總數(shù)。12在說明書的其余部分,均以這種方式記錄輸入對象樣本集合。圖3為拉普拉斯內(nèi)核構(gòu)建模塊的構(gòu)成的示意框圖,其由三個模塊構(gòu)成近鄰矩陣計算模塊、拉普拉斯矩陣計算模塊,以及拉普拉斯內(nèi)核計算模塊。近鄰矩陣計算模塊根據(jù)輸入對象樣本兩兩之間的距離生成近鄰矩陣。近鄰矩陣的大小為n"(n為自然數(shù)),用來描述任意兩個對象樣本之間的相似度。首先,對于任意兩個輸入對象樣本,計算它們之間的距離。距離的計算方式與輸入對象樣本的表達方式相關(guān),例如如果輸入對象樣本以向量方式表示,就可以采用歐氏距離測度來計算;如果對象樣本以結(jié)構(gòu)化特征表示,就需要根據(jù)該特征的具體格式設(shè)計距離計算的方式。任意給定兩個對象樣本義,、A,它們之間的距離記為c/(i,i)。接下來,對每一個輸入對象樣本,找出與之距離最近的A個對象樣本。A為實現(xiàn)本發(fā)明的模式識別裝置的一個參數(shù),取值為正整數(shù),可以根據(jù)經(jīng)驗進行設(shè)定。設(shè)近鄰矩陣為,J',戶l,2,…,77。近鄰矩陣A中的元素S力的值按如下方式計算任意給出兩個對象樣本A、々,如果X,屬于與A距離最近的A個樣本之一,或者如果A屬于與^距離最近的A個樣本之一,則a,。,exp(—他刀2/2一),否貝lj,&,0;此外,如果J'和7的值相同,<3〃二0。cr為實現(xiàn)本發(fā)明的模式識別裝置的另一個參數(shù),它反應(yīng)了輸入對象樣本的距離的范疇,可以設(shè)定為所有對象樣本之間的距離的平均值,或者根據(jù)經(jīng)驗進行設(shè)置。得到近鄰矩陣之后,拉普拉斯矩陣計算模塊根據(jù)近鄰矩陣生成拉普拉斯矩陣。令"為"x"的對角矩陣,對角線上各元素的值為D,^X,那么,拉普拉斯矩陣A可由下式計算歸一化后的拉普拉斯矩陣為Z=Wi^=/-ZT^W,其中,/為單位對角矩陣。正則化拉普拉斯矩陣為P^")="f./,其中,i"為單位對角矩陣,f為實現(xiàn)本發(fā)明的模式識別裝置的一個參數(shù),一般取值非常小,例如取10一5。拉普拉斯內(nèi)核計算模塊對上述得到的正則化拉普拉斯矩陣求逆,即得到拉普拉斯內(nèi)核/T。如果正則化拉普拉斯矩陣F不可逆,則求其偽逆矩陣。除了拉普拉斯內(nèi)核外,本發(fā)明的模式識別裝置還可以采用其他的再生核希爾伯特空間,例如擴散內(nèi)核,反轉(zhuǎn)余弦核等。擴散內(nèi)核的構(gòu)建過程如下(1)同上述拉普拉斯內(nèi)核構(gòu)建過程相同,利用近鄰矩陣計算模塊生成近鄰矩陣A(2)同上述拉普拉斯內(nèi)核構(gòu)建過程相同,利用拉普拉斯矩陣計算模塊根據(jù)近鄰矩陣生成歸一化的拉普拉斯矩陣z;(3)根據(jù)上述的歸一化的拉普拉斯矩陣2:,得到擴散內(nèi)核/r。,計算過程為&=eXp(-r72z:),r為實現(xiàn)本發(fā)明的模式識別裝置的一個參數(shù)。反轉(zhuǎn)余弦核的構(gòu)建過程如下(1)同上述拉普拉斯內(nèi)核構(gòu)建過程相同,利用近鄰矩陣計算模塊生成近鄰矩陣A(2)同上述拉普拉斯內(nèi)核構(gòu)建過程相同,利用拉普拉斯矩陣計算模塊根據(jù)近鄰矩陣生成歸一化的拉普拉斯矩陣z:;(3)根據(jù)上述的歸一化的拉普拉斯矩陣Z,得到反轉(zhuǎn)余弦內(nèi)核&,計算過程為COS(Z*;r/4)'。給定正則化拉普拉斯矩陣尸,可以定義內(nèi)積為〈/,/〉^〈/,尸/〉,那么#就是一個再生性希爾伯特內(nèi)核空間,而其內(nèi)核就是他7)=["],,。為了證明其再生性,需要滿足如下的條件/('.)=〈/,就是說,對所有的/s//,應(yīng)該有/(oH/,機.)L-尸pk,..,或者說,尸=尸尸《很顯然,如果^尸',則上述條件就能滿足。因此,上述正則化拉普拉斯矩陣的逆矩陣就是拉普拉斯內(nèi)核。2、核空間內(nèi)局部線性嵌入模塊局部線性嵌入(Locallylinearembedding,縮寫為LLE)最早是由SamT.Roweis等人提出的,參見[非專利文獻7]。其基本思想為對每一個對象樣本,利用其近鄰點構(gòu)建一個局部線性模型。在流型結(jié)構(gòu)的數(shù)據(jù)集上,任意一個無限小的區(qū)域都是線性的,因此,任何一個數(shù)據(jù)點都可以用它的鄰點的線性組合來重構(gòu),即線性嵌入,而所有樣本點的重構(gòu)系數(shù)組合在一起,就可以描述這個數(shù)據(jù)集的流型結(jié)構(gòu)。LLE最早應(yīng)用于特征降維之中。SamT.Roweis等人注意到,在諸如旋轉(zhuǎn)、平移、縮放等保留近鄰關(guān)系的變換中,從LLE得到的重構(gòu)系數(shù)具有不變性,因此,樣本點在低維的流型結(jié)構(gòu)空間中的近鄰關(guān)系同其原始空間中的近鄰關(guān)系是一致的,換句話說,從原始空間中得到的重構(gòu)系數(shù)在流型結(jié)構(gòu)空間中同樣適用?;谶@個發(fā)現(xiàn),LLE可以很好的用來完成特征降維的目的。本發(fā)明的模式識別裝置的局部線性嵌入是在內(nèi)核空間中進行的,具體來說,是在上述拉普拉斯內(nèi)核空間中進行的。給定數(shù)據(jù)樣本集義-^",W(該樣本集包含標注樣本和未標注樣本)和拉普拉斯內(nèi)核函數(shù)A內(nèi)核函數(shù)vf事實上在樣本集Z上定義了一個映射函數(shù)-,通過該函數(shù),數(shù)據(jù)樣本被投影到一個高維的空間,中,艮P:^x,40"),該映射滿足如下的內(nèi)積關(guān)系^c,x')=〈《^),Kx'》。任意給出F空間中的兩個樣本^。,)和^c,,),它們的歐氏距離為在高維空間^中,對于每一個樣本,都用它的近鄰樣本的線性組合來近似,即重構(gòu)。這種重構(gòu)的總誤差為-在上式中,yvw(x》)表示樣本力在空間,中的近鄰樣本,^表示樣本A的重構(gòu)系數(shù)。以樣本A為例,假設(shè)在高維空間F中樣本A的#個近鄰樣本為"',.,.,;^,由這¥個近鄰樣本對&進行重構(gòu)時的系數(shù)為^=[^,...,~]、那么重構(gòu)誤差為其中,G.被稱為^,)的Gram矩陣,其大小為MxM,矩陣中各元素的值為C,(m,")=-0(《))W")-0""》=A;(;c,"1,)-,)—A:(x,"1,x,.)+A(;c;,x,)很顯然,使重構(gòu)誤差最小的重構(gòu)系數(shù)為核空間內(nèi)局部線性嵌入模塊的輸入和輸出以及所執(zhí)行的主要步驟如下所示輸入數(shù)據(jù)樣本集X,拉普拉斯內(nèi)核K。輸出各數(shù)據(jù)樣本的重建系數(shù)矩陣W。對每個數(shù)據(jù)樣本x,.,都執(zhí)行如下的操作(1)計算高維空間F中該樣本同其它樣本之間的歐氏距離,艮P:)|=他/)+—2他/),_/=(2)根據(jù)上述距離,找出與x,距離最近的M個樣本,M是實現(xiàn)本發(fā)明的模式識別裝置的另一個參數(shù),取值為正整數(shù),可以與上述拉普拉斯內(nèi)核構(gòu)建模塊中的參數(shù)k取同一個值。(3)計算大小為MXM的Grara矩陣G。(4)根據(jù)Gram矩陣G計算重構(gòu)系數(shù)^=[v,W,J。(5)對重構(gòu)系數(shù)進行歸一化,即使K的模為1。(6)生成重構(gòu)系數(shù)矩陣W。該矩陣的大小為nXn,矩陣的每一行對應(yīng)于一個樣本的重構(gòu)系數(shù),對于距離最近的前M個樣本,值為^.中的相應(yīng)值,否則,值為o。3、正則化模塊給定輸入對象樣本義={^,,&,,、},以及與標注樣本對應(yīng)的目標值Ov..,W,正則化模塊用來為這些樣本生成評測值。換句話說,從正則化模塊得到一個映射函數(shù)/:義"^,該函數(shù)將輸入對象樣本映射為一個實數(shù)的評測值,該函數(shù)可以表示為向量的形式,即上述核空間內(nèi)局部線性嵌入模塊為輸入對象樣本生成了一系列重構(gòu)系數(shù),根據(jù)這些系數(shù),每一個樣本都可以由它的近鄰樣本的線性組合來近似,此外,這些系數(shù)還反映了對象樣本的內(nèi)在幾何結(jié)構(gòu),而且這些系16數(shù)在保留近鄰關(guān)系的變換中具有不變性。因此,這些系數(shù)可以用來重構(gòu)對象樣本的評測值,換句話說,基于這些系數(shù),每一個對象樣本的評測值都可以由它的近鄰樣本的評測值的線性組合來近似。對樣本的評測值進行重構(gòu)的誤差為^/)=2:,|/,-2>^|2,其中,^表示從上述核空間內(nèi)局部線性嵌入模塊得到的與對象樣本義,相關(guān)的重構(gòu)系數(shù)。此外,對于標注樣本,從正則化模塊得到的評測值應(yīng)該與它們的目標值相差不大。令rb,,…,少,/,其中,Ov..,W為標注樣本的目標值,b^,…,W的值為0,則該約束條件可以表示為r(/)=S,(/,-X)2。將上述約束條件和重構(gòu)誤差的約束線性組合在一起,就得到"/)="/)+〃、(/)=sjl,—s;wv/)|+〃D'(/;-乂)2=/+^(/-力7'(/—力其中,/f表示從上述核空間內(nèi)局部線性嵌入模塊得到的重構(gòu)系數(shù)矩陣,^為實現(xiàn)本發(fā)明的模式識別裝置的另一個參數(shù),一般取非常小的實數(shù),例如取為io—:i,",/為單位矩陣。映射函數(shù)/的值就是使上述f(/)的值最小的值,艮口/=argmixif(/)對s(/)進行求導(dǎo),最后得到/的值為/=〃(M+/i/),正則化模塊執(zhí)行的主要步驟如下所示-輸入上述核空間內(nèi)局部線性嵌入模塊輸出的樣本的重構(gòu)系數(shù)矩陣W,標注樣本的目標值輸出樣本的評測值向量/。(1)生成向量}=[^一,少,,/,其中,",…,W為標注樣本的目標值,(少,+P…,W的值為0。(2)計算矩陣M二(1-W)T(I-W)。(3)計算評測值向量/^(M+^r'y。下面通過具體的實施例來對本發(fā)明進行進一步的說明。17實施例一假設(shè)共有12個輸入的對象樣本,這些樣本都被表達成2維向量的形式,如下所示11_8.即第一個樣本的數(shù)字化表達方式為[O10],第二個樣本的數(shù)字化表達方式為[3.19.5],以此類推。其中,第一個和最后一個對象樣本為標注樣本,其標號分別為1和-l,其余的對象樣本為未標注樣本,艮卩K=[l0000000000-l]圖4為這些樣本的示意圖,其中,每個點對應(yīng)于一個輸入對象樣本,其坐標為這些對象樣本的向量的值。在該圖中,用實心的正方形和三角形分別表示兩個標注樣本。本發(fā)明的目的是要預(yù)測所有未標注樣本的標號,以實現(xiàn)識別或者排序檢索的目的。步驟一拉普拉斯內(nèi)核構(gòu)建模塊對輸入的對象樣本進行處理,以構(gòu)建拉普拉斯內(nèi)核。首先,計算任意兩個輸入對象樣本之間的距離。在該實施例中,輸入的12個對象樣本都被表示為2維向量的形式,因此,用歐氏距離計算它們之間的距離。例如第一和第二個對象樣本之間的歐氏距離為c/(l'2)二((3.1-0)2+(10-9.5)2r'5二3.1。按上述方式得到的對象樣本兩兩之間的距離可以用一個矩陣表示為義l義5義9義IU義L20.03.16.29.111.814.18.111.214.216.919.221.13.10.03.16.29.111.87.810.713.415.717.719.26.23.10.03,16.29.17.810.212.314.215.716.99.16.23.10.03.16.28,19.611.012.313.414.2o1.997!_,55,411<3Q;,H5(11!IA11.89.16.23.10.03.18.69.09.610.210.711.2A14.111.89.16.23.10.09.28.68.17.87.88.1A8.17.87.88.18,69.20.03.16.29.111.814.1A11.210.710.29.69.08.63.10.03.16.29.111.8A14.213.412.311.09.68.16.23.10.03.16.29.1義,',16.915.714.212.310.27.89.16.23.10.03.16.2A19.217.715.713.410.77.811.89.16.23.10.03.1x1221.119.216.914.211.28.114.111.89.16.23.10.0根據(jù)這些距離值,針對每一個輸入對象樣本,找出與之距離最近的A個對象樣本。在該實施例中,將^的值設(shè)為3。以對象樣本A為例進行說明,這些輸入對象樣本到A的距離分別為0、3.1、6.2、9.1、11.8、14.1、8.1、11.2、14.2、16.9、19.2、21.1,因此,與之距離最近的3個對象樣本為之后,按如下原則計算近鄰矩陣對于兩個對象樣本A、A,如果一個對象樣本屬于與另一個對象樣本距離最近的A個對象樣本之一,則近鄰矩陣中的對應(yīng)值為^-",-expM("')2/2^),否貝IJ,S"二0;此外,近鄰矩陣中對角線上的元素的值設(shè)為O。在本實施例中,將c設(shè)定為所有對象樣本之間的距離的平均值,根據(jù)上述得到的對象樣本兩兩之間的距離,它的值為8.89。仍然以第一和第二個對象樣本為例進行說明,從前面的計算可以看出,第二個對象樣本屬于與第一個對象樣本距離最近的3個對象之一,因此,近鄰矩.陣中的對應(yīng)值為S12=exp(-3.I2/(2*8.892))=0.94。按照上述方式,計算近鄰矩陣中所有元素的值,得到的近鄰矩陣如下/!=00.940.790000.94-00.940.79000.790.9400.940.790.000.66000000.6800000000000190.9400:940.79000000000.790.9400.940000000000.790.94000000.680.66660.68000000.940.790000000000.9400.940.79000000.000.790.9400.940.79000000000.790.9400.940.79000000,68000.790.9400.94000000.660000.790.940得到近鄰矩陣之后,拉普拉斯矩陣計算模塊根據(jù)近鄰矩陣生成拉普拉斯矩陣丄以及歸一化的拉普拉斯矩陣z;。為生成拉普拉斯矩陣i,首先需要生成一個對角矩陣",該矩陣對角線上的元素為近鄰矩陣中對應(yīng)行的元素的和,例如,對角線上第一個元素的值為近鄰矩陣力中第一行的元素的和,即"(1)=0.94+0.79+0.66二2.39。根據(jù)對角矩陣"和近鄰矩陣A可以容易地得到拉普拉斯矩陣Z,歸一化的拉普拉斯矩陣Z以及正則化拉普拉斯矩陣尸。最后,對正則化拉普拉斯矩陣求逆,得到拉普拉斯內(nèi)核。在本實施例中,正則化拉普拉斯矩陣中參數(shù)s的值設(shè)為0.01,得到的拉普拉斯內(nèi)核為7.758.198.227.898.1910.409.749.558.229.7410.789.897.899.559.8910.716.848.198.658.777.108.498.779.067.548.808.658.536.847.107.546.628.198.498.807.778.'658.778.657.738.779.068.537.718.558.117.426.768.119.487.967.427.427.969.488.117.467.337.216.088.778.648.537.218.768.708.647.338.778.768.777.467.717.737.776.628.538.658.807.549.068.778.497.106.627.777.737.716.767.428.118.558.778.658.196.847.468.778.768.777.718.539.068.7710.719.899.557.897.338.648.708.767,738.658.778.659.8910.789.748.227.218.538.648.777..778.808.498.199.559.7410.408.196.087.217.337.466.627.547.106.847.898.228.197.75步驟二在拉普拉斯內(nèi)核空間內(nèi)對輸入對象樣本進行線性嵌入>在拉普拉斯內(nèi)核空間內(nèi)計算所有對象樣本兩兩之間的距離對于輸入對象樣本義,、A,在拉普拉斯內(nèi)核空間中對應(yīng)的距離為AU,i)+-2*"厶^。以第一個和第二個對象樣本為例,它們在拉普拉斯內(nèi)核空間內(nèi)的距離為1)2)-2*Ml,2)=7,75+10.40—2*8.19=1.76。按上述方式得到的任意兩個輸入對象樣本在拉普拉斯內(nèi)核空間內(nèi)的距離為01.762.082.682.633.042.163.063.543.873.743.351.7601.702.012.572.912.293.413.573.893.743.742.081.7001.712.032.722.963.863.954.163.893.872.682,011.7101.722.063.143.833.863.953,573.542.632.572.031.7201.803.183.573.833.863.413.063.042.912.722.061.8003.053.183.142.962.292.162.162.292.963.143.183.0501.802.062.722.913.043,063.413.863.833.573.181.8001.722.032.572.633.543.573.953.863.833.142.061.7201.712.012.683,873.894.163.953.862.962.722.031.7101.702.083.743.743.893.573.412.292.912.572.011.7001.763.353.743.873.543.062.163.042.632.682.081.760>核空間內(nèi)線性嵌入與拉普拉斯內(nèi)核構(gòu)建模塊的操作類似,根據(jù)上述得到的距離值,對21每一個輸入對象樣本,找出與之距離最近的#個對象樣本。在本實施例中,#的取值與々的值相同,即#=3。以輸入對象樣本《為例進行說明,這些對象樣本到A的距離為0、1.76、2.08、2.68、2.63、3.04、2.16、3.06、3.54、3.87、3.74、3.35,因此,與之距離最近的3個輸入對象t羊本為A、《3、義7。接下來,核空間內(nèi)局部線性嵌入模塊利用每一個輸入對象樣本的近鄰對象樣本來線性近似該輸入對象樣本,以實現(xiàn)線性嵌入的目的。以對象樣本A為例進行說明。從前面已經(jīng)得到,與該對象樣本距離最近的3個對象樣本為Z2、z3、x7,因此,需要在核空間內(nèi)利用這3個對象來近似對象樣本義,。首先,構(gòu)建Gram矩陣C,該矩陣的大小為3x3,矩陣的行和列分別對應(yīng)于輸入對象樣本n力。以C(l,2)為例進行計算,它的值為2)二A(義2'x》-kO,'A)-k(力,A)+1^0!,》)二9.74—8.19—8.22+7.75二1.08;以"2,3)為例進行計算,它的值為C(2,3)=AU,z7)-k(》,Z7)-k(力,x,)+k(力,義》=8.65—7.54—8.22+7.75=0.64。按上述方式,得到與輸入對象樣本A對應(yīng)的Gram矩陣C,如下c=1.761.080.821.082.080.640.820.642.16然后,根據(jù)上述Gmm矩陣,得到輸入對象樣本^的重構(gòu)系數(shù),其值為0.29、0.24、0.28,這3個系數(shù)分別對應(yīng)于輸入對象樣本&、力、x7。>生成重構(gòu)系數(shù)矩陣對于每一個輸入對象樣本,都按上述操作生成重構(gòu)系數(shù),之后,對系數(shù)進行歸一化,并生成重構(gòu)系數(shù)矩陣^在本實施例中,重構(gòu)系數(shù)矩陣的大小為12x12。該矩陣的每一行對應(yīng)于一個輸入對象樣本,其中,與該對象樣本距離最近的那些輸入對象樣本,對應(yīng)的值設(shè)置為重構(gòu)系數(shù),否則,值為O。以對象樣本A為例進行說明,該對象樣本的近鄰對象樣本為x2、z3、x7,對應(yīng)的重構(gòu)系數(shù)為0.29、0.24、0.28。對重構(gòu)系數(shù)進行歸一化,得到O.35、0.30、0.35,因此,該矩陣的第一行的內(nèi)容為-2200.350.300000.35000'00按照如上操作,得到的重構(gòu)系數(shù)矩陣/T為00.350.300000.35000000.4100.320,270000000000.4300.310.26000000000.270.3100.420000000000.280.3100.410000000000.290.330000000.380.380000.000.330.290000000000.4100.310.280000000000.4200.310.27000000000.260.3100.430000000000.270.3200.41000000.350000.300.350步驟三正則化得到輸入對象樣本的評測值在本實施例中,假設(shè)第一個和最后一個輸入對象樣本為標注樣本,其標號分別為+1和-1。即輸入對象樣本的初始評測值為K=[10000000000-1]。首先,根據(jù)核空間內(nèi)局部線性嵌入模塊得到的重構(gòu)系數(shù)矩陣y按如下方式計算矩陣必,a-的T(/-的,其中,/為單位矩陣。得到的結(jié)果如下1.32-O.76-0.170.1100-O.730.130.1100-0.761.38-O.55-0.410.2300.120000-0.17-O.551.37-0.44-0.420.120.1000000.11-O.41-O.441.35-0,56-O.160000000.23一O.42—0.561.36-0.7400000000.12-O.16-0.741.290000.100.12-0.73-O.730.120.100.00001.29-O.74-O.160.12000.13000.0000-0.741.36-O.56-0,420.2300.11000.0000-0.16-0.561.35-0.44-0.410.11000000.1040.12-0.42-O.441.37-O.55-0.17000000.1200.23-O.41-0.551.38-O.760000.110.13-0.73000.11一O.17-0.761.32在該實施例中,將參數(shù)^的值設(shè)為0.01。然后,按照如下方式計算各輸入對象樣本的評測值,fy(,"i)—Y。其中,/為單位矩陣。最終得到的輸入對象樣本的評測值如下f圖5為本實施例中的輸入對象樣本評測值的示意圖。在該圖中,每一個輸入對象樣本都用一個點來表示,此外,各點的灰度對應(yīng)于各個對象樣本的評測值,即數(shù)據(jù)點的灰度值越相近,表示對應(yīng)的輸入對象樣本越相似。對于模式分類問題,如果以0作為評測值的分類邊界,可以得到如下的分類結(jié)果前6個輸入對象樣本屬于第一類,后6個對象樣本屬于第二類。'實施例二本發(fā)明的模式識別裝置可以用來識別圖像,下面,以手寫體數(shù)字圖像識別為例進行說明。本發(fā)明的模式識別裝置的輸入為3000個手寫體數(shù)字圖像,所有圖像均為灰度圖像,像素的灰度值介于0和255之間,每個圖像的大小均為16x16。輸入的3000個圖像隸屬于數(shù)字0到9之間,每個數(shù)字包含300個圖像,因此,本實施例事實上是一個10類別的分類問題,每一個類別對應(yīng)于一個數(shù)字。在與每個類別的對應(yīng)的300個樣本中,假設(shè)前5個為24標注樣本,剩余的295個為未標注樣本。圖6給出了部分手寫體數(shù)字的樣例。在本實施例中,以輸入圖像中像素的灰度值直接作為輸入對象樣本的特征量,因此,每個輸入對象樣本都可以表示為一個256維的向量。與上述實施例一類似,本實施例的實現(xiàn)過程如下(1)由拉普拉斯內(nèi)核構(gòu)建模塊對輸入對象樣本進行處理,構(gòu)建拉普拉斯內(nèi)核首先,計算輸入對象樣本中任意兩個對象樣本之間的距離,得到大小為3000x3000的矩陣。因為輸入對象樣本可以表示為一個256維的向量,因此,直接利用向量的歐式距離進行計算。之后,利用k近鄰原則生成近鄰矩陣A在本實施例中,k的值設(shè)為10。根據(jù)上述近鄰矩陣力,得到拉普拉斯矩陣以及歸一化的拉普拉斯矩陣,從而,生成拉普拉斯內(nèi)核,,該內(nèi)核矩陣的大小為3000x3000。(2)在拉普拉斯內(nèi)核空間內(nèi)對輸入對象樣本進行線性嵌入這一過程同上述實施例一的過程非常類似。所不同的是,在核空間內(nèi)線性嵌入操作中,參數(shù)#的取值為10。(3)正則化類似于實施例一中的過程,根據(jù)上述核空間內(nèi)局部線性嵌入模塊得到的重構(gòu)系數(shù)矩陣/n十算矩陣,(/-的t(7"-的,其中,/為單位矩陣。接下來,分別計算未標注樣本屬于各個類別的概率。以數(shù)字0對應(yīng)的第一個類別為例進行說明。首先,生成輸入對象樣本的初始評測值Y。Y是一個長度為3000的向量,其中,每一個元素對應(yīng)一個輸入圖像。在該向量中,與數(shù)字0的標注樣本對應(yīng)的元素的值設(shè)為1,其佘的值設(shè)為0;然后,計算各個樣本屬于該類別的評測值,/;尸w(,wi)—,其中,/為大小為3000x3000的單位矩陣,參數(shù)"的值為5e-4。A是一個長度為3000的向量,表示各個輸入對象樣本與數(shù)字0的相似度。以數(shù)字1對應(yīng)的第二個類別為例進行說明。首先,生成輸入對象樣25本的初始評測值Y。在該向量中,與數(shù)字1的標注樣本對應(yīng)的元素的值設(shè)為1,其余的值設(shè)為0;然后,計算各個樣本屬于該類別的評測值,f尸"(,"i)—'F,參數(shù)"的值保持不變,仍為5e-4。/,表示各個輸入樣本與數(shù)字1的相似度。以此類推,分別對10個類別進行處理。對于每個輸入對象樣本,都得到IO個評測值,表示該對象樣本與10個數(shù)字的相似性。在分類時,從10個評測值中選擇最大的那個評測值所對應(yīng)的類別作為該輸入對象樣本的類別。.下表給出了本發(fā)明的模式識別裝置和[非專利文獻2]中的方法得到的識別率<table>tableseeoriginaldocumentpage26</column></row><table>由上可見,本發(fā)明的模式識別裝置的識別率比較高。實施例三本發(fā)明的模式識別裝置可以用來進行說話人身份識別,說話人身份識別同上述實施例中手寫體數(shù)字圖像識別基本相同。所不同的是,說話人身份識別是基于說話人的語音信號進行的,而且,每一個說話人對應(yīng)一個類別。首先,從語音信號中提取倒譜系數(shù)、差值倒譜系數(shù)、基音頻率及差值基音頻率等4種特征,并以這4種特征組成的向量作為輸入語音信號的數(shù)字化描述特征。之后,分別進行拉普拉斯內(nèi)核構(gòu)建、核空間內(nèi)線性嵌入、正則化等過程,識別出說話人的身份。'這些過程與前面針對手寫體數(shù)字識別描述的過程類似,在此不再進行詳細描述。上述本發(fā)明的模式識別裝置的各個構(gòu)成模塊可以一體地實現(xiàn)在具有實現(xiàn)所述功能的計算機程序的'計算機或單片機設(shè)備中,也可以各由分立的信息處理裝置構(gòu)成。雖然,在上面的實施例中,以手寫體數(shù)字識別和說話人身份識別對本發(fā)明進行了具體說明,但本發(fā)明不限于這些,而可以廣泛應(yīng)用于各種模式識別場合中。進一步,根據(jù)本發(fā)明的實施例,本發(fā)明的目的還可以通過使計算機或單片機等執(zhí)行上述操作的計算機程序來實現(xiàn)。另外,應(yīng)當明白,在各個實施例中,可以通過專門的電路或線路(例如,互連以執(zhí)行專門功能的離散邏輯門)、通過由一個或更多個處理器執(zhí)行的程序指令,或者通過兩者的組合來執(zhí)行所述各個動作。因此,可以通過多種不同的形式來實施上述多個方面,并且所有這些形式都被認為處于所描述內(nèi)容的范圍內(nèi)。對于上述多個方面中的每一個,任何這種形式的實施例在此都可以指"被構(gòu)造用來執(zhí)行所述動作的邏輯",或者另選地,是指"執(zhí)行或者能夠執(zhí)行所述動作的邏輯"。進一步,根據(jù)本發(fā)明的實施例,本發(fā)明的目的還可以由計算機可讀介質(zhì)來實現(xiàn),所述介質(zhì)存儲上述的程序。計算機可讀介質(zhì)可以是能夠包含、存儲、傳達、傳播或傳送程序,以由執(zhí)行系統(tǒng)、設(shè)備或裝置使用的或與指令執(zhí)行系統(tǒng)、設(shè)備或裝置相結(jié)合的任何裝置。該計算機可讀介質(zhì)例如可以是,但不限于,電子、磁、光、電磁、紅外或半導(dǎo)體系統(tǒng)、設(shè)備、裝置或傳播介質(zhì)。該計算機可讀介質(zhì)的更具體的示例(非窮盡列舉)可以包括具有一根或更多根導(dǎo)線的電連接、便攜式計算機磁盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、可擦除可編程只讀存儲器(EPROM或閃存)、光纖,以及便攜式光盤只讀存儲器(CDROM)。本發(fā)明實施例的上述說明僅用于例示和說明的目的,而非旨在窮盡本發(fā)明或?qū)⑵湎抻谒_的具體形式。本領(lǐng)域技術(shù)人員應(yīng)當明白,所選擇并描述的實施例僅是為了最佳地解釋本發(fā)明的原理及其實際應(yīng)用,以適于特定的預(yù)期應(yīng)用,而在不脫離由權(quán)利要求及其等同物所限定的發(fā)明范圍的情況下,可以對本發(fā)明進行各種修改和變型。權(quán)利要求1、一種模式識別裝置,該模式識別裝置利用半監(jiān)督學(xué)習(xí)機制來對輸入的模式對象樣本進行識別,其中所述模式對象樣本包括標注樣本和未標注樣本,并以數(shù)字化特征表示,所述標注樣本包括模式對象的數(shù)字化特征以及相應(yīng)的目標值,所述模式識別裝置包括非歐空間內(nèi)核構(gòu)建部,其基于輸入的模式對象樣本來構(gòu)建非歐空間內(nèi)核矩陣,該非歐空間適于構(gòu)造模式對象的流型結(jié)構(gòu);核空間內(nèi)局部線性嵌入部,其根據(jù)所述非歐空間內(nèi)核構(gòu)建部構(gòu)建出的非歐空間內(nèi)核矩陣,對模式對象樣本進行局部線性嵌入,以生成模式對象樣本的重構(gòu)系數(shù)矩陣;以及正則化部,其根據(jù)所述核空間內(nèi)局部線性嵌入部生成的重構(gòu)系數(shù)矩陣和所述標注樣本的目標值,來為所有輸入的模式對象樣本生成評測值。2、如權(quán)利要求l所述的模式識別裝置,其特征在于,所述非歐空間內(nèi)核構(gòu)建部根據(jù)所有輸入的模式對象樣本的A近鄰矩陣來生成非歐空間內(nèi)核矩陣。3、如權(quán)利要求1所述的模式識別裝置,其特征在于,所述核空間內(nèi)局部線性嵌入部生成的模式對象樣本的重構(gòu)系數(shù)矩陣表示模式對象樣本的內(nèi)在幾何結(jié)構(gòu)。4、如權(quán)利要求l所述的模式識別裝置,其特征在于,所述非歐空間是拉普拉斯空間或再生核希爾伯特空間。5、如權(quán)利要求l-4中的任一項所述的模式識別裝置,該模式識別裝置用來識別圖像或音頻,其中,模式對象是圖像或音頻的可用于進行模式識別的特征量。6、一種模式識別方法,該模式識別方法利用半監(jiān)督學(xué)習(xí)機制來對輸入的模式對象樣本進行識別,其中所述模式對象樣本包括標注樣本和未標注樣本,并以數(shù)字化特征表示,所述標注樣本包括模式對象的數(shù)字化特征以及相應(yīng)的目標值,所述模式識別方法包括以下步驟基于輸入的模式對象樣本來構(gòu)建非歐空間內(nèi)核矩陣,該非歐空間適于構(gòu)造模式對象的流型結(jié)構(gòu);根據(jù)構(gòu)建出的非歐空間內(nèi)核矩陣,對模式對象樣本進行局部線性嵌入,以生成模式對象樣本的重構(gòu)系數(shù)矩陣;以及根據(jù)生成的重構(gòu)系數(shù)矩陣和所述標注樣本的目標值,來為所有輸入的模式對象樣本生成評測值。7、如權(quán)利要求6所述的模式識別方法,其,寺征在于,根據(jù)所有輸入的模式對象樣本的A近鄰矩陣來生成非歐空間內(nèi)核矩陣。8、如權(quán)利要求6所述的模式識別方法,其特征在于,所述模式對象樣本的重構(gòu)系數(shù)矩陣表示模式對象樣本的內(nèi)在幾何結(jié)構(gòu)。9、如權(quán)利要求6所述的模式識別方法,其特征在于,所述非歐空間是拉普拉斯空間或再生核希爾伯特空間。10、如權(quán)利要求6-9中的任一項所述的模式識別方法,該模式識別方法用來識別圖像或音頻,其中,模式對象是圖像或音頻的可用于進行模式識別的特征量。全文摘要本發(fā)明提供一種模式識別裝置和方法。該模式識別裝置采用半監(jiān)督學(xué)習(xí)機制,分析模式對象樣本的結(jié)構(gòu)特性,并在核空間內(nèi)對模式對象樣本進行線性嵌入分析,從而實現(xiàn)分類和排序的目的。特別的是,該模式識別裝置采用局部線性嵌入機制來估計模式對象樣本的流型結(jié)構(gòu),即對任何一個模式對象樣本,都用它的近鄰對象樣本的線性組合來進行重構(gòu),即線性嵌入。而所有對象樣本的重構(gòu)系數(shù)組合在一起就能較好地表達整個輸入對象樣本的流型結(jié)構(gòu)。本發(fā)明在核空間中對模式對象樣本進行重構(gòu)、嵌入,從而,更好地反映了數(shù)據(jù)集的結(jié)構(gòu)特征。文檔編號G06K9/62GK101520847SQ200810080948公開日2009年9月2日申請日期2008年2月29日優(yōu)先權(quán)日2008年2月29日發(fā)明者上原祐介,劉汝杰,增本大器,椎谷秀一,王月紅,遠藤進,長田茂美,馬場孝之申請人:富士通株式會社