專利名稱:信息處理裝置、信息處理方法以及程序的制作方法
技術領域:
本發(fā)明涉及信息處理裝置、信息處理方法和程序,特別是涉及將具有在特征量空間中表示的特征量的數(shù)據(jù)分類成預定數(shù)目的類別中的任一個的信息處理裝置、信息處理方法和程序。
背景技術:
在機器學習的領域,有一個稱作“分類”的問題。該問題在對數(shù)據(jù)被分類成的預定數(shù)目的類別進行定義的情況下,表現(xiàn)出這樣的問題基于數(shù)據(jù)的特征量來預測數(shù)據(jù)分別被分類成哪個類別。例如,在以圖像數(shù)據(jù)為對象的機器學習中,以如下方式處置分類的問題 對包含特定物體的圖像數(shù)據(jù)被分類成的類別進行定義,并基于圖像數(shù)據(jù)的特征量來預測在各圖像數(shù)據(jù)中包含哪個物體。在分類中存在通過根據(jù)學習數(shù)據(jù)創(chuàng)建分類器(classifier)來進行分類的所謂有監(jiān)管分類;以及在沒有學習數(shù)據(jù)的狀態(tài)下進行分類的所謂無監(jiān)管分類。作為有監(jiān)管分類, 已知例如支持向量機(SVM)等。另外,作為無監(jiān)管分類,已知例如聚類分析。此處,在有監(jiān)管分類中,由于從已被分類成類別的數(shù)據(jù)中學習分類的標準,并通過反映該標準來對數(shù)據(jù)進行分類,因而分類的精度高。然而,在有監(jiān)管分類中,難以將數(shù)據(jù)分類成數(shù)據(jù)未被分類成的類別。這是因為從數(shù)據(jù)未被分類成的類別中難以獲取用于學習分類成類別的標準的學習數(shù)據(jù)。另一方面,在無監(jiān)管分類中,可將數(shù)據(jù)分類成數(shù)據(jù)未被分類成的類別。然而,由于無監(jiān)管分類不使用學習數(shù)據(jù),因而與有監(jiān)管分類相比分類的精度低。特別是在對具有高維度特征量的數(shù)據(jù)進行無監(jiān)管分類時,由于稱作維度詛咒(curse of dimensionality)的現(xiàn)象,即數(shù)據(jù)維度的升高導致一般化誤差停止增強,分類的精度進一步降低。因此,當對具有高維度特征量的數(shù)據(jù)進行無監(jiān)管分類時,可能存在這樣的情形使用主成分分析(PCA Principal Component Analysis)或獨立成分分析(ICA Independent Component Analysis)等算法來進行維度壓縮并由此降低特征量的維度。在這樣的分類中,開發(fā)了用于提高預測精度的技術。例如,在文獻Thomas G.Dietterich and Ghulum Bakiri,"Solving Multiclass Learning Problems via Error-Correcting Output Codes,,,Journal of Artificial Intelligence Research, 1995年,第2卷,第沈3-觀6頁中,記載了一種利用了糾錯輸出碼(ECOC)的分類技術, 糾錯輸出碼通過使用冗余準備的分類器對各個分類器的錯誤進行糾正。另外,在文獻Gabriella Csurka等人的"Visual Categorization with Bags of Keypoints,,,Proc· of ECCV Workshop on Statistical Learning in Computer Vision,2004年,第 59-74 頁中, 記載了一種在圖像數(shù)據(jù)中使用基于局部模式分布的、稱作“Bag-of-keypoints”的特征量的分類技術。
發(fā)明內(nèi)容
然而,使用在文獻Thomas G. Dietterich and Ghulum Bakiri, "SolvingMulticlass Learning Problems via Error-Correcting Output Codes", Journal of Artificial Intelligence Research, 1995 年,第 2 卷,第 263-286 頁中記載的 ECOC 的前提是可準備用于生成分類器的學習數(shù)據(jù)。因而,為了將數(shù)據(jù)分類成沒有學習數(shù)據(jù)的類別,仍需要使用過去的無監(jiān)管分類的技術,且難以提高包含沒有學習數(shù)據(jù)的類別的分類的精度。另外,在Gabriella Csurka 等人的 “Visual Categorization with Bagsof Keypoints,,,Proc. of ECCV Workshop on Statistical Learning in Computer Vision, 2004年,第59-74頁中記載的“Bag-of-keypoints”是在高維度稀疏特征量空間中表示的特征量。因而,當將“Bag-of-keypoints”照原樣用于無監(jiān)管分類時,它受維度詛咒的影響很大且分類的精度降低。另外,當試圖對“Bag-of-keypoints”特征量使用PCA或ICA等算法進行維度壓縮時,存在因受數(shù)據(jù)分散或失效值的影響而僅留下無意義的成分的風險。 也即,難以進行適合于分類的維度壓縮。結(jié)果,盡管已開發(fā)了在Thomas G. Dietterich和 Ghulum Bakiri,"Solving Multiclass Learning Problems via Error-Correcting Output Codes,,,Journal of Artificial Intelligence Research,1995 年,第 2 卷,第洸3_286 頁
禾口Gabriella Csurka等人的“Visual Categorization with Bags of Keypoints",Proc. of ECCV Workshop on Statistical Learning in Computer Vision, 2004年,第 59-74頁] 中記載的技術,但是仍存在如下問題使用那些技術難以提高包含沒有學習數(shù)據(jù)的類別的分類的精度。有鑒于此,希望提供一種能夠提高包含沒有學習數(shù)據(jù)的類別的分類的精度的、新穎且改良的信息處理裝置、信息處理方法和程序。根據(jù)本發(fā)明的一個實施例,提供了一種信息處理裝置,所述信息處理裝置包括數(shù)據(jù)池生成部,所述數(shù)據(jù)池生成部生成這樣的未知數(shù)據(jù)池在包含在數(shù)據(jù)群中并具有在特征量空間中表示的特征量的數(shù)據(jù)當中,所述未知數(shù)據(jù)池包含應被分類成的類別未知的未知數(shù)據(jù);學習樣本收集部,所述學習樣本收集部執(zhí)行以下處理從所述未知數(shù)據(jù)池中隨機地提取一個中心數(shù)據(jù);提取在所述特征量空間中具有位于所述中心數(shù)據(jù)在所述特征量空間中的特征量附近的特征量的鄰近數(shù)據(jù),其中以所述鄰近數(shù)據(jù)在所述特征量空間中的所述特征量距所述中心數(shù)據(jù)在所述特征量空間中的所述特征量的距離的升序來提取所述鄰近數(shù)據(jù),直到所述鄰近數(shù)據(jù)的數(shù)目成為預定數(shù)目為止;并收集多個學習樣本,每個學習樣本包含已被提取的所述中心數(shù)據(jù)和所述鄰近數(shù)據(jù);分類器生成部,所述分類器生成部通過使用已被收集到的所述多個學習樣本來生成多個分類器;輸出特征量獲取部,對于所述數(shù)據(jù)群中所包含的每個所述數(shù)據(jù),所述輸出特征量獲取部將通過將所述數(shù)據(jù)輸入到所述多個分類器中以識別所述數(shù)據(jù)而獲得的多個輸出值作為在與所述特征量空間不同的輸出特征量空間中表示的輸出特征量而與所述數(shù)據(jù)相關聯(lián);以及類別分類部,所述類別分類部基于所述輸出特征量將所述數(shù)據(jù)群中所包含的每個所述未知數(shù)據(jù)分類成預定數(shù)目的所述類別中的任一個。憑借這種配置,有可能通過使用通過在特征量空間中的學習而生成的、具有適合于分類的表達的輸出特征量來對未知數(shù)據(jù)進行分類,并提高分類的精度。此外,有可能將高維度特征量的維度降低為與分類器的數(shù)目相等的數(shù),并進一步提高分類的精度。所述數(shù)據(jù)池生成部可進一步生成這樣的已知數(shù)據(jù)池在所述數(shù)據(jù)群中所包含的所述數(shù)據(jù)當中,所述已知數(shù)據(jù)池包含被分類成的所述類別已知的已知數(shù)據(jù);且所述已知數(shù)據(jù)池具有所述已知數(shù)據(jù)被分類成的所述類別的標簽。所述學習樣本收集部可進一步從具有同一個所述標簽的所述已知數(shù)據(jù)池中隨機地提取預定數(shù)目的所述數(shù)據(jù),并可收集包含所提取的所述數(shù)據(jù)的學習樣本。所述學習樣本收集部可依據(jù)所述已知數(shù)據(jù)被分類成的所述類別的數(shù)目與所述已知數(shù)據(jù)未被分類成的所述類別的數(shù)目的比率,來確定由從所述未知數(shù)據(jù)中提取的數(shù)據(jù)形成的學習樣本的數(shù)目與由從所述已知數(shù)據(jù)中提取的數(shù)據(jù)形成的學習樣本的數(shù)目的比率。所述信息處理裝置可進一步包括維度壓縮部,所述維度壓縮部對所述輸出特征量進行維度壓縮。所述類別分類部可基于由所述維度壓縮部進行了維度壓縮的所述輸出特征量來對所述數(shù)據(jù)進行分類。另外,根據(jù)本發(fā)明的另一個實施例,提供了一種信息處理方法,所述信息處理方法包括以下步驟生成這樣的未知數(shù)據(jù)池在包含在數(shù)據(jù)群中并具有在特征量空間中表示的特征量的數(shù)據(jù)當中,所述未知數(shù)據(jù)池包含應被分類成的類別未知的未知數(shù)據(jù);從所述未知數(shù)據(jù)池中隨機地提取一個中心數(shù)據(jù);提取在所述特征量空間中具有位于所述中心數(shù)據(jù)在所述特征量空間中的特征量附近的特征量的鄰近數(shù)據(jù),其中以所述鄰近數(shù)據(jù)在所述特征量空間中的所述特征量距所述中心數(shù)據(jù)在所述特征量空間中的所述特征量的距離的升序來提取所述鄰近數(shù)據(jù),直到所述鄰近數(shù)據(jù)的數(shù)目成為預定數(shù)目為止;并收集多個學習樣本,每個學習樣本包含已被提取的所述中心數(shù)據(jù)和所述鄰近數(shù)據(jù);通過使用已被收集到的所述多個學習樣本來生成多個分類器;對于所述數(shù)據(jù)群中所包含的每個所述數(shù)據(jù),將通過將所述數(shù)據(jù)輸入到所述多個分類器并識別所述數(shù)據(jù)而獲得的多個輸出值作為在與所述特征量空間不同的輸出特征量空間中表示的輸出特征量而與所述數(shù)據(jù)相關聯(lián);以及基于所述輸出特征量將所述數(shù)據(jù)群中所包含的每個所述未知數(shù)據(jù)分類成預定數(shù)目的所述類別中的任一個。另外,根據(jù)本發(fā)明的另一個實施例,提供了一種使得計算機執(zhí)行以下處理的程序生成這樣的未知數(shù)據(jù)池在包含在數(shù)據(jù)群中并具有在特征量空間中表示的特征量的數(shù)據(jù)當中,所述未知數(shù)據(jù)池包含應被分類成的類別未知的未知數(shù)據(jù);從所述未知數(shù)據(jù)池中隨機地提取一個中心數(shù)據(jù);提取在所述特征量空間中具有位于所述中心數(shù)據(jù)在所述特征量空間中的特征量附近的特征量的鄰近數(shù)據(jù),其中以所述鄰近數(shù)據(jù)在所述特征量空間中的所述特征量距所述中心數(shù)據(jù)在所述特征量空間中的所述特征量的距離的升序來提取所述鄰近數(shù)據(jù),直到所述鄰近數(shù)據(jù)的數(shù)目成為預定數(shù)目為止;并收集多個學習樣本,每個學習樣本包含已被提取的所述中心數(shù)據(jù)和所述鄰近數(shù)據(jù);通過使用已被收集到的所述多個學習樣本來生成多個分類器;對于所述數(shù)據(jù)群中所包含的每個所述數(shù)據(jù),將通過將所述數(shù)據(jù)輸入到所述多個分類器并識別所述數(shù)據(jù)而獲得的多個輸出值作為在與所述特征量空間不同的輸出特征量空間中表示的輸出特征量而與所述數(shù)據(jù)相關聯(lián);以及基于所述輸出特征量將所述數(shù)據(jù)群中所包含的每個所述未知數(shù)據(jù)分類成預定數(shù)目的所述類別中的任一個。根據(jù)上面說明的本發(fā)明的實施例,有可能提高包含沒有學習數(shù)據(jù)的類別的分類的精度。
圖1是示出根據(jù)本發(fā)明的實施例的信息處理裝置的功能配置的框圖;圖2是說明根據(jù)該實施例的數(shù)據(jù)群的圖;圖3是說明根據(jù)該實施例的未知數(shù)據(jù)在特征量空間中的特征量的圖;圖4是逐類別地說明根據(jù)該實施例的未知數(shù)據(jù)在特征量空間中的特征量的圖;圖5是示出根據(jù)該實施例的一系列處理程序的流程圖;圖6是示出根據(jù)該實施例的生成數(shù)據(jù)池的處理的圖;圖7是示出根據(jù)該實施例的收集學習樣本的處理的圖;圖8是示出根據(jù)該實施例的生成分類器的處理的圖;圖9是示出根據(jù)該實施例的由分類器進行的已知數(shù)據(jù)的分類的圖;圖10是示出根據(jù)該實施例的由分類器進行的未知數(shù)據(jù)的分類的圖;圖11是示出根據(jù)該實施例的獲取輸出特征量的處理的圖;圖12是說明根據(jù)該實施例的未知數(shù)據(jù)在輸出特征量空間中的輸出特征量的圖;圖13是逐類別地說明根據(jù)該實施例的未知數(shù)據(jù)在輸出特征量空間中的輸出特征量的圖;圖14是說明在本發(fā)明的實施例的變形例中意圖要處理的數(shù)據(jù)的配置的圖。
具體實施例方式下面參照附圖詳細說明本發(fā)明的優(yōu)選實施例。注意,在本說明書和附圖中,將具有實質(zhì)上相同的功能和結(jié)構(gòu)的結(jié)構(gòu)元件標以相同的附圖標記,并省略這些結(jié)構(gòu)元件的重復說明。注意,說明將按以下順序進行。1.本發(fā)明的實施例1-1.信息處理裝置的配置1-2.分類處理2.變形例3.總結(jié)<1.本發(fā)明的實施例〉(1-1.信息處理裝置的配置)首先,參照圖1說明根據(jù)本發(fā)明的實施例的信息處理裝置的配置。圖1是示出根據(jù)本發(fā)明的實施例的信息處理裝置100的功能配置的框圖。參照圖 1,信息處理裝置100包括數(shù)據(jù)池生成部110、學習樣本收集部120、分類器生成部130、輸出特征量獲取部140、維度壓縮部150、類別分類部160和存儲部170。注意,如后面說明的那樣,信息處理裝置100可具有不包含維度壓縮部150的配置。在信息處理裝置100的上述功能結(jié)構(gòu)元件中,數(shù)據(jù)池生成部110、學習樣本收集部 120、分類器生成部130、輸出特征量獲取部140、維度壓縮部150和類別分類部160可利用包含例如集成電路的電路配置以硬件來實施,或是通過由CPU(中央處理單元)執(zhí)行存儲在構(gòu)成存儲部170的存儲裝置或可移動存儲介質(zhì)中的程序、以軟件來實施。在存儲部170中, 按需要組合地實施有ROM(只讀存儲器)和RAM(隨機存取存儲器)等存儲裝置、以及光盤、 磁盤和半導體存儲器等可移動存儲介質(zhì)。信息處理裝置100將存儲在存儲部170中的數(shù)據(jù)群中所包含的數(shù)據(jù)分類成預定數(shù)目的類別中的任一個。此處,每個數(shù)據(jù)具有表示數(shù)據(jù)的特征的特征量。特征量被表示在特征量空間中。例如,特征量是多維度向量,特征量空間是特征量的向量被表示于的向量空間。 在數(shù)據(jù)群中,包含應被分類成的類別未知的未知數(shù)據(jù)。在數(shù)據(jù)群中,還可包含應被分類成的類別已知的已知數(shù)據(jù)。另外,類別都是已基于某種標準將數(shù)據(jù)分類成的集合,并且具有用于將類別彼此區(qū)分的標簽。數(shù)據(jù)池生成部110生成包含數(shù)據(jù)群中所包含的數(shù)據(jù)的數(shù)據(jù)池。具體地,數(shù)據(jù)池生成部110生成包含未知數(shù)據(jù)的未知數(shù)據(jù)池和包含已知數(shù)據(jù)的已知數(shù)據(jù)池。此處,未知數(shù)據(jù)池是包含全部未知數(shù)據(jù)的單個數(shù)據(jù)池。另一方面,已知數(shù)據(jù)池具有與類別的標簽相同的標簽,且該已知數(shù)據(jù)池中包含被分類成該類別的已知數(shù)據(jù)。注意,在數(shù)據(jù)群中沒有已知數(shù)據(jù)的情況下,數(shù)據(jù)池生成部110僅生成未知數(shù)據(jù)池。學習樣本收集部120從數(shù)據(jù)池生成部110所生成的數(shù)據(jù)池中提取預定數(shù)目的數(shù)據(jù)作為學習樣本,并收集多個學習樣本。從未知數(shù)據(jù)池中,通過隨機采樣和最鄰近搜索來收集學習樣本。具體地,學習樣本收集部120從未知數(shù)據(jù)池中隨機地提取一個數(shù)據(jù),并設該數(shù)據(jù)是中心數(shù)據(jù)。接著,學習樣本收集部120提取在特征量空間中具有位于中心數(shù)據(jù)在特征量空間中的特征量附近的特征量的鄰近數(shù)據(jù),其中以鄰近數(shù)據(jù)在特征量空間中的特征量距中心數(shù)據(jù)在特征量空間中的特征量的距離的升序來提取鄰近數(shù)據(jù),直到鄰近數(shù)據(jù)的數(shù)目成為預定數(shù)目為止。將這樣提取的中心數(shù)據(jù)和鄰近數(shù)據(jù)設定為學習樣本。另一方面,從已知數(shù)據(jù)池中,根據(jù)數(shù)據(jù)池的標簽來收集學習樣本。具體地,學習樣本收集部120從具有同一個標簽的已知數(shù)據(jù)池中隨機地提取預定數(shù)目的數(shù)據(jù),并將這樣提取的數(shù)據(jù)設定為學習樣本。分類器生成部130通過使用學習樣本收集部120所收集到的多個學習樣本來生成多個分類器。分類器針對輸入數(shù)據(jù)輸出用于區(qū)分某個分類與其它分類的值,比如距識別超平面的距離或概率。作為分類器,可使用區(qū)分兩個分類的二類別分類器。注意,待由分類器生成部130所生成的分類器來識別的對象將在后面說明。輸出特征量獲取部140將數(shù)據(jù)群中所包含的數(shù)據(jù)輸入到由分類器生成部130所生成的多個分類器中。此外,輸出特征量獲取部140還獲取由于將數(shù)據(jù)輸入到多個分類器中并識別該數(shù)據(jù)而獲得的多個輸出值,并將所獲得的輸出值作為輸出特征量而與數(shù)據(jù)相關聯(lián)。此處,輸出特征量是在與數(shù)據(jù)原來具有的特征量的特征量空間不同的輸出特征量空間中表示的特征量。例如,輸出特征量是具有與分類器數(shù)目相等的維度的向量,而輸出特征量空間是輸出特征量的向量被表示于的向量空間。由于輸出特征量是通過在原始特征量空間中的學習而生成的,因而輸出特征量具有適合于分類的表達。另外,通過設定待由分類器生成部130生成的分類器的數(shù)目,可將輸出特征量的維度設定成低于數(shù)據(jù)原來具有的特征量的維度。在已被輸出特征量獲取部140獲取并且已與數(shù)據(jù)相關聯(lián)的輸出特征量將被進一步降低維度的情況下,提供維度壓縮部150。維度壓縮部150通過使用例如PCA 或ICA等算法對輸出特征量進行維度壓縮。此處,例如假設數(shù)據(jù)原來具有的特征量是 “Bag-of-keypoints”特征量。由于“Bag-of-keypoints”特征量是在高維度稀疏特征量空間中表示的特征量,因而當試圖以原樣狀態(tài)進行維度壓縮處理時,存在因受數(shù)據(jù)分散或失效值的影響而僅留下無意義的成分的風險。也即,存在“Bag-of-keypoints”特征量以不適合于分類的形式被降低維度的風險。另一方面,由于輸出特征量如上所述那樣包括從分類器獲得的輸出值,因而可不受到數(shù)據(jù)分散或失效值的直接影響而進行維度壓縮處理。類別分類部160基于輸出特征量將數(shù)據(jù)群中所包含的未知數(shù)據(jù)分類成預定數(shù)目的類別中的任一個。此處,對于未知數(shù)據(jù)的分類,可使用例如聚類分析等無監(jiān)管分類的技術。由于輸出特征量是通過在原始特征量空間中的學習而生成的,因而輸出特征量具有適合于分類的表達。因此,類別分類部160中的無監(jiān)管分類的精度與使用原始特征量的無監(jiān)管分類相比可得以提高。此外,如上所述,在輸出特征量的維度低于數(shù)據(jù)原來具有的特征量的維度的情況下,類別分類部160中的無監(jiān)管分類的精度可進一步提高。另外,在數(shù)據(jù)群中包含已知數(shù)據(jù)的情況下,輸出特征量包括根據(jù)已知數(shù)據(jù)的學習樣本生成的、從分類器獲得的輸出值。在這種情況下,實際分類的重要特征反映在輸出特征量上,由此,類別分類部160 中的有監(jiān)管分類的精度可進一步提高。存儲部170存儲了信息處理裝置100中的處理所必需的數(shù)據(jù)。例如,在存儲部170 中,存儲有在信息處理裝置100中成為分類對象的數(shù)據(jù)群。另外,在存儲部170中,還可暫時地存儲有在信息處理裝置100的各部中進行的處理中生成的數(shù)據(jù)。此外,在以軟件實施信息處理裝置100的各功能的情況下,存儲部170可暫時或永久地存儲可通過被CPU執(zhí)行來實現(xiàn)各自功能的程序。信息處理裝置100除了以上說明的結(jié)構(gòu)元件以外,還可按需要包括諸如用于輸入/輸出包含數(shù)據(jù)群和分類結(jié)果的信息的USB (通用串行總線)或LAN(局域網(wǎng))等通信接口 ;以及用于在執(zhí)行處理時等獲取用戶的指令的鍵盤或鼠標器等輸入裝置的結(jié)構(gòu)元件(未圖示)。(1-2.分類處理)(成為對象的數(shù)據(jù))接下來,參照圖2 4說明根據(jù)本發(fā)明的實施例的成為分類處理的對象的數(shù)據(jù)。注意,下面作為一例而說明這樣的情況成為分類對象的數(shù)據(jù)是包含某種物體的圖像數(shù)據(jù),而數(shù)據(jù)被分類成的類別是圖像中所包含的物體。然而,只要數(shù)據(jù)具有特征量,本發(fā)明的實施例就還可應用于圖像數(shù)據(jù)以外的數(shù)據(jù),例如聲音數(shù)據(jù)或運動圖像數(shù)據(jù)。另外,下面作為一例而說明這樣的情況數(shù)據(jù)所具有的特征量是“Bag-of-keypoints”特征量。然而,只要特征量被表示在特征量空間中,本發(fā)明的實施例就還可應用于任何其它特征量。特別地,在數(shù)據(jù)所具有的特征量的維度高的情況下,可獲得比應用本發(fā)明的實施例的情況更有利的效果。圖2是說明根據(jù)本發(fā)明的實施例的數(shù)據(jù)群G的圖。參照圖2,數(shù)據(jù)群G包含已知數(shù)據(jù)和未知數(shù)據(jù)。注意,如上所述,數(shù)據(jù)群G不一定包含已知數(shù)據(jù)。在圖示的例子中,已知數(shù)據(jù)被分類成分別具有標簽“相機”、“豹”和“手表”的類別。例如,被分類成具有標簽“相機”的類別的數(shù)據(jù)在圖中被表達為相機1、相機2、...等等。通過某種方法知道這些數(shù)據(jù)是各自包含相機的圖像數(shù)據(jù)。同樣地,被分類成具有標簽“豹”的類別的數(shù)據(jù)被表達為豹1、豹2、...等等,而被分類成具有標簽“手表”的類別的數(shù)據(jù)被表達為手表1、手表2、...等等。在圖示的例子中,未知數(shù)據(jù)表示未被分類成上述三個類別中的任一個的數(shù)據(jù)。未知數(shù)據(jù)在圖中被表達為未知1、未知2、未知3、...等等。雖然未知數(shù)據(jù)在該時刻未被分類成類別,但卻基于某種標準而被決定要分類成“盆景”、“杯子”、“筆記本電腦”、“渡船”、“熊貓”和“向日葵”這六個類別中的任一個。因此,附圖的例子中所示的數(shù)據(jù)群G中所包含的數(shù)據(jù)被分類成包括已知的三個類別在內(nèi)的共9個類別中的任一個。包含已知數(shù)據(jù)和未知數(shù)據(jù)的數(shù)據(jù)群G的數(shù)據(jù)具有特征量。此處,例如在已知數(shù)據(jù)中,在被分類成具有“相機”標簽的類別的數(shù)據(jù)的特征量上,反映了包含相機的圖像的特征。 同樣地,在被分類成具有“豹”標簽的類別的數(shù)據(jù)的特征量上,反映了包含豹的圖像的特征。 另外,在被分類成具有“手表”標簽的類別的數(shù)據(jù)的特征量上,反映了包含手表的圖像的特征。另一方面,對于未知數(shù)據(jù)被分類成的“盆景”、“杯子”、“筆記本電腦”、“渡船”、“熊貓”和 “向日葵”這六個類別,不知道被分類成各類別的數(shù)據(jù)具有什么樣的特征量傾向。此處,該未知數(shù)據(jù)的特征量將參照圖3和4作進一步說明。圖3是說明根據(jù)本發(fā)明的實施例的未知數(shù)據(jù)在特征量空間Sl中的特征量的圖。圖 4是逐類別地說明根據(jù)本發(fā)明的實施例的未知數(shù)據(jù)在特征量空間Sl中的特征量的圖。參照圖3,示出了數(shù)據(jù)群G中所包含的未知數(shù)據(jù)的特征量被表示于的特征量空間Si。參照圖 4,示出了對被分類成“盆景”、“杯子”、“筆記本電腦”、“渡船”、“熊貓”和“向日葵”這六個類別的未知數(shù)據(jù)各自的特征量進行表示的特征量空間Sla Slf。注意,在圖3和4中,使用 Sammon映射將各特征量投影到二維中。如圖3和4所示,被分類成各類別的未知數(shù)據(jù)的各特征量對于每個類別以某種程度的傾向分布在特征量空間Sl中。然而,例如,在特征量空間Sle中表示的“熊貓”類別和在特征量空間Slf中表示的“向日葵”類別以它們的大多數(shù)部分交疊的方式顯示在特征量空間Sl中。因而,在精度低的分類中,難以將未知數(shù)據(jù)精確地分類成那些類別。此處,由于未知數(shù)據(jù)所具有的特征量是作為高維度特征量的“Bag-of-keypoints”特征量,因而在使用未知數(shù)據(jù)的特征量來進行聚類分析等無監(jiān)管分類的情況下,因上述維度詛咒的影響而使分類的精度降低,且變得難以將未知數(shù)據(jù)精確地分類成各類別。在這種數(shù)據(jù)的情況下,根據(jù)本發(fā)明的實施例的數(shù)據(jù)分類處理尤其獲得有利的效果。下面說明數(shù)據(jù)分類處理的各步驟的處理。(數(shù)據(jù)池生成處理)接下來,參照圖5 13說明根據(jù)本發(fā)明的實施例的分類的一系列處理程序。圖5 是示出根據(jù)本發(fā)明的實施例的一系列處理程序的流程圖。下面,參照圖5所示的流程圖并在必要時還參照其它附圖來說明在信息處理裝置100中進行的分類處理。參照圖5,首先,數(shù)據(jù)池生成部110生成包含數(shù)據(jù)群G中的數(shù)據(jù)的數(shù)據(jù)池(步驟 S101)o此處,生成數(shù)據(jù)池的處理將參照圖6來說明。圖6是示出根據(jù)本發(fā)明的實施例的生成數(shù)據(jù)池P的處理的圖。參照圖6,生成這樣的未知數(shù)據(jù)池Pu 在數(shù)據(jù)群G中所包含的數(shù)據(jù)當中,未知數(shù)據(jù)池Pu包含應被分類成的類別未知的未知數(shù)據(jù)。在附圖所示的例子中,包含向日葵的圖像數(shù)據(jù)、包含杯子的圖像數(shù)據(jù)和包含盆景的圖像數(shù)據(jù)作為未知數(shù)據(jù)而被包含在未知數(shù)據(jù)池Pu中。盡管在附圖所示的例子中存在一個未知數(shù)據(jù)池Pu,但也可生成多個未知數(shù)據(jù)池Pu。此外,在數(shù)據(jù)群G中存在應被分類成的類別已知的已知數(shù)據(jù)的情況下,生成包含已知數(shù)據(jù)的已知數(shù)據(jù)池Pk。已知數(shù)據(jù)池Pk具有其中所包含的已知數(shù)據(jù)被分類成的類別的標簽。在附圖所示的例子中,生成了包含被分類成具有“相機”標簽的類別的已知數(shù)據(jù)的已知數(shù)據(jù)池Pkl (其標簽為“相機”)、包含被分類成具有“豹”標簽的類別的已知數(shù)據(jù)的已知數(shù)據(jù)池Pk2 (其標簽為“豹”)和包含被分類成具有“手表”標簽的類別的已知數(shù)據(jù)的已知數(shù)據(jù)池Pk3 (其標簽為“手表”)。(學習樣本的收集處理)再次參照圖5,隨后,學習樣本收集部120收集數(shù)據(jù)池中所包含的數(shù)據(jù)作為學習樣本(步驟S103)。此處,收集學習樣本的處理將參照圖7來說明。圖7是示出根據(jù)本發(fā)明的實施例的收集學習樣本L的處理的圖。參照圖7,從未知數(shù)據(jù)池Pu中收集學習樣ILn,并從已知數(shù)據(jù)池Pkl中收集學習樣本Lp學習樣本收集可通過重復以下處理來進行提取任一數(shù)據(jù)池中所包含的預定數(shù)目的數(shù)據(jù),該預定數(shù)目足以在隨后的處理中生成分類器;并將所提取的預定數(shù)目的數(shù)據(jù)設定為一個學習樣本L。來自未知數(shù)據(jù)池Pu的學習樣本Ln是通過限制特征量空間Sl中的距離而收集到的。首先,從未知數(shù)據(jù)池Pu中隨機地提取一個中心數(shù)據(jù)。該中心數(shù)據(jù)可從未知數(shù)據(jù)池Pu中的任何地方提取。接著,提取相對于中心數(shù)據(jù)的鄰近數(shù)據(jù)。此處,鄰近數(shù)據(jù)在特征量空間Sl 中具有位于中心數(shù)據(jù)在特征量空間Si中的特征量附近的特征量。以鄰近數(shù)據(jù)在特征量空間Si中的特征量距中心數(shù)據(jù)在特征量空間Sl中的特征量的距離的升序來提取鄰近數(shù)據(jù), 直到包括中心數(shù)據(jù)在內(nèi)的所提取的數(shù)據(jù)的數(shù)目成為預定數(shù)目為止。對于鄰近數(shù)據(jù)的提取, 可使用最鄰近搜索的算法。盡管通過這種處理從未知數(shù)據(jù)池Pu中收集到的學習樣本Ln中所包含的一群數(shù)據(jù)在特征量空間Sl中的位置是隨機的,但卻具有這樣的特征各數(shù)據(jù)在特征量空間Sl中彼此位置鄰近。另一方面,來自已知數(shù)據(jù)池Pkl的學習樣本L1是通過限制數(shù)據(jù)池的標簽而收集到的。此處,從已知數(shù)據(jù)池Pkl中僅隨機地提取預定數(shù)目的數(shù)據(jù)。從已知數(shù)據(jù)池Pkl中收集到的學習樣本L1中所包含的一群數(shù)據(jù)僅由已知數(shù)據(jù)池Pkl中所包含的數(shù)據(jù)構(gòu)成,而已知數(shù)據(jù)池Pk2或Pk3等其它數(shù)據(jù)池或未知數(shù)據(jù)池Pu中所包含的數(shù)據(jù)則不被包括。在數(shù)據(jù)群G中存在已知數(shù)據(jù)的情況下,由從未知數(shù)據(jù)池Pu中提取的數(shù)據(jù)形成的學習樣本L的數(shù)目與由從已知數(shù)據(jù)池Pk中提取的數(shù)據(jù)形成的學習樣本L的數(shù)目的比率可依據(jù)已知數(shù)據(jù)被分類成的類別的數(shù)目與已知數(shù)據(jù)未被分類成的類別的數(shù)目的比率來確定。對附圖中所示的例子的情況將作具體的說明。在附圖中所示的例子中,預定數(shù)目的類別的數(shù)目是九個,且其中三個類別(“相機”、“豹”和“手表”)是已知數(shù)據(jù)被分類成的類別,其它六個類別(“盆景”、“杯子”、“筆記本電腦”、“渡船”、“熊貓”和“向日葵”)是已知數(shù)據(jù)未被分類成的類別。在這種情況下,學習樣本L被收集的比例是從已知數(shù)據(jù)池Pkl收集一個、從已知數(shù)據(jù)池Pk2收集一個、從已知數(shù)據(jù)池Pk3收集一個、并從未知數(shù)據(jù)池Pu收集六個。也即,在從已知數(shù)據(jù)池Pkl收集10個學習樣本L的情況下,還從已知數(shù)據(jù)池Pk2收集10個學習樣本 L、還從已知數(shù)據(jù)池Pk3收集10個學習樣本L、并從未知數(shù)據(jù)池Pu收集60個學習樣本L。通過在隨后的步驟中使用這樣收集到的學習樣本L來生成分類器,可生成與所有類別都無偏倚地相容的多個分類器,并可無偏倚地提高各類別的分類精度。(分類器生成處理)再次參照圖5,隨后,分類器生成部130根據(jù)已被收集到的多個學習樣本L來生成多個分類器(步驟S105)。此處,生成分類器的處理將參照圖8 10來說明。圖8是示出根據(jù)本發(fā)明的實施例的生成分類器D的處理的圖。參照圖8,使用學習樣本L1和學習樣本L2生成分類器D1,使用學習樣本L3和學習樣本L4生成分類器D2,同樣地,直到使用學習樣本Lim和學習樣本Ln生成分類器Dn為止,共計生成η個分類器。此處,作為分類器D的一例,使用了二類別分類器(一對一分類器)。二類別分類器針對輸入數(shù)據(jù)輸出用于將該數(shù)據(jù)分成兩個分類的實數(shù)值,例如距識別超平面的距離或概率。為了生成這種二類別分類器,可使用諸如SVM的有監(jiān)管分類的算法。在步驟S103中,由學習樣本收集部120收集用于生成分類器D的多個學習樣本L。希望分類器生成部130無偏倚地使用多個學習樣本L并生成多個分類器D。在上例中,成為分類器D的識別對象的兩個分類是由據(jù)以生成分類器D的兩個學習樣本所給予的。例如,假設從已知數(shù)據(jù)池Pkl中收集學習樣IL1并從已知數(shù)據(jù)池Pk2中收集學習樣本L2。在這種情況下,分類器D1將已知數(shù)據(jù)池Pkl中所包含的數(shù)據(jù)和已知數(shù)據(jù)池 Pk2中所包含的數(shù)據(jù)設定為兩個分類,識別輸入數(shù)據(jù)并輸出用于將該數(shù)據(jù)分成這兩個分類的值。也即,分類器D1區(qū)分被分類成具有“相機”標簽的類別的已知數(shù)據(jù)與被分類成具有“豹” 標簽的類別的已知數(shù)據(jù)。另外,在另一例中,假設從未知數(shù)據(jù)池Pu中收集學習樣本Lim并還從未知數(shù)據(jù)池Pu 中收集學習樣本Ln。在這種情況下,在未知數(shù)據(jù)池Pu中所包含的未知數(shù)據(jù)當中,分類器Dn 將在特征量空間Sl中某處彼此靠近的一群未知數(shù)據(jù)和在特征量空間Sl中上述群的位置以外的某處彼此靠近的一群未知數(shù)據(jù)設定為兩個分類,并輸出用于將輸入數(shù)據(jù)分成這兩個分類的值。也即,分類器仏區(qū)分以下兩種未知數(shù)據(jù)盡管在該時刻未被分類成類別、但卻被認為由于被表示在特征量空間Sl中而彼此具有某種相似性的未知數(shù)據(jù);盡管同樣在該時刻未被分類成類別、但卻被認為由于被表示在特征量空間Sl中而彼此具有上述未知數(shù)據(jù)之間的相似性以外的某種相似性的未知數(shù)據(jù)。這種分類器D的工作將參照圖9和10進一步說明。 圖9是示出根據(jù)本發(fā)明的實施例的由分類器D進行的已知數(shù)據(jù)的分類的圖。參照圖9,分類器Da是通過將被分類成具有“盆景”標簽的類別的預定數(shù)目的已知數(shù)據(jù)用作學習樣本、并且將被分類成具有“豹”標簽的類別的預定數(shù)目的已知數(shù)據(jù)用作學習樣本而生成的。因而,被分類成具有“盆景”標簽的類別的數(shù)據(jù)的某種特征點以及被分類成具有“豹”標簽的類別的數(shù)據(jù)的某種特征點被反映在分類器Da中。因此,分類器Da區(qū)別被分類成具有 “盆景”標簽的類別的數(shù)據(jù)與被分類成具有“豹”標簽的類別的數(shù)據(jù)。例如,在被分類成具有 “盆景”標簽的類別的已知數(shù)據(jù)被輸入的情況下,分類器Da輸出表明輸入數(shù)據(jù)被分類成“盆景”的值。另外,在未被分類成具有“盆景”標簽或“豹”標簽的類別中的任一個的未知數(shù)據(jù)被輸入的情況下,分類器Da輸出表明輸入數(shù)據(jù)距“盆景”和“豹”中的哪一個更近、以及輸入數(shù)據(jù)距“盆景”或“豹”有多近的值。 圖10是示出根據(jù)本發(fā)明的實施例的由分類器D進行的未知數(shù)據(jù)的分類的圖。參照圖10,分類器Db是通過將位于特征量空間Sl中某個位置附近的預定數(shù)目的未知數(shù)據(jù)(在附圖所示的例子中是向日葵、熊貓等)用作學習樣本、并且將位于特征量空間Sl中另一位置附近的預定數(shù)目的未知數(shù)據(jù)(在附圖所示的例子中是相機、杯子等)用作學習樣本而生成的。因而,位于特征量空間Sl中某位置附近的數(shù)據(jù)的某種特征點以及位于特征量空間Sl 中另一位置附近的數(shù)據(jù)的某種特征點被反映在分類器Db上。因此,分類器Db區(qū)分位于特征量空間Sl中某點附近的數(shù)據(jù)與位于特征量空間Sl中另一點附近的數(shù)據(jù)。例如,在特征量空間Sl中位于與圖中左側(cè)的組中所包含的向日葵和熊貓等數(shù)據(jù)的位置靠近的位置處的數(shù)據(jù)被輸入的情況下,分類器Db輸出表明輸入數(shù)據(jù)靠近圖中左側(cè)的組的值。這樣,分類器D針對在特征量空間Sl中表示的輸入數(shù)據(jù)而輸出用于對要基于某種標準將數(shù)據(jù)分類成的兩個分類進行區(qū)分的值。在圖9所示的例子中,分類器Da基于輸入數(shù)據(jù)距類別“盆景”和“豹”中的哪一個更近這一標準對輸入數(shù)據(jù)進行分類。也即,來自分類器Da的輸出值是表明輸入數(shù)據(jù)距“盆景”和“豹”中的哪一個更近的實數(shù)值。另一方面,在圖10所示的例子中,分類器Db基于輸入數(shù)據(jù)距兩個群的未知數(shù)據(jù)各自所位于的特征量空間Sl中的位置中的哪一個更近這一標準對輸入數(shù)據(jù)進行分類。也即,來自分類器Db的輸出值是表明輸入數(shù)據(jù)距在特征量空間Sl中在各群內(nèi)具有某種相似性的數(shù)據(jù)的兩個群中的哪一個更近的實數(shù)值。(輸出特征量獲取處理)再次參照圖5,隨后,輸出特征量獲取部140通過將數(shù)據(jù)群G中的數(shù)據(jù)輸入到多個分類器D中的每一個中并識別該數(shù)據(jù)來獲取輸出特征量(步驟S107)。此處,獲取輸出特征量的處理將參照圖11 13來說明。圖11是示出根據(jù)本發(fā)明的實施例的獲取輸出特征量V。ut的處理的圖。參照圖11,
輸出特征量v。ut包括作為元素的η個輸出值R1、R2.....to。輸出值R1、R2.....Rn是由于
將數(shù)據(jù)群G中所包含的一個數(shù)據(jù)輸入到分類器生成部130所生成的η個分類器Dl、D2.....
Dn中的每一個中并識別該數(shù)據(jù)而輸出的。輸出特征量獲取部140對于數(shù)據(jù)群G中所包含的每個數(shù)據(jù),獲取輸出特征量V。ut并將輸出特征量V。ut與該數(shù)據(jù)相關聯(lián)。輸出特征量V。ut是具有與分類器D的數(shù)目相等的維度的向量。因而,通過設定分類器生成部130所生成的分類器D的數(shù)目,可設定輸出特征量V。ut的維度。因此,例如,在數(shù)據(jù)所具有的原始特征量是作為高維度特征量的“Bag-of-keypoints”特征量的情況下,通過將分類器D的數(shù)目設定成小于特征量的維度,能以比原始維度低的維度獲取輸出特征量V。ut。因此,在未知數(shù)據(jù)的聚類分析等無監(jiān)管分類中,可抑制精度降低。此處,進一步說明作為輸出特征量V。ut的元素的輸出值R。例如,輸出特征量V。ut 包括分類器Dl的輸出值R1。如參照圖8所說明的那樣,分類器Dl是通過使用從具有“相機”標簽的已知數(shù)據(jù)池Pkl中提取的學習樣本L1和從具有“豹”標簽的已知數(shù)據(jù)池Pk2中提取的學習樣本L2而生成的二類別分類器。因而,分類器Dl的輸出值Rl是表明輸入數(shù)據(jù)距相機和豹中的哪一個更近的實數(shù)值。另外,輸出特征量V。ut包括分類器Dn的輸出值to。如參照圖8所說明的那樣,分類器Dn是通過使用包含在未知數(shù)據(jù)中并且包括在特征量空間Sl中某處彼此靠近的一群未知數(shù)據(jù)的學習樣本LN_i、以及同樣包含在未知數(shù)據(jù)池Pu中并且包括在特征量空間Sl中上述群的位置以外的某處彼此靠近的一群未知數(shù)據(jù)的學習樣本Ln而生成的二類別分類器。因而,分類器Dn的輸出值to是表明輸入數(shù)據(jù)距在特征量空間Sl中在各群內(nèi)具有某種相似性的數(shù)據(jù)的兩個群中的哪一個更近的實數(shù)值。這樣,輸出特征量V-將表明數(shù)據(jù)距在各群內(nèi)具有某種相似性的數(shù)據(jù)的兩個群中的哪一個更近的輸出值R設定為元素。此處,在通過包含從未知數(shù)據(jù)中提取的學習樣本L 而生成的分類器D中,某種相似性是在特征量空間Sl中表示數(shù)據(jù)的情況下特征量空間Sl 中的距離的遠近。最初從未知數(shù)據(jù)中提取的學習樣本的數(shù)據(jù)是從未知數(shù)據(jù)當中隨機地提取的。因而,當從未知數(shù)據(jù)中提取的學習樣本L的數(shù)目足夠大時,通過包含從未知數(shù)據(jù)中提取的學習樣本L而生成的多個分類器D的多個輸出值R可在某種程度上全面地反映未知數(shù)據(jù)在特征量空間Sl中的分布。另外,在通過包含從已知數(shù)據(jù)中提取的學習樣本L而生成的分類器D中,某種相似性是已知數(shù)據(jù)被分類成的類別所具有的給定標簽。注意,如上所述,在本發(fā)明的實施例中, 已知數(shù)據(jù)不一定存在。然而,在已知數(shù)據(jù)存在的情況下,有可能比如像“數(shù)據(jù)距相機和豹中的哪一個更近”那樣、從已知數(shù)據(jù)中取出在實際分類中基于重要特征而分類的結(jié)果,并將該結(jié)果包含在輸出特征量v。ut中作為輸出值R。由此,在已知數(shù)據(jù)和未知數(shù)據(jù)混在一起的情況下,能以比僅以未知數(shù)據(jù)為對象的無監(jiān)管分類的情況更高的精度來進行未知數(shù)據(jù)的分類。圖12是說明根據(jù)本發(fā)明的實施例的未知數(shù)據(jù)在輸出特征量空間S2中的輸出特征量v。ut的圖。圖13是逐類別地說明根據(jù)本發(fā)明的實施例的未知數(shù)據(jù)在輸出特征量空間S2 中的輸出特征量V。ut的圖。參照圖12,示出了數(shù)據(jù)群G中所包含的未知數(shù)據(jù)的輸出特征量 V。ut被表示于的輸出特征量空間S2。參照圖13,示出了對被分類成“盆景”、“杯子”、“筆記本電腦”、“渡船”、“熊貓”和“向日葵”這六個類別的未知數(shù)據(jù)各自的輸出特征量V。ut進行表示的輸出特征量空間Sb S2f。注意,在圖12和13中,使用Sammon映射將各輸出特征量 Vout投影到二維中。如圖12和13所示,在輸出特征量空間S2中,與特征量空間Sl相比,各類別的輸出特征量v。ut以更偏倚的方式分布。例如,參照輸出特征量空間Sk和輸出特征量空間S2f, 在特征量空間Sl中以它們的大多數(shù)部分交疊的方式顯示的“熊貓”類別和“向日葵”類別各自在不同方向上以偏倚的方式分布。這樣,輸出特征量空間S2是與特征量空間Sl不同的特征量空間。因此,在輸出特征量空間S2中分布的各數(shù)據(jù)的輸出特征量V。ut可以以與在特征量空間Sl中分布的各數(shù)據(jù)的特征量不同的傾向來分布。(輸出特征量維度壓縮處理)再次參照圖5,隨后,維度壓縮部150對輸出特征量V。ut進行維度壓縮(步驟 S109)。該步驟是根據(jù)需要執(zhí)行的。也即,步驟S109是在進一步降低在步驟S107中生成的輸出特征量V。ut的維度的情況下執(zhí)行的。例如,為了將未知數(shù)據(jù)在特征量空間Sl中的分布全面地反映在輸出值R上,在將在步驟S105中生成的分類器D的數(shù)目設定得大的情況下, 輸出特征量V。ut的維度變高。在這種情況下,通過在步驟S109中對輸出特征量V。ut進行維度壓縮,可在未知數(shù)據(jù)的聚類分析等無監(jiān)管分類中抑制精度的降低。對于步驟S109中的維度壓縮,可使用例如PCA、ICA或多維度縮放(MDS)等算法。 此處,作為輸出特征量V。ut的元素的分類器D的輸出值R是用于將數(shù)據(jù)分成兩個分類的實數(shù)值,例如距識別超平面的距離或概率。因而,即使當PCA、ICA或MDS等算法被用于輸出特征量V。ut的維度壓縮時,該維度壓縮也很難可能被數(shù)據(jù)所具有的原始特征量中所包含的失
14效值、數(shù)據(jù)分散等所影響。另外,此處,在數(shù)據(jù)群G中存在已知數(shù)據(jù)的情況下,當要受到維度壓縮的輸出特征量V。ut中包含了通過包含已知數(shù)據(jù)而生成的分類器D的輸出值R時,可通過在實際分類中捕捉重要特征來進行維度壓縮。(基于輸出特征量的數(shù)據(jù)分類處理)隨后,類別分類部160基于各數(shù)據(jù)的輸出特征量V。ut對數(shù)據(jù)群G中所包含的未知數(shù)據(jù)進行分類(步驟sill)。對于未知數(shù)據(jù)的分類,盡管可使用聚類分析等無監(jiān)管分類的技術,但分類的精度比過去提高。這是因為使用了通過在原始特征量空間Sl中的學習而生成的、具有適合于分類的表達的輸出特征量v。ut。另外,還因為數(shù)據(jù)所具有的多維度特征量被轉(zhuǎn)換成被降低維度為與分類器D的數(shù)目相等的數(shù)的輸出特征量V。ut,從而由所謂維度詛咒造成的分類的精度降低可得以抑制。此外,在步驟S109中對輸出特征量V。ut進行維度壓縮的情況下,可進一步降低輸出特征量V。ut的維度,并可進一步提高分類的精度。再者,在數(shù)據(jù)群G中存在已知數(shù)據(jù)的情況下,可將實際分類中的重要特征反映在用于生成輸出特征量 Vout的學習上以及維度壓縮中,并可進一步提高分類的精度。<2.變形例 >接下來,參照圖14說明本發(fā)明的實施例的變形例。注意,下面要說明的、成為對象的數(shù)據(jù)的配置以外的功能配置與上面說明的本發(fā)明的實施例幾乎相同,因而省略其詳細說明。圖14是說明在本發(fā)明的實施例的變形例中意圖要處理的數(shù)據(jù)的配置的圖。參照圖14,意圖要處理的數(shù)據(jù)包括由陰影部分表示的已知數(shù)據(jù)和由其余部分表示的未知數(shù)據(jù)。 此處,已知數(shù)據(jù)被分類成三個類別(具有“相機”標簽的類別、具有“豹”標簽的類別和具有“手表”標簽的類別)中的任一個。在未知數(shù)據(jù)中,除了被分類成上述三個類別以外的類別的數(shù)據(jù)以外,還包含本應被分類成上述三個類別之一但在該時刻被設定為未知數(shù)據(jù)的數(shù)據(jù)。也即,在該變形例中,未知數(shù)據(jù)可被分類成“相機”、“豹”、“手表”、“盆景”、“杯子”、“筆記本電腦”、“渡船”、“熊貓”和“向日葵”這九個類別中的任一個。在這種情況下,還從應被分類成已知數(shù)據(jù)被分類成的類別(“相機”、“豹”和“手表”)的未知數(shù)據(jù)、以與其它未知數(shù)據(jù)相同的方式收集學習樣本L。也即,從這些未知數(shù)據(jù)收集到的學習樣本L是通過限制距離而收集到的。另外,來自已知數(shù)據(jù)的學習樣本是從被辨認為已知數(shù)據(jù)的數(shù)據(jù)(圖中的陰影部分)收集到的。這樣,本發(fā)明的實施例也可應用于包括應進一步被分類成已知數(shù)據(jù)被分類成的類別的未知數(shù)據(jù)在內(nèi)的數(shù)據(jù)的分類的處理。<3.總結(jié)〉在上面說明的本發(fā)明的實施例中,通過使用與數(shù)據(jù)的特征量不同的輸出特征量 Vout,將數(shù)據(jù)群G中所包含的未知數(shù)據(jù)分類成預定數(shù)目的類別中的任一個。此處,輸出特征量 V。ut包含通過使用通過限制各數(shù)據(jù)在數(shù)據(jù)特征量被表示于的特征量空間Sl中的特征量的距離而提取的多個學習樣本L而生成的多個分類器D的輸出值R。憑借這種配置,有可能通過使用通過在特征量空間Sl中的學習而生成的、具有適合于分類的表達的輸出特征量V。ut 來對未知數(shù)據(jù)進行分類,并提高分類的精度。另外,還有可能將高維度特征量的維度降低為與分類器D的數(shù)目相等的數(shù),并進一步提高分類的精度。另外,在本發(fā)明的實施例中,在數(shù)據(jù)群G中包含應被分類成的類別已知的已知數(shù)據(jù)的情況下,可以按如下方式來配置還通過限制被分類成的類別的標簽而從已知數(shù)據(jù)收集學習樣本L。憑借這種配置,有可能生成反映實際分類中的重要特征的分類器D從而使用包含從分類器D輸出的輸出值R的輸出特征量V。ut來進行分類,并進一步提高分類的精度。另外,在本發(fā)明的實施例中,在數(shù)據(jù)群G中存在應被分類成的類別已知的已知數(shù)據(jù)的情況下,可以按如下方式來配置依據(jù)在預定數(shù)目的類別當中已知數(shù)據(jù)被分類成的類別的數(shù)目與已知數(shù)據(jù)未被分類成的類別的數(shù)目的比率,來確定從未知數(shù)據(jù)收集到的學習樣本L與從已知數(shù)據(jù)收集到的學習樣本L的比率。憑借這種配置,有可能使用包含根據(jù)無偏倚地收集到的學習樣本L生成的分類器D的輸出值R的輸出特征量V。ut來進行各類別的分類,并無偏倚地提高各類別的分類精度。另外,在本發(fā)明的實施例中,可以按對輸出特征量V。ut進一步進行維度壓縮這一方式來配置。憑借這種配置,即使當分類器D的數(shù)目被設定得大時也有可能將用于分類的輸出特征量V。ut的維度保持為低,并實現(xiàn)特征量空間Sl中的足夠?qū)W習,同時兼顧分類的精度。本領域的技術人員應當理解取決于設計需求和其它因素,可以進行各種修改、組合、子組合和變更,只要它們落入所附權(quán)利要求或其等價物的范圍以內(nèi)。例如,在上述實施例中,將圖像數(shù)據(jù)用作成為分類對象的數(shù)據(jù),但本發(fā)明的實施例不限于此例。例如,聲音數(shù)據(jù)、運動圖像數(shù)據(jù)或文本數(shù)據(jù)等一切具有特征量的數(shù)據(jù)都可以是適用本發(fā)明的實施例的分類對象。另外,在上述實施例中,作為成為分類對象的數(shù)據(jù)的一例的圖像數(shù)據(jù)所具有的特征量是“Bag-of-keypoints”特征量,但本發(fā)明的實施例不限于此例。例如,特征量也可以是SIFT特征量等其它特征量。另外,在上述實施例中,將二類別分類器用作分類器,但本發(fā)明的實施例不限于此例。例如,也可使用一對其余分類器等其它種類的分類器。本申請包含與在2010年5月27日向日本專利局提交的日本在先申請JP 2010-121272中所公開的主題相關的主題,通過引用將該申請的全部內(nèi)容合并于此。
權(quán)利要求
1.一種信息處理裝置,包括數(shù)據(jù)池生成部,所述數(shù)據(jù)池生成部生成這樣的未知數(shù)據(jù)池在包含在數(shù)據(jù)群中并具有在特征量空間中表示的特征量的數(shù)據(jù)當中,所述未知數(shù)據(jù)池包含應被分類成的類別未知的未知數(shù)據(jù);學習樣本收集部,所述學習樣本收集部執(zhí)行以下處理從所述未知數(shù)據(jù)池中隨機地提取一個中心數(shù)據(jù);提取在所述特征量空間中具有位于所述中心數(shù)據(jù)在所述特征量空間中的特征量附近的特征量的鄰近數(shù)據(jù),其中以所述鄰近數(shù)據(jù)在所述特征量空間中的所述特征量距所述中心數(shù)據(jù)在所述特征量空間中的所述特征量的距離的升序來提取所述鄰近數(shù)據(jù),直到所述鄰近數(shù)據(jù)的數(shù)目成為預定數(shù)目為止;并收集多個學習樣本,每個學習樣本包含已被提取的所述中心數(shù)據(jù)和所述鄰近數(shù)據(jù);分類器生成部,所述分類器生成部通過使用已被收集到的所述多個學習樣本來生成多個分類器;輸出特征量獲取部,對于所述數(shù)據(jù)群中所包含的每個所述數(shù)據(jù),所述輸出特征量獲取部將通過將所述數(shù)據(jù)輸入到所述多個分類器中以識別所述數(shù)據(jù)而獲得的多個輸出值作為在與所述特征量空間不同的輸出特征量空間中表示的輸出特征量而與所述數(shù)據(jù)相關聯(lián);以及類別分類部,所述類別分類部基于所述輸出特征量將所述數(shù)據(jù)群中所包含的每個所述未知數(shù)據(jù)分類成預定數(shù)目的所述類別中的任一個。
2.根據(jù)權(quán)利要求1所述的信息處理裝置,其中,所述數(shù)據(jù)池生成部進一步生成這樣的已知數(shù)據(jù)池在所述數(shù)據(jù)群中所包含的所述數(shù)據(jù)當中,所述已知數(shù)據(jù)池包含應被分類成的所述類別已知的已知數(shù)據(jù);且所述已知數(shù)據(jù)池具有所述已知數(shù)據(jù)被分類成的所述類別的標簽,并且其中,所述學習樣本收集部進一步從具有同一個所述標簽的所述已知數(shù)據(jù)池中隨機地提取預定數(shù)目的所述數(shù)據(jù),并收集包含所提取的所述數(shù)據(jù)的學習樣本。
3.根據(jù)權(quán)利要求2所述的信息處理裝置,其中,所述學習樣本收集部依據(jù)所述已知數(shù)據(jù)被分類成的所述類別的數(shù)目與所述已知數(shù)據(jù)未被分類成的所述類別的數(shù)目的比率,來確定由從所述未知數(shù)據(jù)中提取的數(shù)據(jù)形成的學習樣本的數(shù)目與由從所述已知數(shù)據(jù)中提取的數(shù)據(jù)形成的學習樣本的數(shù)目的比率。
4.根據(jù)權(quán)利要求1所述的信息處理裝置,進一步包括維度壓縮部,所述維度壓縮部對所述輸出特征量進行維度壓縮,其中,所述類別分類部基于由所述維度壓縮部進行了維度壓縮的所述輸出特征量來對所述數(shù)據(jù)進行分類。
5.一種信息處理方法,包括以下步驟生成這樣的未知數(shù)據(jù)池在包含在數(shù)據(jù)群中并具有在特征量空間中表示的特征量的數(shù)據(jù)當中,所述未知數(shù)據(jù)池包含應被分類成的類別未知的未知數(shù)據(jù);從所述未知數(shù)據(jù)池中隨機地提取一個中心數(shù)據(jù);提取在所述特征量空間中具有位于所述中心數(shù)據(jù)在所述特征量空間中的特征量附近的特征量的鄰近數(shù)據(jù),其中以所述鄰近數(shù)據(jù)在所述特征量空間中的所述特征量距所述中心數(shù)據(jù)在所述特征量空間中的所述特征量的距離的升序來提取所述鄰近數(shù)據(jù),直到所述鄰近數(shù)據(jù)的數(shù)目成為預定數(shù)目為止;并收集多個學習樣本,每個學習樣本包含已被提取的所述中心數(shù)據(jù)和所述鄰近數(shù)據(jù); 通過使用已被收集到的所述多個學習樣本來生成多個分類器; 對于所述數(shù)據(jù)群中所包含的每個所述數(shù)據(jù),將通過將所述數(shù)據(jù)輸入到所述多個分類器中以識別所述數(shù)據(jù)而獲得的多個輸出值作為在與所述特征量空間不同的輸出特征量空間中表示的輸出特征量而與所述數(shù)據(jù)相關聯(lián);以及基于所述輸出特征量將所述數(shù)據(jù)群中所包含的每個所述未知數(shù)據(jù)分類成預定數(shù)目的所述類別中的任一個。
6. 一種使得計算機執(zhí)行以下處理的程序生成這樣的未知數(shù)據(jù)池在包含在數(shù)據(jù)群中并具有在特征量空間中表示的特征量的數(shù)據(jù)當中,所述未知數(shù)據(jù)池包含應被分類成的類別未知的未知數(shù)據(jù);從所述未知數(shù)據(jù)池中隨機地提取一個中心數(shù)據(jù);提取在所述特征量空間中具有位于所述中心數(shù)據(jù)在所述特征量空間中的特征量附近的特征量的鄰近數(shù)據(jù),其中以所述鄰近數(shù)據(jù)在所述特征量空間中的所述特征量距所述中心數(shù)據(jù)在所述特征量空間中的所述特征量的距離的升序來提取所述鄰近數(shù)據(jù),直到所述鄰近數(shù)據(jù)的數(shù)目成為預定數(shù)目為止;并收集多個學習樣本,每個學習樣本包含已被提取的所述中心數(shù)據(jù)和所述鄰近數(shù)據(jù); 通過使用已被收集到的所述多個學習樣本來生成多個分類器; 對于所述數(shù)據(jù)群中所包含的每個所述數(shù)據(jù),將通過將所述數(shù)據(jù)輸入到所述多個分類器中以識別所述數(shù)據(jù)而獲得的多個輸出值作為在與所述特征量空間不同的輸出特征量空間中表示的輸出特征量而與所述數(shù)據(jù)相關聯(lián);以及基于所述輸出特征量將所述數(shù)據(jù)群中所包含的每個所述未知數(shù)據(jù)分類成預定數(shù)目的所述類別中的任一個。
全文摘要
提供了一種信息處理裝置、信息處理方法和程序。所述信息處理裝置包括數(shù)據(jù)池生成部,其生成未知數(shù)據(jù)池;學習樣本收集部,其從所述未知數(shù)據(jù)池中隨機地收集多個學習樣本;分類器生成部,其使用所述學習樣本來生成多個分類器;輸出特征量獲取部,其對于每個所述數(shù)據(jù),將通過將所述數(shù)據(jù)輸入到所述多個分類器中以識別所述數(shù)據(jù)而獲得的多個輸出值作為在與所述特征量空間不同的輸出特征量空間中表示的輸出特征量而與所述數(shù)據(jù)相關聯(lián);以及類別分類部,其基于所述輸出特征量將每個所述數(shù)據(jù)分類成預定數(shù)目的所述類別中的任一個。
文檔編號G06F15/18GK102262645SQ201110135729
公開日2011年11月30日 申請日期2011年5月20日 優(yōu)先權(quán)日2010年5月27日
發(fā)明者巖井嘉昭, 本間俊一, 蘆原隆之 申請人:索尼公司