分類裝置、分類方法以及電子設(shè)備的制作方法
【專利摘要】本發(fā)明提供了分類裝置、分類方法以及電子設(shè)備,以克服利用傳統(tǒng)的基于圖的學(xué)習(xí)方法所獲得的測試樣本的類別分值不準(zhǔn)確的問題。上述分類裝置包括:用于對目標(biāo)樣本進(jìn)行聚類的聚類單元;用于確定與目標(biāo)樣本的每個聚類相關(guān)的訓(xùn)練樣本的確定單元;用于刪除類別分值不準(zhǔn)確的訓(xùn)練樣本的類別分值的刪除單元;以及用于將上述目標(biāo)樣本作為測試樣本并根據(jù)每個測試樣本與每個剩下的訓(xùn)練樣本之間的相似度、以及每兩個測試樣本之間的相似度來計算上述測試樣本的類別分值的計算單元。上述分類方法用于執(zhí)行能夠?qū)崿F(xiàn)上述分類裝置的功能的處理。上述電子設(shè)備包括上述分類裝置。本發(fā)明的上述技術(shù)能夠應(yīng)用于信息處理領(lǐng)域。
【專利說明】分類裝置、分類方法以及電子設(shè)備
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明涉及信息處理領(lǐng)域,尤其涉及一種分類裝置、分類方法以及電子設(shè)備。
【背景技術(shù)】
[0002]作為一種能夠有效描述數(shù)據(jù)之間關(guān)系的方法,基于圖的學(xué)習(xí)已經(jīng)被廣泛地應(yīng)用于諸多領(lǐng)域,比如網(wǎng)頁分類、圖像檢索、視頻概念檢測等。上述網(wǎng)頁分類、圖像檢索以及視頻概念檢測等,從廣義上都可以看成一個分類過程。需要注意的是,這里所說的圖是帶權(quán)圖,它是一種數(shù)據(jù)關(guān)系,而并非真正意義上的圖像。
[0003]傳統(tǒng)的基于圖的學(xué)習(xí)方法,通常是在某種優(yōu)化的框架下利用訓(xùn)練樣本之間的相似度,通過最優(yōu)解的解析表達(dá)式或者迭代的求解方法,來為每個訓(xùn)練樣本計算出一個能夠反映其類別屬性的類別分值。為了將學(xué)習(xí)結(jié)果推廣到測試樣本,一般需要基于平滑性約束設(shè)計另一個待優(yōu)化的代價函數(shù)。
[0004]然而,在上述傳統(tǒng)的基于圖的學(xué)習(xí)方法中,在將學(xué)習(xí)結(jié)果推廣到測試樣本的過程中,訓(xùn)練樣本的類別分值往往保持不變,這使得一些類別分值可能不準(zhǔn)確的訓(xùn)練樣本會對測試樣本類別分值的計算造成負(fù)面的影響,也即,使得計算所得的測試樣本的類別分值不準(zhǔn)確。此外,為了將學(xué)習(xí)結(jié)果推廣到測試樣本,上述傳統(tǒng)的基于圖的學(xué)習(xí)方法通常是依次處理各個測試樣本,而完全沒有考慮測試樣本之間的關(guān)系,這也同樣有可能使得測試樣本的類別分值計算不準(zhǔn)確。
【發(fā)明內(nèi)容】
[0005]在下文中給出了關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細(xì)描述的前序。
[0006]鑒于此,本發(fā)明提供了一種分類裝置、分類方法以及電子設(shè)備,以至少解決利用傳統(tǒng)的基于圖的學(xué)習(xí)方法所獲得的測試樣本的類別分值不準(zhǔn)確的問題。
[0007]根據(jù)本發(fā)明的一個方面,提供了一種分類裝置,該分類裝置包括:聚類單元,其被配置用于對目標(biāo)樣本進(jìn)行聚類,以獲得目標(biāo)樣本的至少一個聚類;確定單元,其被配置用于分別確定與上述目標(biāo)樣本的每個聚類相關(guān)的訓(xùn)練樣本,其中,上述訓(xùn)練樣本中的每一個均具有類別分值;刪除單元,其被配置用于針對上述目標(biāo)樣本的每個聚類,獲得與該聚類相關(guān)的訓(xùn)練樣本的類別分值中的最大值和最小值之差,并在上述差大于第一預(yù)定閾值時,刪除與該聚類相關(guān)的訓(xùn)練樣本的類別分值;以及計算單元,其被配置用于將上述目標(biāo)樣本作為測試樣本,根據(jù)每個測試樣本與每個剩下的訓(xùn)練樣本之間的相似度、以及每兩個測試樣本之間的相似度,利用剩下的訓(xùn)練樣本的類別分值,通過求解優(yōu)化問題的方法獲得上述測試樣本的類別分值。
[0008]根據(jù)本發(fā)明的另一個方面,還提供了一種分類方法,該分類方法包括:對目標(biāo)樣本進(jìn)行聚類,以獲得上述目標(biāo)樣本的至少一個聚類;分別確定與上述目標(biāo)樣本的每個聚類相關(guān)的訓(xùn)練樣本,其中,上述訓(xùn)練樣本中的每一個均具有類別分值;針對上述目標(biāo)樣本的每個聚類,獲得與該聚類相關(guān)的訓(xùn)練樣本的類別分值中的最大值和最小值之差,并在上述差大于第一預(yù)定閾值時,刪除與該聚類相關(guān)的訓(xùn)練樣本的類別分值;以及將上述目標(biāo)樣本作為測試樣本,根據(jù)每個測試樣本與每個剩下的訓(xùn)練樣本之間的相似度、以及每兩個測試樣本之間的相似度,利用剩下的訓(xùn)練樣本的類別分值,通過求解優(yōu)化問題的方法獲得上述測試樣本的類別分值。
[0009]根據(jù)本發(fā)明的另一個方面,還提供了一種電子設(shè)備,該電子設(shè)備包括如上所述的分類裝置。
[0010]上述根據(jù)本發(fā)明的實施例的分類裝置、分類方法以及電子設(shè)備,能夠至少實現(xiàn)以下益處之一:通過確定類別分值不準(zhǔn)確的訓(xùn)練樣本并刪除這些訓(xùn)練樣本的類別分值,使得訓(xùn)練樣本能夠更加準(zhǔn)確地反映數(shù)據(jù)的真實分布信息;保證了在計算測試樣本的類別分值的過程中所使用的訓(xùn)練樣本的類別分值的準(zhǔn)確性;以及通過在計算過程中引入測試樣本之間的相似性關(guān)系,使得獲得的測試樣本的類別分值更加準(zhǔn)確。
[0011]通過以下結(jié)合附圖對本發(fā)明的最佳實施例的詳細(xì)說明,本發(fā)明的這些以及其他優(yōu)點將更加明顯。
【專利附圖】
【附圖說明】
[0012]本發(fā)明可以通過參考下文中結(jié)合附圖所給出的描述而得到更好的理解,其中在所有附圖中使用了相同或相似的附圖標(biāo)記來表示相同或者相似的部件。所述附圖連同下面的詳細(xì)說明一起包含在本說明書中并且形成本說明書的一部分,而且用來進(jìn)一步舉例說明本發(fā)明的優(yōu)選實施例和解釋本發(fā)明的原理和優(yōu)點。在附圖中:
[0013]圖1是示意性地示出根據(jù)本發(fā)明的實施例的分類裝置的一種示例結(jié)構(gòu)的框圖。
[0014]圖2A-2C是示意性地示出傳統(tǒng)的分類技術(shù)在處理測試樣本時的基本原理圖。
[0015]圖2D是示意性地示出根據(jù)本發(fā)明的實施例的分類裝置在處理測試樣本時的基本原理圖。
[0016]圖3是示意性地示出如圖1所示的計算單元的一種可能的示例結(jié)構(gòu)的框圖。
[0017]圖4是示意性地示出根據(jù)本發(fā)明的實施例的分類裝置的另一種示例結(jié)構(gòu)的框圖。
[0018]圖5是示意性地示出根據(jù)本發(fā)明的實施例的分類方法的一種示例性處理的流程圖。
[0019]圖6是示出了可用來實現(xiàn)根據(jù)本發(fā)明的實施例的分類裝置和分類方法的一種可能的信息處理設(shè)備的硬件配置的結(jié)構(gòu)簡圖。
[0020]本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,附圖中的元件僅僅是為了簡單和清楚起見而示出的,而且不一定是按比例繪制的。例如,附圖中某些元件的尺寸可能相對于其他元件放大了,以便有助于提高對本發(fā)明實施例的理解。
【具體實施方式】
[0021]在下文中將結(jié)合附圖對本發(fā)明的示范性實施例進(jìn)行描述。為了清楚和簡明起見,在說明書中并未描述實際實施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實際實施例的過程中必須做出很多特定于實施方式的決定,以便實現(xiàn)開發(fā)人員的具體目標(biāo),例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費時的,但對得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務(wù)。
[0022]在此,還需要說明的一點是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其他細(xì)節(jié)。
[0023]本發(fā)明的實施例提供了一種分類裝置,該分類裝置包括:聚類單元,其被配置用于對目標(biāo)樣本進(jìn)行聚類,以獲得目標(biāo)樣本的至少一個聚類;確定單元,其被配置用于分別確定與上述目標(biāo)樣本的每個聚類相關(guān)的訓(xùn)練樣本,其中,上述訓(xùn)練樣本中的每一個均具有類別分值;刪除單元,其被配置用于針對上述目標(biāo)樣本的每個聚類,獲得與該聚類相關(guān)的訓(xùn)練樣本的類別分值中的最大值和最小值之差,并在上述差大于第一預(yù)定閾值時,刪除與該聚類相關(guān)的訓(xùn)練樣本的類別分值;以及計算單元,其被配置用于將上述目標(biāo)樣本作為測試樣本,根據(jù)每個測試樣本與每個剩下的訓(xùn)練樣本之間的相似度、以及每兩個測試樣本之間的相似度,利用剩下的訓(xùn)練樣本的類別分值,通過求解優(yōu)化問題的方法獲得上述測試樣本的類別分值。
[0024]下面結(jié)合圖1來詳細(xì)描述根據(jù)本發(fā)明的實施例的分類裝置的一個示例。
[0025]如圖1所示,根據(jù)本發(fā)明的實施例的分類裝置100包括聚類單元110、確定單元120、刪除單元130和計算單元140。
[0026]在分類裝置100中,聚類單元110用于對目標(biāo)樣本進(jìn)行聚類,以獲得目標(biāo)樣本的至少一個聚類。其中,這里所說的目標(biāo)樣本可以是圖像,也可以是視頻,還可以是文本、網(wǎng)頁等對象。
[0027]在根據(jù)本發(fā)明的實施例的分類裝置的一個具體實現(xiàn)方式中,可以通過聚類單元110對目標(biāo)樣本的聚類處理,來使得每個聚類中的每個目標(biāo)樣本與該聚類下的至少一個其他目標(biāo)樣本的相似度大于第四預(yù)定閾值。
[0028]例如,可以采用分級聚類算法來實現(xiàn)上述實現(xiàn)方式中的聚類處理,具體過程如下:al)初始時構(gòu)建若干個集合,使得每個集合僅包括一個目標(biāo)樣本;a2)計算每兩個集合之間的相似度,其中,任兩個集合之間的相似度可以定義為該兩個集合的元素之間相似度的最大值,即&>?(々= max Sim{a,h)唭中,A和B表示任意兩個集合,a和b分別表示兩個集
合中的任意元素,Sim(A,B)表示集合A和集合B之間的相似度;a3)在所計算的每兩個集合之間的相似度中,判斷其中最大的相似度是否大于第四預(yù)定閾值,若是,則將上述最大的相似度對應(yīng)的兩個集合(即所有集合中相似度最大的兩個集合)合并為一個集合,然后返回執(zhí)行a2),直至所有集合中的任意兩個集合之間的相似度均小于第四預(yù)定閾值為止。
[0029]需要說明的是,第四預(yù)定閾值可以根據(jù)經(jīng)驗值設(shè)定,也可以通過試驗的方式來確定,這里不再詳述。
[0030]此外,如圖1所示,確定單元120用于分別確定與目標(biāo)樣本的每個聚類相關(guān)的訓(xùn)練樣本。其中,訓(xùn)練樣本是與目標(biāo)樣本種類相同的對象,例如,訓(xùn)練樣本和目標(biāo)樣本可以同是以下對象中的任一種:圖像;視頻;文本;以及網(wǎng)頁等。
[0031]在根據(jù)本發(fā)明的實施例的分類裝置的具體實現(xiàn)方式中,上述“與目標(biāo)樣本的每個聚類相關(guān)的訓(xùn)練樣本”可以有多種不同的確定方式。
[0032]在一個實現(xiàn)方式中,針對目標(biāo)樣本的每個聚類,確定單元120可以將與該聚類中的至少一個目標(biāo)樣本之間的相似度高于第二預(yù)定閾值的訓(xùn)練樣本確定為與該聚類相關(guān)的訓(xùn)練樣本。
[0033]在上述實現(xiàn)方式的一個例子中,假設(shè)目標(biāo)樣本的聚類M是聚類單元110對目標(biāo)樣本進(jìn)行聚類處理之后所得到的任意一個聚類,則針對聚類M,確定單元120可以首先計算每一個訓(xùn)練樣本與聚類M中的每個目標(biāo)樣本之間的相似度,然后,將與聚類M中的至少一個目標(biāo)樣本之間的相似度高于上述第二預(yù)定閾值的那些訓(xùn)練樣本確定為與聚類M相關(guān)的訓(xùn)練樣本。
[0034]或者,在上述實現(xiàn)方式的其他例子中,針對每一個訓(xùn)練樣本來說,確定單元120也可以不必計算這個訓(xùn)練樣本與聚類M中的每個目標(biāo)樣本之間的相似度。以訓(xùn)練樣本SbS例,當(dāng)確定單元120所計算的聚類M中的某個目標(biāo)樣本Sa與訓(xùn)練樣本Sb之間的相似度高于上述第二預(yù)定閾值時,確定單元120則可以不再計算聚類M中剩余的目標(biāo)樣本與訓(xùn)練樣本Sb之間的相似度,而直接將訓(xùn)練樣本Sb確定為與聚類M相關(guān)的其中一個訓(xùn)練樣本。
[0035]需要說明的是,訓(xùn)練樣本與目標(biāo)樣本之間的相似度可以根據(jù)具體情況來選擇計算方法。例如,可以采用一些現(xiàn)有的用于計算圖像相似度、文本相似度等的相似度計算方法,來分別在訓(xùn)練樣本與目標(biāo)樣本是圖像、文本以及其他種類對象的情況下實現(xiàn)上述訓(xùn)練樣本與目標(biāo)樣本之間的相似度計算。
[0036]此外,需要說明的是,上述第二預(yù)定閾值可以根據(jù)經(jīng)驗值設(shè)定,也可以通過試驗的方式來確定,這里不再詳述。在一個例子中,第二預(yù)定閾值可以設(shè)定成與第四預(yù)定閾值相同的值。
[0037]在另一個實現(xiàn)方式中,針對目標(biāo)樣本的每個聚類,確定單元120不僅可以將上述與該聚類中的至少一個目標(biāo)樣本之間的相似度高于第二預(yù)定閾值的訓(xùn)練樣本確定為與該聚類相關(guān)的訓(xùn)練樣本,還可以將與上述“與該聚類中的至少一個目標(biāo)樣本之間的相似度高于第二預(yù)定閾值的訓(xùn)練樣本”之間的相似度高于第三預(yù)定閾值的那些訓(xùn)練樣本也確定為與該聚類相關(guān)的訓(xùn)練樣本。
[0038]仍以上述目標(biāo)樣本的任一聚類M為例,通過與上文所說方式相類似的方式,確定單元120可以將那些與聚類M中的至少一個目標(biāo)樣本之間的相似度高于上述第二預(yù)定閾值的訓(xùn)練樣本確定為與聚類M相關(guān)的訓(xùn)練樣本。為方便起見,下文中將“與聚類M中的至少一個目標(biāo)樣本之間的相似度高于上述第二預(yù)定閾值的訓(xùn)練樣本”簡稱為第一類訓(xùn)練樣本。除上述第一類訓(xùn)練樣本之外,確定單元120還可以將那些與上述第一類訓(xùn)練樣本中的任意一個之間的相似度高于上述第三預(yù)定閾值的訓(xùn)練樣本確定為與聚類M相關(guān)的訓(xùn)練樣本。同樣,為方便起見,下文中將上述“與上述第一類訓(xùn)練樣本中的任意一個之間的相似度高于上述第三預(yù)定閾值的訓(xùn)練樣本”簡稱為第二類訓(xùn)練樣本。由此,在該例子中,“與聚類M相關(guān)的訓(xùn)練樣本”可以包括第一類訓(xùn)練樣本和第二類訓(xùn)練樣本。需要說明的是,上述第三預(yù)定閾值可以根據(jù)經(jīng)驗值設(shè)定,也可以通過試驗的方式來確定,這里不再詳述。
[0039]此外,這里所說的訓(xùn)練樣本中的每一個均具有類別分值。需要說明的是,這里所說的類別分值是用于描述其所屬樣本的類別與預(yù)定類別之間的匹配程度的一種度量。換句話說,類別分值可以描述其所屬樣本的類別符合預(yù)定類別的程度。一般地,可以認(rèn)為類別分值越高,該類別分值所屬樣本符合預(yù)定類別的可能性就越大;相反地,類別分值越低,則該類別分值所屬樣本符合預(yù)定類別的可能性就越小。例如,類別分值通??梢栽?1到I之間取值。
[0040]需要說明的是,在一些實施例中,根據(jù)訓(xùn)練樣本的類別分值的獲得方式的不同,訓(xùn)練樣本可以分為兩類。
[0041]其中,一類訓(xùn)練樣本是一般的標(biāo)注樣本。這類標(biāo)注樣本通常具有預(yù)定的類別分值,例如,其類別分值可以是由人手工地預(yù)先標(biāo)注的。然而,由于人力所限,這類具有預(yù)定類別分值的訓(xùn)練樣本通常數(shù)量也是有限的。
[0042]此外,另一類訓(xùn)練樣本是機(jī)器標(biāo)注樣本。這類機(jī)器標(biāo)注樣本的類別分值例如可以是在訓(xùn)練階段(一般的分類器在使用前都需要利用訓(xùn)練樣本進(jìn)行訓(xùn)練的過程)基于上述標(biāo)注樣本的預(yù)定類別分值獲得的。
[0043]由此,在根據(jù)本發(fā)明的實施例的分類裝置的一些實現(xiàn)方式中,訓(xùn)練樣本可以包括以上兩類樣本,也即,可以包括如上所述的標(biāo)注樣本和機(jī)器標(biāo)注樣本。其中,這兩類訓(xùn)練樣本的類別分值也可以分別采用與上文所述方式相類似的方式獲得或確定,這里不再贅述。需要說明的是,在這種情況下,確定單元120所確定的“與目標(biāo)樣本的每個聚類相關(guān)的訓(xùn)練樣本”可以全部是機(jī)器標(biāo)注樣本。
[0044]由此,通過確定單元120的處理可以分別確定與目標(biāo)樣本的每個聚類相關(guān)的訓(xùn)練樣本。
[0045]根據(jù)平滑性假設(shè)可知,相似樣本的類別分值不應(yīng)相差太大。因此,如果某兩個訓(xùn)練樣本(特別是在這兩個訓(xùn)練樣本是機(jī)器標(biāo)注樣本的情況下)分別與某兩個目標(biāo)樣本相似,而這兩個目標(biāo)樣本彼此也很相似(例如屬于如上所述的某一個聚類),那么這兩個訓(xùn)練樣本的類別分值應(yīng)該不會彼此相差過大。若情況并非如此,例如,若與某一個聚類下的兩個目標(biāo)樣本分別相似的兩個訓(xùn)練樣本的類別分值之間的差異大于第一預(yù)定閾值的話,則可以認(rèn)為這兩個訓(xùn)練樣本的類別分值是不準(zhǔn)確的,因此,去除這些類別分值來設(shè)計推廣算法則可以獲得更加可靠的結(jié)果。
[0046]于是,針對目標(biāo)樣本的每個聚類,刪除單元130可以首先計算那些“與該聚類相關(guān)的訓(xùn)練樣本”的類別分值中的最大值和最小值之差,然后,在所計算的差大于第一預(yù)定閾值時,刪除這些“與該聚類相關(guān)的訓(xùn)練樣本”的類別分值。
[0047]例如,以目標(biāo)樣本的任一聚類M為例,如上文所述,通過確定單元120可以確定與聚類M相關(guān)的訓(xùn)練樣本。然后,刪除單元130可以找到與聚類M相關(guān)的所有訓(xùn)練樣本的類別分值中的最大值和最小值,并計算該最大值和最小值之差(該差大于或等于0),當(dāng)該差大于上述第一預(yù)定閾值時,則將這些與聚類M相關(guān)的所有訓(xùn)練樣本的類別分值全部刪除。
[0048]特別地,在一個優(yōu)選例子中,在確定單元120所確定的“與該聚類相關(guān)的訓(xùn)練樣本”全部是機(jī)器標(biāo)注樣本的情況下,刪除單元130所刪除的是這些機(jī)器標(biāo)注樣本的類別分值。
[0049]需要說明的是,上述第一預(yù)定閾值可以根據(jù)經(jīng)驗值設(shè)定,也可以通過試驗的方式來確定,這里不再詳述。
[0050]這樣,計算單元140可以利用剩下的訓(xùn)練樣本(即除去那些被刪除了類別分值的訓(xùn)練樣本之外的其他訓(xùn)練樣本)的類別分值,通過求解優(yōu)化問題的方法獲得上述目標(biāo)樣本的類別分值,進(jìn)而可以基于所計算的類別分值來確定其類別。
[0051]在根據(jù)本發(fā)明的實施例的分類裝置的一個實現(xiàn)方式中,計算單元140可以將目標(biāo)樣本作為測試樣本,然后根據(jù)每個測試樣本與每個剩下的訓(xùn)練樣本之間的相似度、以及每兩個測試樣本之間的相似度,利用剩下的訓(xùn)練樣本的類別分值,通過求解優(yōu)化問題的方法獲得測試樣本的類別分值。
[0052]需要說明的是,傳統(tǒng)的基于圖的學(xué)習(xí)方法通常是依次處理各個測試樣本,只考慮了每個測試樣本與訓(xùn)練樣本之間的關(guān)系,而完全沒有利用測試樣本與測試樣本之間的關(guān)系。圖2A-2C示意性地示出了傳統(tǒng)的基于圖的學(xué)習(xí)方法在處理測試樣本時采用的基本思想。在圖2A-2C以及下文中將要描述的圖2D中,“O”表示訓(xùn)練樣本(即SBfSB5),“A”表示測試樣本(即SAfSA3),其中的連線表示所連對象之間的相似度。
[0053]由圖2A-2C可以看出,傳統(tǒng)的方法在處理測試樣本時只考慮了測試樣本與訓(xùn)練樣本之間的相似度,也即,分別處理每個測試樣本來對其進(jìn)行分類。需要注意的是,圖2A-2C中并未示出測試樣本與每個訓(xùn)練樣本之間的連線,而是僅示出了與其相似度較高的前幾個訓(xùn)練樣本與其之間的連線。
[0054]圖2D示意性地示出了計算單元140對測試樣本的處理思想。通過比較圖2D與先前所描述的圖2A-2C,可以看出,計算單元140在處理測試樣本時不僅考慮了測試樣本與訓(xùn)練樣本之間的相似度,而且還考慮了測試樣本與測試樣本之間的相似度(如圖2D中SaI與Sa2、Sa2與SA3之間的連線)。
[0055]需要說明的是,圖2A-2D中所示出的各個訓(xùn)練樣本之間的連線(即訓(xùn)練樣本之間的相似度)并非是指在計算測試樣本的類別分值的過程中所需要的,而是在一些實施例的訓(xùn)練階段中,在獲得上文所述的機(jī)器標(biāo)注樣本的類別分值時所使用的。
[0056]下面結(jié)合圖3來描述計算單元140的一種可能的示例配置。
[0057]如圖3所示,在該示例中,計算單元140可以包括代價函數(shù)構(gòu)造模塊310和代價函數(shù)求解模塊320。
[0058]其中,代價函數(shù)構(gòu)造模塊310用于構(gòu)造能夠反映預(yù)定的約束條件的代價函數(shù),代價函數(shù)求解模塊320則用于通過求解該代價函數(shù)的最小化問題來獲得測試樣本的類別分值。
[0059]上述預(yù)定的約束條件例如可以包括如下兩個條件:相似度越高的測試樣本與訓(xùn)練樣本的類別分值越接近;以及相似度越高的兩個測試樣本的類別分值越接近。
[0060]根據(jù)以上預(yù)定的約束條件,在根據(jù)本發(fā)明的實施例的分類裝置的一個實現(xiàn)方式中,代價函數(shù)構(gòu)造模塊310所構(gòu)造的代價函數(shù)可以包括如下函數(shù)項或者其變形:
【權(quán)利要求】
1.一種分類裝置,包括: 聚類單元,其被配置用于對目標(biāo)樣本進(jìn)行聚類,以獲得所述目標(biāo)樣本的至少一個聚類; 確定單元,其被配置用于分別確定與所述目標(biāo)樣本的每個聚類相關(guān)的訓(xùn)練樣本,其中,所述訓(xùn)練樣本中的每一個均具有類別分值; 刪除單元,其被配置用于針對所述目標(biāo)樣本的每個聚類,獲得與該聚類相關(guān)的訓(xùn)練樣本的類別分值中的最大值和最小值之差,并在所述差大于第一預(yù)定閾值時,刪除與該聚類相關(guān)的訓(xùn)練樣本的類別分值;以及 計算單元,其被配置用于將所述目標(biāo)樣本作為測試樣本,根據(jù)每個測試樣本與每個剩下的訓(xùn)練樣本之間的相似度、以及每兩個測試樣本之間的相似度,利用剩下的訓(xùn)練樣本的類別分值,通過求解優(yōu)化問題的方法獲得所述測試樣本的類別分值。
2.根據(jù)權(quán)利要求1所述的分類裝置,其中,所述計算單元包括: 代價函數(shù)構(gòu)造模塊,其被配置用于構(gòu)造反映下述約束條件的代價函數(shù): 相似度越高的測試樣本與訓(xùn)練樣本的類別分值越接近,以及 相似度越高的兩個測試樣本的類別分值越接近; 代價函數(shù)求解模塊,其被配置用于通過求解所述代價函數(shù)的最小化問題來獲得所述測試樣本的類別分值。
3.根據(jù)權(quán)利要求1或2所述的分類裝置,其中,所述訓(xùn)練樣本包括具有預(yù)定的類別分值的標(biāo)注樣本和類別分值是在`訓(xùn)練階段基于所述標(biāo)注樣本的類別分值而獲得的機(jī)器標(biāo)注樣本。
4.根據(jù)權(quán)利要求3所述的分類裝置,其中,所述確定單元所確定的與所述目標(biāo)樣本的每個聚類相關(guān)的訓(xùn)練樣本是所述機(jī)器標(biāo)注樣本。
5.根據(jù)權(quán)利要求3或4所述的分類裝置,其中,所述計算單元被配置成: 將被刪除了類別分值的訓(xùn)練樣本與所述目標(biāo)樣本一起作為所述測試樣本,并基于獲得的所述目標(biāo)樣本的類別分值來確定分類結(jié)果。
6.根據(jù)權(quán)利要求3-5中任一所述的分類裝置,還包括: 樣本更新單元,其被配置用于將新獲得類別分值的測試樣本作為下次分類中的機(jī)器標(biāo)注樣本。
7.根據(jù)權(quán)利要求1-6中任一所述的分類裝置,其中,所述確定單元被配置成: 針對所述目標(biāo)樣本的每個聚類,將與該聚類中的至少一個目標(biāo)樣本之間的相似度高于第二預(yù)定閾值的訓(xùn)練樣本確定為與該聚類相關(guān)的訓(xùn)練樣本。
8.根據(jù)權(quán)利要求7所述的分類裝置,其中,所述確定單元還被配置成: 針對所述目標(biāo)樣本的每個聚類,將和所述與該聚類中的至少一個目標(biāo)樣本之間的相似度高于第二預(yù)定閾值的訓(xùn)練樣本之間的相似度高于第三預(yù)定閾值的訓(xùn)練樣本確定為與該聚類相關(guān)的訓(xùn)練樣本。
9.一種分類方法,包括: 對目標(biāo)樣本進(jìn)行聚類,以獲得所述目標(biāo)樣本的至少一個聚類; 分別確定與所述目標(biāo)樣本的每個聚類相關(guān)的訓(xùn)練樣本,其中,所述訓(xùn)練樣本中的每一個均具有類別分值;針對所述目標(biāo)樣本的每個聚類,獲得與該聚類相關(guān)的訓(xùn)練樣本的類別分值中的最大值和最小值之差,并在所述差大于第一預(yù)定閾值時,刪除與該聚類相關(guān)的訓(xùn)練樣本的類別分值;以及 將所述目標(biāo)樣本作為測試樣本,根據(jù)每個測試樣本與每個剩下的訓(xùn)練樣本之間的相似度、以及每兩個測試樣本之間的相似度,利用剩下的訓(xùn)練樣本的類別分值,通過求解優(yōu)化問題的方法獲得所述測試樣本的類別分值。
10.一種電子設(shè)備 ,包括如權(quán)利要求1-8中任一所述的分類裝置。
【文檔編號】G06F17/30GK103679190SQ201210352239
【公開日】2014年3月26日 申請日期:2012年9月20日 優(yōu)先權(quán)日:2012年9月20日
【發(fā)明者】李斐, 劉汝杰, 杉村昌彥, 馬場孝之, 上原祐介 申請人:富士通株式會社