本發(fā)明涉及圖像處理、圖像分類技術(shù),具體講,涉及基于類別屬性遷移學(xué)習(xí)的零樣本圖像分類方法。
背景技術(shù):
對于傳統(tǒng)圖像分類系統(tǒng),要想準(zhǔn)確識別出某類圖像,必須給出相應(yīng)帶標(biāo)簽的訓(xùn)練樣本。但是,一方面,世界上的事物種類非常多,標(biāo)注樣本需要花費大量的人力和時間;另一方面,對于某一類事物,又可以進(jìn)一步細(xì)分為許多子類,如狗又可以細(xì)分為藏獒、哈巴狗、哈士奇等,而且有些類別的標(biāo)注樣本很難獲得。近年來,為了解決樣本缺失的問題,零樣本學(xué)習(xí)引起了研究者們的廣泛關(guān)注。零樣本圖像分類的目標(biāo)是構(gòu)建能夠識別出訓(xùn)練數(shù)據(jù)中沒有出現(xiàn)過的類別的圖像的分類器。與傳統(tǒng)的圖像分類方法相比,零樣本圖像分類在不給出所有類別的訓(xùn)練樣本的情況下,它也能夠識別出未知類別的圖像。所以,零樣本圖像分類是解決類別標(biāo)簽缺失問題的一種有效方法。
為了實現(xiàn)零樣本分類的目標(biāo),需要解決兩個關(guān)鍵問題:(1)如何構(gòu)建類別描述特征;(2)如何將視覺特征和類別描述特征聯(lián)系起來。為了實現(xiàn)對沒有訓(xùn)練數(shù)據(jù)的未知類別的圖像的識別,需要構(gòu)建類別描述特征將已知類別和未知類別聯(lián)系起來。
針對關(guān)鍵問題一,早期工作中,通常利用類別的屬性特征張成的空間作為連接底層視覺特征和高層類別標(biāo)簽的語義空間。屬性特征是人為定義的類別之間共享的特性,如“顏色”,“紋理”,“形狀”等能夠描述類別語義的共同特性。根據(jù)屬性特征的表征形式,屬性特征可以分為二進(jìn)制屬性、連續(xù)屬性和相對屬性三種。盡管屬性特征在很多視覺領(lǐng)域取得了成功,但是屬性特征仍然存在三方面的缺陷,一是標(biāo)注屬性仍然需要大量的時間,二是可擴展性差,如用于描述動物類別的數(shù)據(jù)集的屬性特征很難擴展到鳥類數(shù)據(jù)集;三是屬性特征的標(biāo)注不是從視覺樣本中獲得的,因此與視覺樣本還存在著一定的語義差異。
近年來,隨著自然語言處理技術(shù)的發(fā)展,利用文本描述特征代替屬性特征的研究得到廣泛關(guān)注。利用自然語言處理技術(shù),類別的文本描述特征可以從語料庫中提取。這樣每一個類別就可以用文本描述空間中的一個向量進(jìn)行表征。常用于獲取文本描述的方法有word2vec、GloVE,word2vec是Mikolov等人提出的,它可以將語料庫中的單詞表示成一個向量,并且向量之間的相似度可以較好的模擬單詞語義上的相似度。與屬性特征相比,文本描述特征是以無監(jiān)督學(xué)習(xí)的方式從語料庫中提取的語義描述信息,因此具有更好的擴展性。
針對關(guān)鍵問題二,在給定的類別語義空間中,標(biāo)注類別和未標(biāo)注類別都可以利用語義空間中的向量表征。這樣類別之間的語義相關(guān)性可以利用各類別在語義空間中所對應(yīng)的向量之間的相似度度量。然而樣本的視覺特征和類別的語義特征位于不同的空間中,因此樣本和類別向量之間的相似度無法直接衡量。因此解決這個問題的關(guān)鍵轉(zhuǎn)換為多模態(tài)學(xué)習(xí)的問題,即通過學(xué)習(xí)一種映射關(guān)系將樣本的視覺特征嵌入到類別語義空間中,這樣樣本的視覺特征和類別的語義特征之間的相似度就可以利用嵌入向量和類別描述向量之間的距離求出。當(dāng)前學(xué)習(xí)不同模態(tài)之間映射關(guān)系的方法有:Lazaridou等人分別用線性回歸、典型相關(guān)分析、奇異值分解和神經(jīng)網(wǎng)絡(luò)四種方法作為映射函數(shù),發(fā)現(xiàn)這些方法中神經(jīng)網(wǎng)絡(luò)的效果最好。這說明和結(jié)構(gòu)簡單的線性映射相比,非線性映射可以表現(xiàn)更為豐富的映射關(guān)系。Huang等人提出的非監(jiān)督學(xué)習(xí)模型,利用維基百科語料庫,通過預(yù)測每個詞在上下文中出現(xiàn)的概率,為類別名稱提取50維的文本特征。然后構(gòu)造了一個兩層的神經(jīng)網(wǎng)絡(luò),將視覺空間與語義空間相聯(lián)系,通過均方誤差最小化構(gòu)建目標(biāo)函數(shù)。與上述方式不同,Norouzi等人首先用訓(xùn)練圖像訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),然后直接將未見過的類別的測試圖像輸入神經(jīng)網(wǎng)絡(luò),得到測試圖像屬于各個已見過的類別的概率。再將這些概率與相應(yīng)的已見過的類別的語義特征取內(nèi)積,得到測試圖像的預(yù)測語義特征,最后尋找與預(yù)測語義特征最接近的未見過類別的語義特征,從而確定測試圖像的類別。這種方法雖然簡單,卻充分利用了深度神經(jīng)網(wǎng)絡(luò),因而也能夠得到良好的效果。
另外,零樣本學(xué)習(xí)是將語義信息從視覺特征空間轉(zhuǎn)移到類別空間中的模型,因此屬于轉(zhuǎn)移學(xué)習(xí)的一種特殊情況。Lampert提出了一種間接屬性預(yù)測(Indirect Attribute Prediction,IAP)的方法,通過挖掘標(biāo)注類別和未標(biāo)注類別之間的語義關(guān)系將測試樣本的視覺信息轉(zhuǎn)移到對應(yīng)的類別空間中,具體為:屬性特征通過連接標(biāo)注類別和未見過的類別轉(zhuǎn)移信息,IAP訓(xùn)練階段就是一個多類別分類器,測試階段,通過測試樣本屬于各個標(biāo)注類別的概率,得到測試樣本的預(yù)測語義特征,最后通過預(yù)測語義特征判別測試樣本屬于哪個未見過的類別。除了利用二進(jìn)制表現(xiàn)形式的屬性特征,Parikh等人提出了利用相對屬性的概念,他們在兩個已知數(shù)據(jù)集(人臉和自然場景數(shù)據(jù)集)的部分屬性上構(gòu)建了相對屬性,再通過相對屬性進(jìn)行轉(zhuǎn)移學(xué)習(xí),以實現(xiàn)零樣本圖像分類。由于相對屬性所含語義信息更加豐富,相比于利用二進(jìn)制表現(xiàn)形式的屬性特征的方法,他們的方法取得了更好的效果。另外,Ziad通過挖掘標(biāo)注類別之間的語義嵌入結(jié)構(gòu),學(xué)習(xí)某一屬性的類內(nèi)變化信息,并提出一種分層結(jié)構(gòu)模型將不同層次的屬性從訓(xùn)練數(shù)據(jù)轉(zhuǎn)移到測試樣本中。以鳥的喙為例:蜂鳥(hummingbird)和信天翁(albatross)都具有屬性喙(Beak),但是這兩種類別的鳥喙的形狀差別明顯,蜂鳥的喙是長扁形的,而信天翁的喙是寬彎形的,這說明同一屬性的類內(nèi)變化明顯。
技術(shù)實現(xiàn)要素:
為克服現(xiàn)有技術(shù)的不足,本發(fā)明旨在提出具有高效、高準(zhǔn)確率的圖像分類技術(shù)方案。本發(fā)明:基于類別屬性遷移學(xué)習(xí)的零樣本圖像分類方法,在間接屬性預(yù)測IAP基礎(chǔ)上,通過構(gòu)建基于屬性的多類別分類器模型,來判斷測試樣本是否具有一屬性,而且能夠?qū)W習(xí)到測試樣本的這一屬性由哪些類別遷移而來,從而學(xué)習(xí)得到更加細(xì)粒度的屬性,再進(jìn)行轉(zhuǎn)移學(xué)習(xí),實現(xiàn)零樣本圖像分類;其中,IAP訓(xùn)練階段就是一個多類別分類器,測試階段,通過測試樣本屬于各個標(biāo)注類別的概率,得到測試樣本的預(yù)測語義特征,最后通過預(yù)測語義特征判別測試樣本屬于哪個未見過的類別。
一個實例中的具體步驟如下:
1.前期數(shù)據(jù)準(zhǔn)備
動物屬性AwA(animals with attributes)數(shù)據(jù)集共有85個屬性,分別基于每個屬性構(gòu)造多類別分類器模型,這里需要進(jìn)行樣本標(biāo)注,在MATLAB環(huán)境下,AwA數(shù)據(jù)集已知類別的屬性特征由一個85*40維的semant變量表示,其中對于屬性ai,i=1,2,...,85,如果已知類別yj具有此屬性,j=1,2,...,40,則semant(i,j)=1,否則semant(i,j)=0;其它的,基于某一具體屬性描述,所設(shè)計的多類別分類器模型不僅能判斷測試樣本是否具有這一屬性,而且能夠?qū)W習(xí)到測試樣本的這一屬性由哪些類別遷移而來:基于不同屬性分別進(jìn)行樣本標(biāo)注,最后,得到一個重新被標(biāo)注的85*40維的semant變量;
2.求解模型參數(shù)
在Softmax回歸(Softmax Regression)中,對于給定的測試輸入x,用假設(shè)函數(shù)針對每一個類別j估算出概率值p(w=j(luò)|x),其中w為被重新標(biāo)注的類別,也就是說,估計x的每一種分類結(jié)果出現(xiàn)的概率;因此,假設(shè)函數(shù)將要輸出一個向量元素的和為1的k維的向量來表示這k個估計的概率值,具體地說,假設(shè)函數(shù)hθ(x)形式如下:
其中θ1,θ2,...,θk是模型的參數(shù),AwA數(shù)據(jù)集共有85個屬性,這就需要分別構(gòu)建基于85個屬性的Softmax分類器模型,利用被重新標(biāo)注的樣本數(shù)據(jù)訓(xùn)練模型,得到85個Softmax模型的最優(yōu)參數(shù);
3.計算語義值
當(dāng)輸入一個測試樣本x時,每個Softmax分類器都會得到測試樣本基于某一屬性被預(yù)測為已知類別的概率分布p(wj|x),這里需要進(jìn)行轉(zhuǎn)移學(xué)習(xí),利用得到的屬性特征semant(i,j)=1的已知類別的概率分布預(yù)測測試樣本是否具有屬性ai,即:
通過以上方式,計算出測試樣本的預(yù)測語義值;
4.識別未知類別
通過上述計算方式,我們將得到所有測試樣本的預(yù)測語義值pred_attr,給出未知類別的屬性特征attr_uni,通過求內(nèi)積的方式比較二者相似度大小,即:
pred=pred_attr*attr_uni
最后,預(yù)測測試樣本屬于與其相似度最大的未知類別,從而實現(xiàn)識別未知類別的目標(biāo)。
本發(fā)明的特點及有益效果是:
本發(fā)明主要是針對現(xiàn)有的基于屬性轉(zhuǎn)移學(xué)習(xí)的零樣本圖像分類方法主要是利用全局屬性并沒有考慮到類別內(nèi)部屬性變化明顯這一問題,設(shè)計一種面向零樣本圖像分類領(lǐng)域的類別屬性遷移學(xué)習(xí)方法,充分地利用原數(shù)據(jù)集中已有的豐富信息。其優(yōu)勢主要體現(xiàn)在:
(1)新穎性:針對零樣本圖像分類問題中屬性內(nèi)部變化明顯這一問題,提出一種新的類別間屬性遷移學(xué)習(xí)的方法,通過構(gòu)建基于屬性的多類別分類器模型,學(xué)習(xí)更加細(xì)粒度的屬性,再進(jìn)行轉(zhuǎn)移學(xué)習(xí),實現(xiàn)零樣本圖像分類。
(2)有效性:通過實驗證明了與標(biāo)準(zhǔn)的間接屬性預(yù)測方法相比較,本發(fā)明設(shè)計的基于類別屬性遷移學(xué)習(xí)方法在零樣本圖像分類的實驗中的性能優(yōu)于前者,能夠有效地利用原數(shù)據(jù)集中已有的豐富信息,從而提高分類準(zhǔn)確率。
(3)實用性:簡單可行,可以用在零樣本圖像分類的相關(guān)領(lǐng)域。
附圖說明:
圖1是本發(fā)明的基于類別屬性遷移學(xué)習(xí)的零樣本圖像分類方法的流程圖;
圖2是本發(fā)明的基于類別屬性遷移學(xué)習(xí)的零樣本圖像分類方法的示意圖。
具體實施方式
本發(fā)明涉及一種面向零樣本圖像分類領(lǐng)域的類別屬性遷移學(xué)習(xí)技術(shù),針對零樣本圖像分類中類別內(nèi)部屬性變化明顯的問題,它對傳統(tǒng)的間接屬性預(yù)測方法進(jìn)行了改進(jìn),達(dá)到了有效挖掘視覺樣本深層語義信息、更好預(yù)測視覺樣本的屬性特征目的。
本發(fā)明的目的在于提供一種基于類別屬性遷移學(xué)習(xí)的零樣本圖像分類方法。目前零樣本學(xué)習(xí)中一個常用的思想是通過屬性特征連接標(biāo)注類別和未見過的類別進(jìn)行信息的轉(zhuǎn)移,從而得到測試樣本的預(yù)測語義特征。如何進(jìn)行信息的轉(zhuǎn)移是其中的關(guān)鍵技術(shù)。針對這一關(guān)鍵技術(shù),本發(fā)明提出一種有效地將視覺特征轉(zhuǎn)移到類別屬性特征的學(xué)習(xí)框架,并利用學(xué)習(xí)到的屬性特征對測試樣本的類別進(jìn)行預(yù)測。同時提出一種從視覺樣本中挖掘深層語義信息的方法,用于建立類別與類別之間的語義關(guān)系。
對于傳統(tǒng)圖像分類系統(tǒng),要想準(zhǔn)確識別出某類圖像,必須給出相應(yīng)帶標(biāo)簽的訓(xùn)練樣本。但是,一方面,世界上的事物種類非常多,標(biāo)注樣本需要花費大量的人力和時間;另一方面,對于某一類事物,又可以進(jìn)一步細(xì)分為許多子類,如狗又可以細(xì)分為藏獒、哈巴狗、哈士奇等,而且有些類別的標(biāo)注樣本很難獲得。近年來,為了解決樣本缺失的問題,零樣本學(xué)習(xí)引起了研究者們的廣泛關(guān)注。零樣本圖像分類的目標(biāo)是構(gòu)建能夠識別出訓(xùn)練數(shù)據(jù)中沒有出現(xiàn)過的類別的圖像的分類器。與傳統(tǒng)的圖像分類方法相比,零樣本圖像分類在不給出所有類別的訓(xùn)練樣本的情況下,它也能夠識別出未知類別的圖像。所以,零樣本圖像分類是解決類別標(biāo)簽缺失問題的一種有效方法。
為了實現(xiàn)零樣本分類的目標(biāo),需要解決兩個關(guān)鍵問題:(1)如何構(gòu)建類別描述特征;(2)如何將視覺特征和類別描述特征聯(lián)系起來。為了實現(xiàn)對沒有訓(xùn)練數(shù)據(jù)的未知類別的圖像的識別,需要構(gòu)建類別描述特征將已知類別和未知類別聯(lián)系起來。
針對關(guān)鍵問題一,早期工作中,通常利用類別的屬性特征張成的空間作為連接底層視覺特征和高層類別標(biāo)簽的語義空間。屬性特征是人為定義的類別之間共享的特性,如“顏色”,“紋理”,“形狀”等能夠描述類別語義的共同特性。根據(jù)屬性特征的表征形式,屬性特征可以分為二進(jìn)制屬性、連續(xù)屬性和相對屬性三種。盡管屬性特征在很多視覺領(lǐng)域取得了成功,但是屬性特征仍然存在三方面的缺陷,一是標(biāo)注屬性仍然需要大量的時間,二是可擴展性差,如用于描述動物類別的數(shù)據(jù)集的屬性特征很難擴展到鳥類數(shù)據(jù)集;三是屬性特征的標(biāo)注不是從視覺樣本中獲得的,因此與視覺樣本還存在著一定的語義差異。
近年來,隨著自然語言處理技術(shù)的發(fā)展,利用文本描述特征代替屬性特征的研究得到廣泛關(guān)注。利用自然語言處理技術(shù),類別的文本描述特征可以從語料庫中提取。這樣每一個類別就可以用文本描述空間中的一個向量進(jìn)行表征。常用于獲取文本描述的方法有word2vec、GloVE,word2vec是Mikolov等人提出的,它可以將語料庫中的單詞表示成一個向量,并且向量之間的相似度可以較好的模擬單詞語義上的相似度。與屬性特征相比,文本描述特征是以無監(jiān)督學(xué)習(xí)的方式從語料庫中提取的語義描述信息,因此具有更好的擴展性。
針對關(guān)鍵問題二,在給定的類別語義空間中,標(biāo)注類別和未標(biāo)注類別都可以利用語義空間中的向量表征。這樣類別之間的語義相關(guān)性可以利用各類別在語義空間中所對應(yīng)的向量之間的相似度度量。然而樣本的視覺特征和類別的語義特征位于不同的空間中,因此樣本和類別向量之間的相似度無法直接衡量。因此解決這個問題的關(guān)鍵轉(zhuǎn)換為多模態(tài)學(xué)習(xí)的問題,即通過學(xué)習(xí)一種映射關(guān)系將樣本的視覺特征嵌入到類別語義空間中,這樣樣本的視覺特征和類別的語義特征之間的相似度就可以利用嵌入向量和類別描述向量之間的距離求出。當(dāng)前學(xué)習(xí)不同模態(tài)之間映射關(guān)系的方法有:Lazaridou等人分別用線性回歸、典型相關(guān)分析、奇異值分解和神經(jīng)網(wǎng)絡(luò)四種方法作為映射函數(shù),發(fā)現(xiàn)這些方法中神經(jīng)網(wǎng)絡(luò)的效果最好。這說明和結(jié)構(gòu)簡單的線性映射相比,非線性映射可以表現(xiàn)更為豐富的映射關(guān)系。Huang等人提出的非監(jiān)督學(xué)習(xí)模型,利用維基百科語料庫,通過預(yù)測每個詞在上下文中出現(xiàn)的概率,為類別名稱提取50維的文本特征。然后構(gòu)造了一個兩層的神經(jīng)網(wǎng)絡(luò),將視覺空間與語義空間相聯(lián)系,通過均方誤差最小化構(gòu)建目標(biāo)函數(shù)。與上述方式不同,Norouzi等人首先用訓(xùn)練圖像訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),然后直接將未見過的類別的測試圖像輸入神經(jīng)網(wǎng)絡(luò),得到測試圖像屬于各個已見過的類別的概率。再將這些概率與相應(yīng)的已見過的類別的語義特征取內(nèi)積,得到測試圖像的預(yù)測語義特征,最后尋找與預(yù)測語義特征最接近的未見過類別的語義特征,從而確定測試圖像的類別。這種方法雖然簡單,卻充分利用了深度神經(jīng)網(wǎng)絡(luò),因而也能夠得到良好的效果。
另外,零樣本學(xué)習(xí)是將語義信息從視覺特征空間轉(zhuǎn)移到類別空間中的模型,因此屬于轉(zhuǎn)移學(xué)習(xí)的一種特殊情況。Lampert提出了一種間接屬性預(yù)測(Indirect Attribute Prediction,IAP)的方法,通過挖掘標(biāo)注類別和未標(biāo)注類別之間的語義關(guān)系將測試樣本的視覺信息轉(zhuǎn)移到對應(yīng)的類別空間中,具體為:屬性特征通過連接標(biāo)注類別和未見過的類別轉(zhuǎn)移信息,IAP訓(xùn)練階段就是一個多類別分類器,測試階段,通過測試樣本屬于各個標(biāo)注類別的概率,得到測試樣本的預(yù)測語義特征,最后通過預(yù)測語義特征判別測試樣本屬于哪個未見過的類別。除了利用二進(jìn)制表現(xiàn)形式的屬性特征,Parikh等人提出了利用相對屬性的概念,他們在兩個已知數(shù)據(jù)集(人臉和自然場景數(shù)據(jù)集)的部分屬性上構(gòu)建了相對屬性,再通過相對屬性進(jìn)行轉(zhuǎn)移學(xué)習(xí),以實現(xiàn)零樣本圖像分類。由于相對屬性所含語義信息更加豐富,相比于利用二進(jìn)制表現(xiàn)形式的屬性特征的方法,他們的方法取得了更好的效果。另外,Ziad通過挖掘標(biāo)注類別之間的語義嵌入結(jié)構(gòu),學(xué)習(xí)某一屬性的類內(nèi)變化信息,并提出一種分層結(jié)構(gòu)模型將不同層次的屬性從訓(xùn)練數(shù)據(jù)轉(zhuǎn)移到測試樣本中。以鳥的喙為例:蜂鳥(hummingbird)和信天翁(albatross)都具有屬性喙(Beak),但是這兩種類別的鳥喙的形狀差別明顯,蜂鳥的喙是長扁形的,而信天翁的喙是寬彎形的,這說明同一屬性的類內(nèi)變化明顯。
本發(fā)明所提供的方法主要是在傳統(tǒng)的間接屬性預(yù)測(IAP)方法的基礎(chǔ)上,為了解決類別內(nèi)部屬性變化明顯的問題,通過構(gòu)建基于屬性的多類別分類器模型,它不僅能判斷測試樣本是否具有這一屬性,而且能夠?qū)W習(xí)到測試樣本的這一屬性由哪些類別遷移而來。從而學(xué)習(xí)得到更加細(xì)粒度的屬性,再進(jìn)行轉(zhuǎn)移學(xué)習(xí),實現(xiàn)零樣本圖像分類。
IAP訓(xùn)練階段就是一個多類別分類器,測試階段,通過測試樣本屬于各個標(biāo)注類別的概率,得到測試樣本的預(yù)測語義特征,最后通過預(yù)測語義特征判別測試樣本屬于哪個未見過的類別。本發(fā)明的方法是通過構(gòu)建基于屬性的多類別分類器模型。
下面以AwA數(shù)據(jù)集為例,基本步驟如下:
1.前期數(shù)據(jù)準(zhǔn)備
AwA數(shù)據(jù)集共有85個屬性,那就分別基于每個屬性構(gòu)造多類別分類器模型,這里需要進(jìn)行樣本標(biāo)注。在MATLAB環(huán)境下,AwA數(shù)據(jù)集已知類別的屬性特征由一個85*40維的semant變量表示,其中對于屬性ai(i=1,2,...,85),如果已知類別yj(j=1,2,...,40)具有此屬性,則semant(i,j)=1,否則semant(i,j)=0;但是,比如對于尾巴這一屬性,已知類別中狗和鯨魚都是有尾巴的,但是兩種動物類別尾巴的形狀差別很大,當(dāng)輸入一個類別為狼的測試樣本,由于已知類別狗和測試樣本狼視覺空間描述相近,所以,狼的尾巴屬性由狗的尾巴屬性遷移得到。基于某一具體屬性描述,所設(shè)計的多類別分類器模型不僅能判斷測試樣本是否具有這一屬性,而且能夠?qū)W習(xí)到測試樣本的這一屬性由哪些類別遷移而來。首先,基于不同屬性分別進(jìn)行樣本標(biāo)注,對于屬性ai(i=1,2,...,85),將具有屬性ai的已知類別依次標(biāo)注為一類,再將所有不具有屬性ai的已知類別統(tǒng)一標(biāo)注為另一類,最后,得到一個重新被標(biāo)注的85*40維的semant變量。
2.求解模型參數(shù)
由于我們解決的是多分類問題,選擇使用Softmax分類器,在Softmax回歸中,對于給定的測試輸入x,我們想用假設(shè)函數(shù)針對每一個類別j估算出概率值p(w=j(luò)|x),其中y為被重新標(biāo)注的類別。也就是說,我們想估計x的每一種分類結(jié)果出現(xiàn)的概率。因此,我們的假設(shè)函數(shù)將要輸出一個k維的向量(向量元素的和為1)來表示這k個估計的概率值。具體地說,我們的假設(shè)函數(shù)hθ(x)形式如下:
其中θ1,θ2,...,θk是模型的參數(shù)。AwA數(shù)據(jù)集共有85個屬性,這就需要分別構(gòu)建基于85個屬性的Softmax分類器模型,利用被重新標(biāo)注的樣本數(shù)據(jù)訓(xùn)練模型,得到85個Softmax模型的最優(yōu)參數(shù)。
3.計算語義值
當(dāng)輸入一個測試樣本x時,每個Softmax分類器都會得到測試樣本基于某一屬性被預(yù)測為已知類別的概率分布p(wj|x),這里需要進(jìn)行轉(zhuǎn)移學(xué)習(xí),利用得到的屬性特征semant(i,j)=1的已知類別的概率分布預(yù)測測試樣本是否具有屬性ai,即:
通過以上方式,可以有效地計算出測試樣本的預(yù)測語義值。
5.識別未知類別
通過上述計算方式,我們將得到所有測試樣本的預(yù)測語義值pred_attr,給出未知類別的屬性特征attr_uni,我們可以通過求內(nèi)積的方式比較二者相似度大小,即:
pred=pred_attr*attr_uni
最后,預(yù)測測試樣本屬于與其相似度最大的未知類別。從而實現(xiàn)識別未知類別的目標(biāo)。
下面結(jié)合附圖和具體實施方式進(jìn)一步詳細(xì)說明本發(fā)明。
圖1描述了所提出的基于類別屬性遷移學(xué)習(xí)的零樣本圖像分類方法的流程圖,與間接屬性預(yù)測方法一樣,它也通過屬性特征實現(xiàn)類別間的轉(zhuǎn)移學(xué)習(xí),屬性特征連接標(biāo)注類別和未標(biāo)注類別(未知類別),但是,本方法在訓(xùn)練階段需要訓(xùn)練85個多類別分類器,如圖2所示,分別構(gòu)建基于85個屬性的Softmax分類器模型,利用被重新標(biāo)注的樣本數(shù)據(jù)訓(xùn)練模型,測試時,對標(biāo)注類別的預(yù)測通過轉(zhuǎn)移學(xué)習(xí)計算出測試樣本的預(yù)測語義值,從而實現(xiàn)對未知類別的識別。
以AwA數(shù)據(jù)集為例,其中已知類別Y={y1,y2,...,y40},未知類別Z={z1,z2,...,z10},屬性空間A={a1,a2,...,a85},已知類別的屬性特征由一個85*40維的semant變量表示,樣本標(biāo)注時,對于屬性ai,計算得到所有滿足semant(i,j)=1條件的已知類別yj個數(shù)ni,順序標(biāo)注已知類別yj對應(yīng)的semant(i,j)為1,2,...,ni,再將所有滿足semant(i,j)=0條件的已知類別yj對應(yīng)的semant(i,j)統(tǒng)一標(biāo)注為ni+1,最后,得到一個重新被標(biāo)注的85*40維的semant變量。
如圖2所示,構(gòu)建完基于85個屬性的Softmax分類器模型,利用被重新標(biāo)注的樣本數(shù)據(jù)訓(xùn)練模型,得到最優(yōu)的模型參數(shù)。
測試時,當(dāng)輸入一個未知類別的樣本,每個Softmax分類器都會得到測試樣本基于對應(yīng)屬性被預(yù)測為已知類別的概率值,如圖2所示,利用得到的概率值轉(zhuǎn)移學(xué)習(xí)預(yù)測測試樣本是否具有這一屬性,通過下述公式:
通過以上方式,可以有效地計算出測試樣本的預(yù)測語義值。
通過上述計算方式,我們將得到所有測試樣本的預(yù)測語義值pred_attr,給出未知類別的屬性特征attr_uni,我們可以通過求內(nèi)積的方式比較二者相似度大小,即:
pred=pred_attr*attr_uni
最后,預(yù)測測試樣本屬于與其相似度最大的未知類別。從而實現(xiàn)識別未知類別的目標(biāo)。