本發(fā)明涉及圖像識(shí)別領(lǐng)域,尤其涉及一種基于鑒別性樣本屬性學(xué)習(xí)的零樣本圖像識(shí)別方法。
背景技術(shù):
:所謂的零樣本圖像識(shí)別(zeroshotrecognition)就是對(duì)沒有標(biāo)簽數(shù)據(jù)的樣本學(xué)習(xí)一個(gè)識(shí)別模型,因此它是模式識(shí)別和計(jì)算機(jī)視覺領(lǐng)域的重要組成部分,受到了研究界廣泛關(guān)注并取得了快速的發(fā)展。但大多數(shù)的零樣本圖像識(shí)別技術(shù)都是:首先從源域上學(xué)習(xí)一個(gè)模型,然后直接把模型應(yīng)用到目標(biāo)域來(lái)預(yù)測(cè)圖像的屬性表示。這類學(xué)習(xí)方法沒有考慮域遷移問(wèn)題。由于源域和目標(biāo)域的標(biāo)簽是不同的,這就對(duì)研究人員提出了一個(gè)新的挑戰(zhàn)--如何減輕域遷移問(wèn)題對(duì)最終分類性能的影響。傳統(tǒng)的零樣本識(shí)別技術(shù)包括直接屬性預(yù)測(cè)dap和間接屬性預(yù)測(cè)iap。其中dap是在源域?qū)W習(xí)一個(gè)屬性分類器(svm),然后用該屬性分類器預(yù)測(cè)目標(biāo)域圖像的屬性表示。iap是在源域上學(xué)習(xí)一個(gè)類別分類器(svm),然后利用類別分類器和貝葉斯概率公式預(yù)測(cè)目標(biāo)域圖像的屬性。elyorkodirov等人提出了在目標(biāo)域上進(jìn)行字典學(xué)習(xí)的非監(jiān)督域適應(yīng)方法。該方法首先在源域上學(xué)習(xí)一個(gè)字典ds,然后在目標(biāo)域上學(xué)習(xí)一個(gè)無(wú)限逼近ds的新的字典dt。與dap和iap方法相比,這個(gè)方法考慮到源域和目標(biāo)域適應(yīng)性問(wèn)題,在一定程度上減輕了域遷移問(wèn)題對(duì)識(shí)別性能的影響。但是該方法還有些不足。首先,作者考慮用源域知識(shí)ds去調(diào)節(jié)目標(biāo)域字典dt,沒有將模型在每一次迭代得到字典dt反饋到源域字典ds的學(xué)習(xí)上。這種單方向的學(xué)習(xí)方式很有可能不是最好的學(xué)習(xí)方式。然后,作者在字典dt學(xué)習(xí)過(guò)程中加入視覺語(yǔ)意相似性約束(visual--semanticsimilarityconstraint)。該約束項(xiàng)運(yùn)用了iap方法來(lái)獲得目標(biāo)域圖像-類別概率矩陣,一旦求出,圖像-類別概率矩陣就固定了。因此,模型的最終分類性能會(huì)受到iap方法的影響。最后在模型的學(xué)習(xí)階段,上述方法都采用的是用源域每類的原型來(lái)代替該類所有樣本的屬性表示并且作為已知。我們認(rèn)為這種做法有一定不合理性。因?yàn)轭愒筒⒉荒艽碓擃愃械臉颖镜膶傩员硎尽@纾贺埖脑蜑閇1,1,1]表示有紅色的毛,有腿,吃魚。如果該類有一種黑色貓,那么該原型就不能用來(lái)描述黑色的貓。所有這樣屬性表示并沒有足夠的可區(qū)分性。我們認(rèn)為源域中所有樣本的屬性表示不能由該類的原型簡(jiǎn)單的定義,而是要從數(shù)據(jù)中學(xué)出每一個(gè)樣本可區(qū)分性的屬性表示。而我們正是這樣做。技術(shù)實(shí)現(xiàn)要素:本發(fā)明所要解決的技術(shù)問(wèn)題是針對(duì)
背景技術(shù):
中所涉及到的缺陷,提供一種基于鑒別性樣本屬性學(xué)習(xí)的零樣本圖像識(shí)別方法,以緩解領(lǐng)域遷移對(duì)圖像識(shí)別精度影響。本發(fā)明為解決上述技術(shù)問(wèn)題采用以下技術(shù)方案:一種基于鑒別性樣本屬性學(xué)習(xí)的零樣本圖像識(shí)別方法,包含以下步驟:步驟1,利用源域圖像特征、目標(biāo)域圖像特征以及源域和目標(biāo)域中每類的原型共同學(xué)習(xí)目標(biāo)域的投影矩陣w;步驟2,根據(jù)學(xué)習(xí)到的投影矩陣w將目標(biāo)域圖像特征映射到屬性空間得到圖像的屬性表示矩陣yt;步驟3,在屬性空間中,利用最近鄰分類器進(jìn)行識(shí)別,得到圖像所屬類別。作為本發(fā)明一種基于鑒別性樣本屬性學(xué)習(xí)的零樣本圖像識(shí)別方法的進(jìn)一步優(yōu)選方案,在步驟1中,投影矩陣w具體如下:其中,ys和yt分別是源域和目標(biāo)域中每一幅圖像特征的m維屬性表示,λ1和λ4均是為了確保學(xué)習(xí)出的投影矩陣更適合目標(biāo)域而提出的平衡參數(shù),其中,xs和xt分別是源域和目標(biāo)域圖像特征矩陣,ys和yt分別是源域和目標(biāo)域圖像屬性表示矩陣,t是轉(zhuǎn)置運(yùn)算符,i是單位矩陣,ns和nt分別是源域和目標(biāo)域的圖像個(gè)數(shù),m是所有圖像屬性表示的維數(shù)。作為本發(fā)明一種基于鑒別性樣本屬性學(xué)習(xí)的零樣本圖像識(shí)別方法的進(jìn)一步優(yōu)選方案,在步驟2中,所述目標(biāo)域圖像的屬性表示矩陣yt具體表示如下:其中,ct是目標(biāo)域中類別個(gè)數(shù),表示目標(biāo)域第nt個(gè)樣本屬于第j類的概率,表示目標(biāo)域第j類的原型,λ2和λ6均是為了確保學(xué)習(xí)出的投影矩陣更適合目標(biāo)域而提出的平衡參數(shù)。作為本發(fā)明一種基于鑒別性樣本屬性學(xué)習(xí)的零樣本圖像識(shí)別方法的進(jìn)一步優(yōu)選方案,在步驟3中,所述最近鄰分類器具體表示如下:其中ci是第i個(gè)樣本的標(biāo)簽,表示模型預(yù)測(cè)目標(biāo)域中第i個(gè)圖像屬性表示。作為本發(fā)明一種基于鑒別性樣本屬性學(xué)習(xí)的零樣本圖像識(shí)別方法的進(jìn)一步優(yōu)選方案,所述投影矩陣w的具體學(xué)習(xí)過(guò)程如下:步驟1.1,令源域集合s包含cs個(gè)類,ns個(gè)標(biāo)記圖像,即s=[xs,ys,zs];目標(biāo)域集合t包含ct個(gè)類,nt個(gè)未標(biāo)記的圖像,即t=[xt,yt,zt];每幅圖像通過(guò)d維的特征矢量描述,即,其中,和分別是源域和目標(biāo)域類標(biāo)簽矢量,并且有zs∩zt=φ;步驟1.2,把從特征空間到屬性空間的映射看成一種投影的學(xué)習(xí),即有如下優(yōu)化模型(1):其中,||·||f是矩陣的frobenius范數(shù),和分別是目標(biāo)域和源域第i個(gè)樣本屬于第j類的概率,和分別是目標(biāo)域和源域第j類原型,λ3和λ5都是為了確保學(xué)習(xí)出的投影矩陣更適合目標(biāo)域而提出的平衡參數(shù);步驟1.3,采用交替優(yōu)化的方式求解模型(1):固定w,yt,更新ys公式(2)的解為:固定w,ys,更新yt公式(3)的解為:固定yt,ys,更新w公式(4)的解為:其中表示源域第ns個(gè)樣本屬于第j類的概率,表示源域中第j類的原型。本發(fā)明采用以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:1.本發(fā)明采用在源域和目標(biāo)域上共同學(xué)習(xí)投影矩陣的方法能夠獲得更適合目標(biāo)域的投影矩陣,因此域遷移問(wèn)題能夠被有效的緩解;2.本發(fā)明采用更新圖像--類別概率矩陣方法,解除了算法對(duì)iap模型的依賴;3.本發(fā)明模型中源域?qū)傩韵嗨菩约s束能夠?yàn)樵从驑颖緦W(xué)習(xí)具有可區(qū)分性的屬性表示,與傳統(tǒng)的dap、iap和非監(jiān)督域適應(yīng)等方法相比,本發(fā)明最大的亮點(diǎn)在于我們不是通過(guò)原型為源域樣本定義屬性表示,而我們通過(guò)模型為源域樣本學(xué)習(xí)具有可區(qū)分性的屬性表示。附圖說(shuō)明圖1是本發(fā)明在awa和cub數(shù)據(jù)集識(shí)別結(jié)果;圖2是本發(fā)明的一種基于鑒別性樣本屬性學(xué)習(xí)的零樣本圖像識(shí)別方法工作流程圖。具體實(shí)施方式下面結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)說(shuō)明:本發(fā)明公開了一種基于鑒別性樣本屬性學(xué)習(xí)的零樣本圖像識(shí)別方法:如圖2所示,首先我們假設(shè)源域和目標(biāo)域共用同一個(gè)投影矩陣,這樣我們就可以在源域和目標(biāo)域上共同學(xué)習(xí)從特征空間到屬性空間的投影矩陣。然后,我們就可以利用投影矩陣將目標(biāo)域的圖像特征數(shù)據(jù)映射到屬性空間。最后,我們采取最簡(jiǎn)單的分類模型--最近鄰來(lái)對(duì)目標(biāo)域樣本進(jìn)行分類。本發(fā)明所述的一種基于鑒別性樣本屬性學(xué)習(xí)的零樣本圖像識(shí)別方法,包括以下步驟:(一)目標(biāo)域投影矩陣確定:令源域集合s包含cs個(gè)類,ns個(gè)標(biāo)記圖像即s=[xs,ys,zs],目標(biāo)域集t合包含ct個(gè)類,nt個(gè)未標(biāo)記的圖像即t=[xt,yt,zt]。每幅圖像通過(guò)d維的特征矢量描述。我們有,和是源域和目標(biāo)域類標(biāo)簽矢量并且有zs∩zt=φ。ys和yt分別是源域和目標(biāo)域圖像m維屬性表示。有在研究識(shí)別算法前,我們必須先得到目標(biāo)域投影矩陣。通過(guò)投影矩陣將源域知識(shí)遷移到了目標(biāo)域,進(jìn)而得到目標(biāo)域圖像屬性表示yt。為了緩解域遷移問(wèn)題,我們假設(shè)源域和目標(biāo)域共用同一個(gè)投影矩陣,這樣我們就可以在源域和目標(biāo)域上共同學(xué)習(xí)投影矩陣。同時(shí)為了解決
背景技術(shù):
中提出的缺陷,我們也提出兩個(gè)約束項(xiàng),分別是動(dòng)態(tài)視覺語(yǔ)意相似性約束(dvss)和源域?qū)傩韵嗨菩约s束(sdas)。我們模型如(1)所示:λ1是為了確保學(xué)習(xí)出的投影矩陣更適合目標(biāo)域而提出平衡參數(shù)。最后3項(xiàng)是正則化項(xiàng),防止模型過(guò)度擬合。(1)動(dòng)態(tài)視覺語(yǔ)意相似性約束(dvss)其中,通過(guò)iap模型進(jìn)行初始化,在以后模型每一次迭代的過(guò)程中都被動(dòng)態(tài)更新,使其每一次都更接近它真實(shí)值。該約束項(xiàng)的作用是為了讓目標(biāo)域的圖像屬性表示更接近它真正的類原型。(2)源域?qū)傩韵嗨菩约s束(sdas)因?yàn)樵从驁D像帶了標(biāo)簽,因此很容易的被初始化。該約束項(xiàng)的作用是為源域樣本找到具有區(qū)分性的屬性表示。(二)算法模型及求解需要指出的是,同時(shí)對(duì)w,ys,yt來(lái)說(shuō),該模型不是凸優(yōu)化問(wèn)題。但是對(duì)于某個(gè)來(lái)說(shuō),是凸優(yōu)化問(wèn)題。因此我采用交替優(yōu)化的方式來(lái)求解該模型。上述優(yōu)化問(wèn)題變成如下3個(gè)子優(yōu)化問(wèn)題。(1)固定w,yt,更新ys優(yōu)化問(wèn)題(2)的解為(2)固定w,ys,更新yt優(yōu)化問(wèn)題(3)的解為:固定yt,ys,更新w優(yōu)化問(wèn)題(4)的解為:其中一旦ys和yt確定,對(duì)每類所有圖像求均值屬性作為新的類原型,然后通過(guò)iap方法繼續(xù)更新使其在每次迭代之后更接近它的真實(shí)值。一旦投影矩陣求出,我們就可以利用其預(yù)測(cè)目標(biāo)域樣本的屬性表示然后在屬性空間利用最近鄰分類器進(jìn)行識(shí)別。(三)識(shí)別當(dāng)需要識(shí)別未標(biāo)記樣本的圖像的標(biāo)簽時(shí),將其通過(guò)投影矩陣w映射到屬性空間,然后再利用最近鄰分類器進(jìn)行分類,找到圖像的標(biāo)簽輸出。將本發(fā)明所述的學(xué)習(xí)可區(qū)分性樣本屬性的零樣本圖像識(shí)別算法在awa數(shù)據(jù)庫(kù)和cub數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn),并將實(shí)驗(yàn)結(jié)果與相關(guān)零樣本識(shí)別算法進(jìn)行對(duì)比分析。awa數(shù)據(jù)庫(kù)包含50類,總共有30475幅動(dòng)物圖像,每一類由85維屬性進(jìn)行描述并提供了類屬性矩陣。我們使用數(shù)據(jù)庫(kù)提供40類作為源域,10類作為目標(biāo)域(24295幅圖像訓(xùn)練,6180幅圖像測(cè)試)。cub數(shù)據(jù)庫(kù)是細(xì)粒度鳥類數(shù)據(jù)庫(kù),包含200不同的鳥類,總共有11788幅圖像。提供312維類屬性注釋。我們和elyorkodirov等人一樣,采用150/50劃分源域和目標(biāo)域。在awa數(shù)據(jù)庫(kù)和cub數(shù)據(jù)庫(kù)實(shí)驗(yàn)結(jié)果與相關(guān)方法進(jìn)行比較,如表1所示。表1iap44.519.5dap53.231.4e.kodirov73.239.5rlsda86.141由表1可見,在不同數(shù)據(jù)庫(kù)上,相比于其他三種算法,我們的算法能夠獲得更好的識(shí)別性能。同時(shí)也表明為源域樣本學(xué)習(xí)具有可區(qū)分性的圖像屬性表示更有助于模型學(xué)習(xí)更優(yōu)的投影矩陣。我們也研究了在學(xué)習(xí)階段,目標(biāo)域樣本的數(shù)量對(duì)學(xué)習(xí)模型的影響。目標(biāo)域每類分別取20,40,60,80,100幅來(lái)訓(xùn)練模型。在awa和cub數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果如圖1所示。由圖1可知,該算法對(duì)目標(biāo)域數(shù)量具有一定穩(wěn)定性。本
技術(shù)領(lǐng)域:
技術(shù)人員可以理解的是,除非另外定義,這里使用的所有術(shù)語(yǔ)(包括技術(shù)術(shù)語(yǔ)和科學(xué)術(shù)語(yǔ))具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是,諸如通用字典中定義的那些術(shù)語(yǔ)應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義,并且除非像這里一樣定義,不會(huì)用理想化或過(guò)于正式的含義來(lái)解釋。以上所述的具體實(shí)施方式,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說(shuō)明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施方式而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁(yè)12