本發(fā)明屬于計(jì)算機(jī)視覺識(shí)別技術(shù)領(lǐng)域,尤其是一種基于adarank的深度特征和傳統(tǒng)特征的集成方法。
背景技術(shù):
隨著監(jiān)控范圍的增大,監(jiān)控?cái)?shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng)。依靠人眼識(shí)別監(jiān)控畫面中的行人身份顯然十分低效,行人再識(shí)別技術(shù)的任務(wù)便是依靠計(jì)算機(jī)視覺技術(shù)解決不重疊監(jiān)控視野中行人身份匹配的問(wèn)題。
現(xiàn)有行人再識(shí)別算法主要分為兩類,一類是傳統(tǒng)方法,由特征提取和度量學(xué)習(xí)兩個(gè)步驟組成。在特征提取階段,算法根據(jù)數(shù)據(jù)的特點(diǎn)挖掘有用信息并組織成特征,該特征需要具備描述能力、區(qū)分能力和魯棒性。在度量學(xué)習(xí)階段,算法將原有的特征空間進(jìn)行線性或非線性變換,將特征映射到新的空間中,使得在這個(gè)空間中同類樣本之間距離較小而不同類樣本之間距離較大。另一類是基于深度學(xué)習(xí)的方法,深度學(xué)習(xí)是近年來(lái)的熱門方向,它在計(jì)算機(jī)視覺領(lǐng)域表現(xiàn)出強(qiáng)大的性能。由于在行人再識(shí)別任務(wù)中需要比較兩個(gè)樣本之間的相似度,因此用于這一任務(wù)的深度網(wǎng)絡(luò)多數(shù)采用了孿生網(wǎng)絡(luò)結(jié)構(gòu),即由兩條共享參數(shù)的分支構(gòu)成。一對(duì)樣本輸入網(wǎng)絡(luò)后進(jìn)行一系列卷積、池化等操作,在網(wǎng)絡(luò)的末端將兩個(gè)分支的輸出結(jié)果進(jìn)行比較,得出兩個(gè)樣本的相似度。
在深度學(xué)習(xí)方法中,網(wǎng)絡(luò)末端的輸出可以視為網(wǎng)絡(luò)計(jì)算得出的特征,即深度特征。傳統(tǒng)特征和深度特征在性能上各有優(yōu)勢(shì)。傳統(tǒng)特征由算法分析得出,內(nèi)部原理清晰,可以根據(jù)具體應(yīng)用場(chǎng)景進(jìn)行適當(dāng)?shù)膬?yōu)化。深度特征由深度網(wǎng)絡(luò)自主學(xué)習(xí)得出,能夠提取到算法無(wú)法分析得到的特征。因此,如何將上述特征進(jìn)行充分利用以提高整體匹配率是目前迫切要求解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目地在于克服現(xiàn)有技術(shù)的不足,提出一種設(shè)計(jì)合理、匹配率高且穩(wěn)定性強(qiáng)的基于adarank的深度特征和傳統(tǒng)特征的集成方法。
本發(fā)明解決其技術(shù)問(wèn)題是采取以下技術(shù)方案實(shí)現(xiàn)的:
一種基于adarank的深度特征和傳統(tǒng)特征的集成方法,包括以下步驟:
步驟1、將圖像數(shù)據(jù)進(jìn)行分割,針對(duì)不同部分分別構(gòu)造并訓(xùn)練深度卷及神經(jīng)網(wǎng)絡(luò),用以獲得深度特征;
步驟2、從行人再識(shí)別數(shù)據(jù)中提取傳統(tǒng)特征,包括lomo特征、elf6特征、hog3d特征;
步驟3、選取如下三種度量學(xué)習(xí)方法:kissme、klfda和lmnn;
步驟4、將所有特征與三種度量學(xué)習(xí)方法進(jìn)行組合張成笛卡爾乘積,得到一系列弱排序器;
步驟5、利用adarank算法,對(duì)弱排序器進(jìn)行集成學(xué)習(xí),最終得到強(qiáng)排序器。
所述步驟1的具體實(shí)現(xiàn)方法為:
根據(jù)圖像特點(diǎn)對(duì)數(shù)據(jù)進(jìn)行分割,分割依據(jù)是行人的不同身體部位;根據(jù)頭部、軀干、腿部的原則,每張圖片被分割為大小不等的三部分作為三種不同的訓(xùn)練數(shù)據(jù),同時(shí)整體圖像作為一類數(shù)據(jù);針對(duì)這四種不同數(shù)據(jù),分別構(gòu)造四個(gè)結(jié)構(gòu)略有差異的深度卷積神經(jīng)網(wǎng)絡(luò),該訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)采用了余弦距離作為樣本相似度的度量以及三重?fù)p失作為損失函數(shù),該余弦距離定義如下:
其中b1和b2是神經(jīng)網(wǎng)絡(luò)全連接層的輸出;
設(shè)有一對(duì)圖像序列集,p=(p1,p2,...,pm)是參考集,其中的pi是參考集的第i個(gè)樣本;g=(g1,g2,...,gn)是備選集,其中的gj是備選集的第j個(gè)樣本,sij表示pi和gj之間的余弦距離,對(duì)于pi來(lái)說(shuō),正向損失指同類樣本之間距離過(guò)大造成的損失,定義如下:
負(fù)向損失指不同類樣本之間距離過(guò)小造成的損失,定義如下:
上面兩個(gè)式子中,ik表示樣本k的身份,kp和kn分別表示同類樣本對(duì)和不同類樣本對(duì)的數(shù)量;損失函數(shù)的最終形式如下:
ji=j(luò)i-pos+λji-neg
其中,λ是一個(gè)用來(lái)平衡兩種損失的參數(shù)。
所述lomo特征的提取方法為:首先垂直方向?qū)D像分為水平的條狀區(qū)域,將每個(gè)區(qū)域進(jìn)一步分為小塊,對(duì)于每個(gè)小塊進(jìn)行直方圖特征提取,具體特征包括hsv顏色域的直方圖以及siltp紋理特征直方圖;得到區(qū)域的所有直方圖后,對(duì)每個(gè)直方取最大值,得到該區(qū)域的直方特征;最后將每張圖的所有區(qū)域所得特征進(jìn)行拼接,即得到該圖像的lomo特征。
所述hog3d特征的提取方法為:hog特征是一種經(jīng)典的梯度特征,其圖像中像素點(diǎn)(x,y)的梯度為:
gx(x,y)=h(x+1,y)-h(x-1,y)
gy(x,y)=h(x,y+1)-h(x,y+1)
上式中g(shù)x(x,y)、gy(x,y)、h(x,y)分別表示像素點(diǎn)(x,y)處的水平方向梯度、垂直方向梯度和像素值;該點(diǎn)處的梯度幅值和方向分別為:
hog特征將梯度映射到平面的方向塊,hog3d特征將梯度映射到空間中的正20面體。
所述elf6特征為融合特征,包括29個(gè)特征通道,其中8個(gè)特征通道用來(lái)描述顏色信息,21個(gè)用來(lái)描述紋理特征。
所述強(qiáng)排序器為弱排序器的線性組合。
本發(fā)明的優(yōu)點(diǎn)和積極效果是:
本發(fā)明設(shè)計(jì)合理,其采用一個(gè)集成模型將傳統(tǒng)特征和深度特征進(jìn)充分結(jié)合并采用三種不同度量學(xué)習(xí)算法,通過(guò)構(gòu)造“弱排序器”并進(jìn)行集成學(xué)習(xí),使得系統(tǒng)的整體性能遠(yuǎn)遠(yuǎn)高于單一特征和單一度量算法,使得系統(tǒng)整體匹配率大大提升,獲得了很好的性能,本發(fā)明在公開的數(shù)據(jù)庫(kù)上進(jìn)行了測(cè)試,實(shí)驗(yàn)表明提出的方法優(yōu)于目前其他的行人再識(shí)別算法。
附圖說(shuō)明
圖1是本發(fā)明的整體系統(tǒng)的流程圖;
圖2是本發(fā)明構(gòu)造的深度卷及神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖;
圖3a至圖3f是本發(fā)明的系統(tǒng)不同部分對(duì)系統(tǒng)整體性能的貢獻(xiàn)分析圖。
具體實(shí)施方式
以下結(jié)合附圖對(duì)本發(fā)明實(shí)施例做進(jìn)一步詳述。
一種基于adarank的深度特征和傳統(tǒng)特征的集成方法,如圖1所示,包括以下步驟:
步驟1、將圖像數(shù)據(jù)進(jìn)行分割,針對(duì)不同部分分別構(gòu)造并訓(xùn)練深度卷及神經(jīng)網(wǎng)絡(luò),用以獲得深度特征。具體實(shí)現(xiàn)方法如下:
根據(jù)圖像特點(diǎn)對(duì)數(shù)據(jù)進(jìn)行分割,分割依據(jù)是行人的不同身體部位。根據(jù)頭部、軀干、腿部的原則,每張圖片被分割為大小不等的三部分,作為三種不同的訓(xùn)練數(shù)據(jù),同時(shí)整體圖像也作為一類數(shù)據(jù)。針對(duì)這四種不同數(shù)據(jù),本方法構(gòu)造了四個(gè)結(jié)構(gòu)略有差異的深度卷積神經(jīng)網(wǎng)絡(luò)。訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)采用了余弦距離作為樣本相似度的度量以及三重?fù)p失作為損失函數(shù)。余弦距離定義如下:
其中b1和b2是神經(jīng)網(wǎng)絡(luò)全連接層的輸出。
設(shè)有一對(duì)圖像序列集,p=(p1,p2,...,pm)是參考集,其中的pi是參考集的第i個(gè)樣本。g=(g1,g2,...,gn)是備選集,其中的gj是備選集的第j個(gè)樣本。sij表示pi和gj之間的余弦距離。對(duì)于pi來(lái)說(shuō),正向損失指同類樣本之間距離過(guò)大造成的損失,定義如下:
負(fù)向損失指不同類樣本之間距離過(guò)小造成的損失,定義如下:
上面兩個(gè)式子中,ik表示樣本k的身份,kp和kn分別表示同類樣本對(duì)和不同類樣本對(duì)的數(shù)量。損失函數(shù)的最終形式如下:
ji=j(luò)i-pos+λji-neg
其中λ是一個(gè)用來(lái)平衡兩種損失的參數(shù)。λ較小時(shí)正向損失占比重較大,λ較大時(shí)負(fù)向損失占比重較大。
步驟2、從行人再識(shí)別數(shù)據(jù)中提取傳統(tǒng)特征,提取的特征有l(wèi)omo特征、elf6特征、hog3d特征。具體的特征提取方法如下:
(1)在提取lomo特征時(shí),首先垂直方向?qū)D像分為水平的條狀區(qū)域。將每個(gè)區(qū)域進(jìn)一步分為小塊,對(duì)于每個(gè)小塊進(jìn)行直方圖特征提取。具體特征包括hsv顏色域的直方圖以及siltp紋理特征直方圖。得到區(qū)域的所有直方圖后,對(duì)每個(gè)直方取最大值,得到該區(qū)域的直方特征。最后將每張圖的所有區(qū)域所得特征進(jìn)行拼接,即得到該圖像的lomo特征。lomo特征描述了水平方向上的最大事件,對(duì)視角變化等問(wèn)題有很強(qiáng)的魯棒性。
(2)hog特征是一種經(jīng)典的梯度特征。梯度特征不僅能夠捕獲輪廓,人影和一些紋理信息,還能進(jìn)一步弱化光照的影響。圖像中像素點(diǎn)(x,y)的梯度為:
gx(x,y)=h(x+1,y)-h(x-1,y)
gy(x,y)=h(x,y+1)-h(x,y+1)
上式中g(shù)x(x,y)、gy(x,y)、h(x,y)分別表示像素點(diǎn)(x,y)處的水平方向梯度、垂直方向梯度和像素值。該點(diǎn)處的梯度幅值和方向分別為:
在該方法中我們使用了hog特征的升級(jí)版本,即hog3d特征。hog特征將梯度映射到平面的方向塊,hog3d特征將梯度映射到空間中的正20面體。與原特征相比,改進(jìn)后的hog3d特征除了能夠描述平面圖像上像素點(diǎn)之間的梯度關(guān)系,還可以描述前后幀之間的梯度關(guān)系。
(3)elf6特征是一種融合特征,共包括29個(gè)特征通道。其中8個(gè)特征通道用來(lái)描述顏色信息,21個(gè)用來(lái)描述紋理特征。
步驟3、選取目前性能最好的三種度量學(xué)習(xí)方法,包括kissme、klfda和lmnn。具體的度量學(xué)習(xí)方法如下:
(1)kissme算法是“keepitsimpleandstraightforwardmetric”的縮寫。該算法在統(tǒng)計(jì)推斷的基礎(chǔ)上對(duì)距離的一種等價(jià)約束進(jìn)行學(xué)習(xí),這一策略簡(jiǎn)單而有效,不依賴于復(fù)雜問(wèn)題的優(yōu)化,不需要迭代學(xué)習(xí)過(guò)程,計(jì)算速度快且性能出色。
(2)klfda是lfda算法的改進(jìn)版本。lfda是一種有監(jiān)督的降維算法,可以將特征映射到理想的子空間。然而算法的一個(gè)缺陷是它需要解決高維散度矩陣的廣義特征值問(wèn)題。通過(guò)在lfda中加入核技巧,klfda能夠有效解決這一問(wèn)題,使算法更加適用于高維特征。
(3)lmnn算法基于k近鄰算法的思想,其目標(biāo)是學(xué)習(xí)一種馬式距離,使得相同身份的樣本間距小于不同身份的樣本間距,且令二者之間的差值盡量大。
步驟4、將所有特征與所有度量方法進(jìn)行組合,得到一系列弱排序器。如圖2所示,將所有特征與度量方法張成笛卡爾乘積。
步驟5、利用adarank算法,對(duì)弱排序器進(jìn)行集成學(xué)習(xí),最終得到強(qiáng)排序器。該強(qiáng)排序器是弱排序器的線性組合。具體實(shí)施方法如下:
input:f,x,yandevaluatione
output:thefinalrankresultf
initialization:
fort=1,2,...,tdo
compute
choose
setft=fk*andη=ηk
compute
update
endfor
returnf=σtαtft。
下面按照本發(fā)明方法進(jìn)行實(shí)驗(yàn),說(shuō)明本發(fā)明的實(shí)驗(yàn)效果。
測(cè)試環(huán)境:matlabr2016a
測(cè)試數(shù)據(jù):所選數(shù)據(jù)集是用于行人再識(shí)別的圖像序列數(shù)據(jù)集ilids-vid和prid2011。
測(cè)試指標(biāo):本發(fā)明使用了cumulatedmatchingcharacteristics(cmc)曲線作為評(píng)價(jià)指標(biāo),該指標(biāo)表示正確匹配的樣本在備選集中相似度的排名在所有測(cè)試樣本中所占的比例,例如,rank1為正確備選集的樣本排在首位的參考樣本占所有參考數(shù)的比例。該比例越高,算法性能越好。
實(shí)驗(yàn)結(jié)果如圖3a至圖3f所示,曲線越接近100%性能越好。同時(shí),從表1及表2可以看出,本發(fā)明明顯高于其他算法的性能。
表1
表2
需要強(qiáng)調(diào)的是,本發(fā)明所述的實(shí)施例是說(shuō)明性的,而不是限定性的,因此本發(fā)明包括并不限于具體實(shí)施方式中所述的實(shí)施例,凡是由本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的技術(shù)方案得出的其他實(shí)施方式,同樣屬于本發(fā)明保護(hù)的范圍。