發(fā)明涉及計算機視覺中的行人重識別領(lǐng)域,尤其涉及一種用于圖像或視頻中行人重識別的深度判別網(wǎng)絡(luò)模型方法。
背景技術(shù):
:近年來,隨著人們對社會的公共安全越來越關(guān)注,視頻監(jiān)控系統(tǒng)大量普及。諸如機場、火車站、校園和辦公大樓等公眾場所,都亟需監(jiān)控,為安防保駕護航。面對海量的監(jiān)控視頻數(shù)據(jù),大量的人力需要投入到視頻信息的監(jiān)控與檢索中去,這種方式的效率不僅低,還造成了額外資源浪費。如果能夠利用計算機視覺分析技術(shù),自動化監(jiān)控及分析視頻信息,必然可以極大地加快“平安城市”的建設(shè)。行人重識別是計算機視覺的研究中關(guān)鍵的任務(wù)。一般來說,給定關(guān)于行人的一張圖片或者一段視頻,行人重識別就是在其它不重合拍攝場景下的圖片或者視頻中,將同一個人識別出來的過程。盡管相關(guān)的研究越來越受到重視,行人重識別的準確率也已經(jīng)提高了不少,但仍有許多困難需要解決。由于待識別的行人圖片與原圖片拍攝于不同的相機,設(shè)備的差異會給成像條件帶來誤差;不同的場景下的環(huán)境不一,對采集的數(shù)據(jù)也會產(chǎn)生不同的偏差;且光照的改變會使得同一種顏色的表現(xiàn)不同;更重要的是,行人在攝像頭下的姿態(tài)變化以及遮擋問題,都使得對同一個人的辨別難度相當大。近年來,由于深度學(xué)習(xí)的浪潮,卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于行人重識別領(lǐng)域,通過深度網(wǎng)絡(luò)提取圖像特征,并且在相應(yīng)的特征空間上使用深度學(xué)習(xí)或者傳統(tǒng)方法進行距離度量,大大提高了行人重識別的準確率。這些工作的進展皆得益于深度卷積網(wǎng)絡(luò)模型在特征提取上的能力,但在判別能力的探索上卻局限于給定的特征空間,也因此限制了深度模型判別能力的提高。技術(shù)實現(xiàn)要素:為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種用于圖像或視頻中行人重識別的深度判別網(wǎng)絡(luò)模型方法,基于行人在不同圖像之間的相似性判斷過程,設(shè)計深度判別網(wǎng)絡(luò)模型,將輸入的兩張圖像在顏色通道上進行融合拼接,在原始的圖像差異性空間上判別圖像之間的相似性,并通過嵌入inception模塊提高網(wǎng)絡(luò)的學(xué)習(xí)能力,可以有效地區(qū)分出輸入圖像是否屬于同一個人。該方法不需要對輸入圖像進行單獨特征提取,沒有傳統(tǒng)意義上對輸入圖像進行單獨特征提取的步驟,因此可以充分發(fā)揮深度卷積神經(jīng)網(wǎng)絡(luò)模型在判別圖像差異性上的潛力。本發(fā)明首先把兩張輸入圖像在顏色通道上進行融合拼接,將得到的拼接結(jié)果定義為兩個圖像的原始差異性空間,然后將得到拼接的結(jié)果送入設(shè)計好的卷積神經(jīng)網(wǎng)絡(luò)中去,通過學(xué)習(xí)原始空間中的差異性信息,網(wǎng)絡(luò)最終可以給出輸入兩張圖片之間的相似性。本發(fā)明中的深度判別網(wǎng)絡(luò)包括產(chǎn)生的原始差異性空間和卷積網(wǎng)絡(luò),卷積網(wǎng)絡(luò)包含了三個相連的卷積模塊和一個inception模塊,緊接著一個非對稱的卷積層和全聯(lián)接層,并可利用softmax算法得到圖像之間的相似性。本發(fā)明提供的技術(shù)方案是:一種用于圖像或視頻中行人重識別的深度判別網(wǎng)絡(luò)模型方法,通過構(gòu)建深度判別網(wǎng)絡(luò),將兩張輸入圖像在顏色通道上進行融合拼接,得到拼接的結(jié)果,送入卷積網(wǎng)絡(luò)中,通過學(xué)習(xí)原始差異性空間中的差異性信息,所述深度判別網(wǎng)絡(luò)輸出兩張輸入圖像之間的相似性;由此實現(xiàn)行人重識別;具體過程如下:1)設(shè)計深度判別網(wǎng)絡(luò)模型的結(jié)構(gòu);本發(fā)明構(gòu)建的深度判別網(wǎng)絡(luò)包括了原始差異性空間的產(chǎn)生和卷積神經(jīng)網(wǎng)絡(luò)兩部分,其中卷積神經(jīng)網(wǎng)絡(luò)包含了3個相連的卷積模塊和inception模塊,緊接著一個非對稱的卷積層和全聯(lián)接層;11)構(gòu)建圖像的原始差異性空間;將輸入的兩張圖像在顏色通道(r、g、b)上進行融合拼接,使成為包含6個通道(r、g、b、r、g、b)的“圖像”,將該“圖像”定義為兩個圖像的原始差異性空間,作為卷積神經(jīng)網(wǎng)絡(luò)直接學(xué)習(xí)的對象;12)設(shè)計三個相連的卷積模塊,用于學(xué)習(xí)輸入對象的差異性信息;每一個模塊中包含2個卷積操作、1個relu映射及1個最大池化操作,其中卷積核的大小為3*3,步長為1,采樣大小為2*2,步長為2;13)設(shè)計一個inception模塊,緊接在卷積模塊的后面,可以增加網(wǎng)絡(luò)的深度和寬度;14)設(shè)計一個非對稱的卷積操作進一步降低差異性維度,并使用全聯(lián)接和softmax方法計算輸入圖像之間的相似度;2)將數(shù)據(jù)集x中的行人圖片設(shè)置為相同大小,并劃分為訓(xùn)練集t和測試集d;本發(fā)明具體實施時,將數(shù)據(jù)集x中的行人圖片統(tǒng)一設(shè)為160*60大小,并隨機劃分為訓(xùn)練集t和測試集d;3)利用訓(xùn)練集t訓(xùn)練步驟1)構(gòu)建的深度判別網(wǎng)絡(luò),更新學(xué)習(xí)參數(shù),直到收斂,得到訓(xùn)練好的深度判別網(wǎng)絡(luò)模型;包括如下步驟:31)通過以下方式對訓(xùn)練集t中的圖片進行數(shù)據(jù)增強:a.對訓(xùn)練集t中的圖片進行水平翻轉(zhuǎn),得到各個圖片的鏡像圖;b.以訓(xùn)練集t中的每張圖片(包括步驟a產(chǎn)生的鏡像圖)中心為基準,采樣多張(如5張,采樣的目的是增加訓(xùn)練樣本的數(shù)目)在水平和豎直方向上隨機偏移一定大小的圖片,作為樣本;本發(fā)明具體實施時,偏移范圍為[-0.05h,0.05h]*[-0.05w,0.05w],h和w分別是原始圖像的高和寬;32)對樣本進行預(yù)處理:計算訓(xùn)練集中所有樣本的均值和方差,然后對所有圖片(包括訓(xùn)練集和測試集)進行歸一化操作,得到正態(tài)分布的樣本數(shù)據(jù),以此作為后續(xù)的訓(xùn)練樣本數(shù)據(jù);33)生成訓(xùn)練樣本:每個人的所有樣本,相互之間構(gòu)成相似對,對于每一個相似對,從其他所有人的樣本中隨機選取兩張圖片與其中一個樣本構(gòu)成不相似對,這樣可以將相似對與不相似對的比例控制在1:2,以此作為最終的訓(xùn)練樣本。34)采用批量訓(xùn)練的方法,一次隨機從訓(xùn)練樣本中采樣128對行人圖片,并使用隨機梯度下降法更新網(wǎng)絡(luò)參數(shù),直到收斂,得到訓(xùn)練好的深度判別網(wǎng)絡(luò)模型;本發(fā)明具體實施時,一次采樣128對行人圖片進行批量訓(xùn)練;其中,使用隨機梯度下降法時,學(xué)習(xí)率設(shè)為0.05、動量為0.9、學(xué)習(xí)率衰減為0.0001,權(quán)重衰減為0.0005;可使用測試集d中的行人圖片對訓(xùn)練好的深度判別網(wǎng)絡(luò)模型進行評估;4)利用訓(xùn)練好的深度判別網(wǎng)絡(luò)模型對測試數(shù)據(jù)集d進行識別,驗證測試數(shù)據(jù)集d中兩張輸入圖像中的行人是否屬于同一行人,得到準確率。本發(fā)明利用softmax算法得到圖像之間的相似性。與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明提供一種用于圖像或視頻中行人重識別的深度判別網(wǎng)絡(luò)模型方法,進一步發(fā)掘深度卷積神經(jīng)網(wǎng)絡(luò)模型在判別圖像差異性上的潛力。與現(xiàn)有技術(shù)相比,本發(fā)明不再對單獨的圖像進行特征的學(xué)習(xí),而是在一開始就將輸入圖像在顏色通道上進行融合拼接,讓設(shè)計好的網(wǎng)絡(luò)在圖像的原始空間上去學(xué)習(xí)它們的差異性信息。通過引入inception模塊,嵌入到模型之中,能夠提高網(wǎng)絡(luò)的學(xué)習(xí)能力,達到更好的判別效果。附圖說明圖1是本發(fā)明構(gòu)建的深度判別網(wǎng)絡(luò)模型的結(jié)構(gòu)示意圖:其中,(1)是兩張圖片在顏色通道上的融合;(2)是卷積層;(3)是relu激活函數(shù);(4)是平均池化;(5)是最大池化;(6)是卷積塊conv-b1,兩個卷積層的核數(shù)量依次為32和64;(7)是卷積塊conv-b2,兩個卷積層的核數(shù)量依次為64和64;(8)是卷積塊conv-b3,兩個卷積層的核數(shù)量依次為64和64;(9)是inception模塊,其中#1、#2、#3和#4分別是4個平行子網(wǎng)絡(luò);(10)是一個卷積層conv-l,核數(shù)量為64;(11)是全連接層+softmax層;(12)是輸出相似性的概率;(13)是輸出不相似的概率。圖2是將inception模塊置于深度判別網(wǎng)絡(luò)不同位置時得到識別結(jié)果的對比圖。圖3是本發(fā)明方法的流程框圖。具體實施方式下面結(jié)合附圖,通過實施例進一步描述本發(fā)明,但不以任何方式限制本發(fā)明的范圍。本發(fā)明提出了一種用于行人重識別的深度判別網(wǎng)絡(luò)模型算法(以下簡稱ddn-im),其結(jié)構(gòu)如圖1所示。該算法是一種樣本二分類方法,即判斷輸入的兩張圖像中的行人是否屬于同一個行人,不涉及前期的行人定位與提取過程。該算法主要包含以下兩個步驟:1.深度判別網(wǎng)絡(luò)的架構(gòu)設(shè)計,具體步驟為:1)構(gòu)建圖像的原始差異性空間。將輸入的兩張圖像在顏色通道(r、g、b)上進行融合拼接,使成為包含6個通道(r、g、b、r、g、b)的“圖像”,將該“圖像”作為網(wǎng)絡(luò)直接學(xué)習(xí)的對象;2)設(shè)計3個相連的卷積模塊,用于學(xué)習(xí)輸入對象的差異性信息。每一個模塊中包含2個卷積操作、1個relu映射及1個最大池化操作,其中卷積核的大小為3*3,步長為1,采樣大小為2*2,步長為2,其它參數(shù)如圖1所示;3)設(shè)計一個inception模塊,緊接在卷積模塊的后面,可以增加網(wǎng)絡(luò)的深度和寬度。inception模塊的結(jié)構(gòu)設(shè)置和相關(guān)參數(shù)如表1所示,其中子網(wǎng)絡(luò)是指模塊中的4個平行網(wǎng)絡(luò);表1inception模塊的結(jié)構(gòu)設(shè)置和相關(guān)參數(shù)子網(wǎng)絡(luò)序號類型核尺寸/步長/填充輸入尺寸#1平均池化3*3/1/064*16*4-卷積(relu)1*1/1/064*16*4#2卷積(relu)1*1/1/064*16*4#3卷積(relu)1*1/1/064*16*4卷積(relu)3*3/1/064*16*4#4卷積(relu)1*1/1/064*16*4卷積(relu)3*3/1/064*16*4卷積(relu)3*3/1/096*16*44)最后設(shè)計一個非對稱的卷積操作進一步降低差異性維度,并使用全聯(lián)接和softmax方法計算輸入圖像之間的相似度。2.深度判別網(wǎng)絡(luò)的訓(xùn)練(參數(shù)學(xué)習(xí)):1)將數(shù)據(jù)集x中的行人圖片統(tǒng)一設(shè)為160*60大小,并隨機劃分為訓(xùn)練集t和測試集d;2)通過以下方式對訓(xùn)練集t中的圖片進行數(shù)據(jù)增強:(a)對圖片進行水平翻轉(zhuǎn)得到鏡像圖;(b)以圖片中心為基準,采樣5張在水平和豎直方向上隨機偏移一定大小的圖片;3)采用批量訓(xùn)練的方法,一次采樣128對行人圖片,并使用隨機梯度下降法更新網(wǎng)絡(luò)參數(shù),直到收斂。其中學(xué)習(xí)率設(shè)為0.05、動量為0.9、學(xué)習(xí)率衰減為0.0001以及權(quán)重衰減為0.0005;4)使用測試集d中的行人圖片對深度網(wǎng)絡(luò)進行評估。為了驗證inception模塊在深度判別網(wǎng)絡(luò)模型中的作用,本發(fā)明根據(jù)是否使用inception模塊、及inception分別放置在不同卷積模塊的后面做了相應(yīng)的對比實驗,結(jié)果如圖2所示,其中ddn-im0、ddn-im1、ddn-im2和ddn-im3分別表示沒有使用inception模塊、inception模塊放置在卷積模塊1、2和3后面??梢钥闯?,使了inception模塊的模型比沒使用的效果要好,且放在越后面,得到的提升會越明顯。表2列出了不同方法在cuhk01數(shù)據(jù)集上取得的cmc(cumulativematchcharacteristic,累積匹配特性)結(jié)果。表2不同方法在cuhk01數(shù)據(jù)集上取得的cmc結(jié)果表2中,esdc(existingsaliencedetectioncombination)為文獻(r.zhao,w.ouyang,andx.wang,“unsupervisedsaliencelearningforpersonre-identification,”inieeeconferenceoncomputervisionandpatternrecognition,2013,pp.3586–3593.)記載的與現(xiàn)有方法結(jié)合的顯著性檢測方法;kissme(keepitsimpleandstraightforwardmetriclearning,簡單直接的度量學(xué)習(xí))在文獻(m.hirzer,“l(fā)argescalemetriclearningfromequivalenceconstraints,”incomputervisionandpatternrecognition,2012,pp.2288–2295.)中記載。fpnn(filterpairingneuralnetwork,成對卷積核神經(jīng)元網(wǎng)絡(luò))在文獻(w.li,r.zhao,t.xiao,andx.wang,“deepreid:deepfilterpairingneuralnetworkforpersonre-identification,”inieeeconferenceoncomputervisionandpatternrecognition,2014,pp.152–159.)中記載;idla(improveddeeplearningarchitecture,改進的深度學(xué)習(xí)架構(gòu))在文獻(e.ahmed,m.jones,andt.k.marks,“animproveddeeplearningarchitectureforpersonre-identification,”inieeeconferenceoncomputervisionandpatternrecognition,2015,pp.3908–3916.)中記載;sircir(single-imagerrepresentationandcross-imagerepresentation,單一圖像表示和交叉圖像表示)在文獻(f.wang,w.zuo,l.lin,d.zhang,andl.zhang,“jointlearningofsingle-imageandcross-imagerepresentationsforpersonreidentification,”inieeeconferenceoncomputervisionandpatternrecognition,2016,pp.1288–1296.)中記載;personnet(personnetwork,行人網(wǎng)絡(luò))在文獻(l.wu,s.c.,anda.vandenhengel,“personnet:personreidentificationwithdeepconv.)中記載;normx-corr(normalizecrosscorrelation,歸一化交叉關(guān)聯(lián))在文獻(a.subramaniam,m.chatterjee,anda.mittal,“deepneuralnetworkswithinexactmatchingforpersonre-identification,”inadvancesinneuralinformationprocessingsystems29,2016,pp.2667–2675.)中記載。表3不同方法在qmulgrid數(shù)據(jù)集上取得的cmc結(jié)果方法rank=1rank=5rank=10rank=20參考來源lomo+xqda16.5633.8441.8447.68cvpr2015kepler18.4039.1250.2457.04tip2015normx-corr19.2038.4053.6066.40nips2016nlml24.5435.8643.53/cs2015ssdal+xqda22.4039.2048.00/arxiv2016dr-kiss20.6039.3051.40/tip2016scsp24.2444.5654.0859.68cvpr2016ssm27.20/61.1270.56arxiv2017本發(fā)明方法32.8056.0064.8080.80/表3中,lomo+xqda(localmaximumoccurrenceandcross-viewquadraticdiscriminantanalysis,局部最大直方圖頻數(shù)和交叉視覺二次判別分析)在文獻(s.liao,y.hu,x.zhu,ands.z.li,“personre-identificationbylocalmaximaloccurrencerepresentationandmetriclearning,”incomputervisionandpatternrecognition(cvpr),2015,pp.2197–2206.)中記載;kepler(kernelizedsaliency-basedpersonre-identificationthroughmultiplemetriclearning,通過多度量學(xué)習(xí)的基于核顯著性的行人再識別)在文獻(n.martinel,c.micheloni,andg.l.foresti,“kernelizedsaliencybasedpersonre-identificationthroughmultiplemetriclearning,”ieeetransactionsonimageprocessing,vol.24,no.12,pp.5645–5658,2015.)中記載;nlml(nonlinearlocalmetriclearning,非線性局部度量學(xué)習(xí))在文獻(s.huang,j.lu,j.zhou,anda.k.jain,“nonlinearlocalmetriclearningforpersonre-identification,”computerscience,2015.)中記載;ssdal+xqda(semi-superviseddeepattributelearningandcross-viewquadraticdiscriminantanalysis,半監(jiān)督深度屬性學(xué)習(xí)和交叉視覺二次判別分析)在文獻(c.su,s.zhang,j.xing,w.gao,andq.tian,“deepattributesdrivenmulti-camerapersonre-identification,”arxivpreprintarxiv:1605.03259,2016.)中記載;dr-kiss(dual-regularizedkiss,雙正則化kiss算法)在文獻(d.tao,y.guo,m.song,y.li,z.yu,andy.y.tang,“personreidentificationbydual-regularizedkissmetriclearning,”ieeetransactionsonimageprocessingapublicationoftheieeesignalprocessingsociety,vol.25,no.6,pp.2726–2738,2016.)中記載;scsp(spatiallyconstrainedsimilarityfunctiononpolynomialfeaturemap,基于多項式特征圖的部分約束相似函數(shù))在文獻(d.chen,z.yuan,b.chen,andn.zheng,“similaritylearningwithspatialconstraintsforpersonre-identification,”inieeeconferenceoncomputervisionandpatternrecognition,2016,pp.1268–1277.)中記載;ssm(supervisedsmoothedmanifold,監(jiān)督光滑流形)在文獻(s.bai,x.bai,andq.tian,“scalablepersonre-identificationonsupervisedsmoothedmanifold,”arxivpreprintarxiv:1703.08359,2017.)中記載。表4不同方法在prid2011數(shù)據(jù)集上取得的cmc結(jié)果表4中,itml(informationtheoreticmetriclearning,信息論度量學(xué)習(xí))記載在文獻(j.v.davis,b.kulis,p.jain,s.sra,andi.s.dhillon,“informationtheoreticmetriclearning,”inmachinelearning,proceedingsofthetwenty-fourthinternationalconference,2007,pp.209–216.)中;klfda(kernellocalfisherdiscriminantclassifier,核局部fisher判別分類器)在文獻(f.xiong,m.gou,o.camps,andm.sznaier,“personre-identificationusingkernel-basedmetriclearningmethods,”ineuropeanconferenceoncomputervision.springer,2014,pp.1–16.)中記載;dml(deepmetriclearning,深度度量學(xué)習(xí))在文獻(y.dong,l.zhen,s.liao,ands.z.li,“deepmetriclearningforpersonre-identification,”ininternationalconferenceonpatternrecognition,2014,pp.34–39)中記載;nullreid(nullspaceforpersonreid,零空間用于行人再識別)在文獻(l.zhang,t.xiang,ands.gong,“l(fā)earningadiscriminativenullspaceforpersonre-identification,”inieeeconferenceoncomputervisionandpatternrecognition,2016,pp.1239–1248.)中記載;ensembles(metricensembles,度量集合)在文獻(s.paisitkriangkrai,c.shen,andv.d.h.anton,“l(fā)earningtorankinpersonre-identificationwithmetricensembles,”inieeeconferenceoncomputervisionandpatternrecognition,2015,pp.1846–1855.)中記載;imptrploss(improvedtripletloss,改進的三元損失)在文獻(d.cheng,y.gong,s.zhou,j.wang,andn.zheng,“personreidentificationbymulti-channelparts-basedcnnwithimprovedtripletlossfunction,”inieeeconferenceoncomputervisionandpatternrecognition,2016,pp.1335–1344.)中記載;mtdnet(multi-taskdeepnetwork,多任務(wù)深度網(wǎng)絡(luò))在文獻(w.chen,x.chen,j.zhang,andk.huang,“amulti-taskdeepnetworkforpersonre-identification,”inthirty-firstaaaiconferenceonartificialintelligence,2017.)中記載。如上所述,本發(fā)明在三個不同的數(shù)據(jù)集上做了實驗,并與其它的方法進行了對比,表2、表3和表4分別列出了不同方法在cuhk01數(shù)據(jù)集、qmulgrid數(shù)據(jù)集和prid2011數(shù)據(jù)集上取得的cmc結(jié)果,可以看出,本發(fā)明所提出的深度判別網(wǎng)絡(luò)模型均有更優(yōu)的表現(xiàn),說明該算法有效性。需要注意的是,公布實施例的目的在于幫助進一步理解本發(fā)明,但是本領(lǐng)域的技術(shù)人員可以理解:在不脫離本發(fā)明及所附權(quán)利要求的精神和范圍內(nèi),各種替換和修改都是可能的。因此,本發(fā)明不應(yīng)局限于實施例所公開的內(nèi)容,本發(fā)明要求保護的范圍以權(quán)利要求書界定的范圍為準。當前第1頁12