本發(fā)明涉及一種基于深度學(xué)習(xí)編碼模型的人員再識別方法。
背景技術(shù):
近年來,隨著視頻監(jiān)控系統(tǒng)大量建設(shè)與應(yīng)用,使其在打擊犯罪、維護(hù)穩(wěn)定實(shí)踐中發(fā)揮著越來越重要的作用。當(dāng)前大多數(shù)監(jiān)控系統(tǒng)采用實(shí)時(shí)拍攝和人工監(jiān)視的形式,這要求監(jiān)控人員時(shí)刻注意監(jiān)控畫面,仔細(xì)分辨視頻中的事件,而這顯然是不現(xiàn)實(shí)的,何況人工查看的方式存在大量的疏漏和主觀誤差。考慮到日益增長的監(jiān)控視頻規(guī)模,這種方式所需的人力成本也將難以承受,而且效率低下。因此,急需方便快捷的方法來替代現(xiàn)有的人工主導(dǎo)的監(jiān)控體系。強(qiáng)烈的現(xiàn)實(shí)需求和計(jì)算機(jī)相關(guān)技術(shù)的進(jìn)步,催生了人員再識別技術(shù)(Person Re-identification),該技術(shù)也成為了當(dāng)前視頻智能監(jiān)控領(lǐng)域中一個(gè)極具有挑戰(zhàn)性的問題,其主要任務(wù)是完成跨攝像頭的行人搜索與識別。人員再識別技術(shù)主要是通過視覺比對的方式將視場不重疊的多個(gè)攝像機(jī)所拍攝到的屬于同一個(gè)行人的圖像或者視頻片段關(guān)聯(lián)起來的技術(shù)。
在整個(gè)人員再識別系統(tǒng)中,特征提取和分類器設(shè)計(jì)是兩個(gè)基本也是關(guān)鍵的步驟,目前一些學(xué)者對行人識別和分類的研究主要集中在這兩個(gè)方面,且取得了很大的成果。有人引入了利用HOG進(jìn)行行人檢測。有文獻(xiàn)把紋理邊緣描述子(Texture-Edge Descriptor,TED)特征應(yīng)用于視頻序列中的行人檢測,此特征包括紋理和垂直方向的邊緣信息,適用于室內(nèi)外的不同環(huán)境。另外,行人識別中常用的特征還有PCA特征、Harr特征、SIFT特征和積分通道特征等。在機(jī)器學(xué)習(xí)中常用泛化能力較好的分類器進(jìn)行行人分類識別和檢測,如支持向量機(jī)(Support Vector Machine,SVM)分類器、多核SVM(MultiKernel SVM,MKSVM)分類器、AdaBoost分類器等?;跓o監(jiān)督的深度學(xué)習(xí)(Deep Learning)是關(guān)于自動(dòng)學(xué)習(xí)要建模的數(shù)據(jù)的潛在分布的多層表達(dá)算法,故能自動(dòng)提取分類需要的低層次或者高層次特征。因此,它用數(shù)據(jù)學(xué)習(xí)特征,避免了大量的手工設(shè)計(jì)數(shù)據(jù),在使用中非常方便而且效果也更好。深度學(xué)習(xí)結(jié)合了監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的優(yōu)點(diǎn),因此既強(qiáng)調(diào)了網(wǎng)絡(luò)結(jié)構(gòu)的深度又突出了特征表達(dá)的能力。此外,詞袋方法(Bag of Words,BoW)是基于視覺信息的識別方法中利用目標(biāo)的外觀表象信息的一種常用的目標(biāo)建模方法。它的核心思想是利用一組視覺單詞表示目標(biāo)圖像。近年來,詞袋模型在許多目標(biāo)和場景的圖像數(shù)據(jù)集上取得了良好的分類識別性能。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提出一種基于深度學(xué)習(xí)編碼模型的人員再識別方法,有效地解決了傳統(tǒng)特征提取技術(shù)因監(jiān)控視頻質(zhì)量較差,視角和光照差異引起效果不好、魯棒性不強(qiáng)的問題及傳統(tǒng)分類器的高運(yùn)算復(fù)雜度,有效地提高了人員目標(biāo)檢測的準(zhǔn)確度和特征表達(dá)的性能并能高效地識別出監(jiān)控視頻中的行人。
本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的:
一種基于深度學(xué)習(xí)編碼模型的人員再識別方法,包括以下步驟:
首先,利用非監(jiān)督RBM網(wǎng)絡(luò)采用自底向上的方式對初始SIFT特征進(jìn)行編碼得到視覺詞典;
其次,采用自頂向下的方式為整個(gè)網(wǎng)絡(luò)參數(shù)進(jìn)行有監(jiān)督微調(diào);
然后,就是利用誤差反向傳播對初始視覺詞典進(jìn)行有監(jiān)督微調(diào),獲取視頻圖像新的圖像表達(dá)方式,也就是圖像深度學(xué)習(xí)表示向量;
最后,利用圖像深度學(xué)習(xí)表示向量訓(xùn)練線性SVM分類器用以對行人進(jìn)行分類識別。
進(jìn)一步地,所述的基于深度學(xué)習(xí)編碼模型的人員再識別方法,首先,提取訓(xùn)練圖像庫的SIFT特征;其次,結(jié)合SIFT特征的空間信息,將鄰近的SIFT特征作為RBM的輸入,通過CD快速算法訓(xùn)練RBM,得到隱藏層特征;然后鄰近的隱藏層特征作為下一層RBM的輸入,得到輸出詞典;ω1和ω2作為RBM的連接權(quán)重,RBM具有一個(gè)顯見層,一個(gè)隱層,但是在RBM中,同層的神經(jīng)元之間是無連接的,這樣學(xué)習(xí)使得過程更簡單。
在網(wǎng)絡(luò)的訓(xùn)練過程中,RBM的隱層與顯層之間是通過條件概率分布相關(guān)聯(lián)的,顯層和隱層的條件概率為:
其中,xi,zj分別代表特征層和編碼層,也就是RBM中的顯層與隱層。ωij為特征層xi與編碼層之間的連接權(quán)重系數(shù),給定權(quán)重系數(shù)矩陣ω和隱層偏置向量b,輸入層特征x就可以編碼為視覺詞典z,相應(yīng)的給出ω和顯層偏置矩陣c就可以由視覺詞典z重構(gòu)出特征x。對于RBM中一組給定的輸入層和編碼層(x,z),其能量函數(shù)可計(jì)算如下:
基于能量函數(shù),可得到(x,z)的聯(lián)合概率分布函數(shù):
進(jìn)而得到聯(lián)合分布的邊緣分布——特征輸入節(jié)點(diǎn)的概率分布,即:
而RBM網(wǎng)絡(luò)訓(xùn)練的目的就是使p(x)的值最大化,為此,對式(5)求其梯度得,
其中,<xizj>dist表示在分布dist下的期望,<xizj>data是指訓(xùn)練數(shù)據(jù)集經(jīng)驗(yàn)概率分布下的期望值,而<xizj>model指該模型下概率分布的期望值,通??捎擅商乜_馬爾可夫鏈(Monte-Carlo Markov chain,MCMC)方法來得到模型樣例:
通過CD算法對RBM進(jìn)行快速學(xué)習(xí),加快參數(shù)的收斂,可得到權(quán)值wij的更新量為:
Δωij=ε(<xizj>data-<xizj>model) (8)
其中ε為學(xué)習(xí)速率,通過CD算法,就可以得到不斷更新的參數(shù),一直到參數(shù)收斂,得到初始的視覺詞典。
進(jìn)一步地,所述的基于深度學(xué)習(xí)編碼模型的人員再識別方法,為了更加準(zhǔn)確地表達(dá)圖像內(nèi)容,在RBM目標(biāo)優(yōu)化函數(shù)中加入一個(gè)正則項(xiàng)h(z),將目標(biāo)函數(shù)調(diào)整如下:
其中,λ為正則項(xiàng)的加權(quán)系數(shù)。深度學(xué)習(xí)編碼能夠使得學(xué)習(xí)得到的視覺詞典具較強(qiáng)的選擇性,并使得圖像表達(dá)向量具有較好的稀疏性。
稀疏性的核心思想是使用少量的基向量來有效而簡潔地表示圖像內(nèi)容。具體的就是稀疏向量中大部分分量為零,只有少數(shù)分量為非零,而少數(shù)非零系數(shù)則揭示了圖像數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和本質(zhì)屬性。它是對編碼向量對輸入特征響應(yīng)的一種度量準(zhǔn)則。選擇性就是度量一個(gè)單一視覺單詞對輸入特征向量的響應(yīng)。視覺詞典兼具稀疏性和選擇性,可以認(rèn)為詞典中的單詞具有多樣性,且單詞之間不具有相關(guān)性。若覺詞典只具有選擇性,如此會導(dǎo)致某些輸入特征向量被忽視或者過表達(dá)的現(xiàn)象。若視覺詞典只具有稀疏性,它會導(dǎo)致視覺詞典中的單詞相關(guān)性較強(qiáng),加大冗余。
利用視覺詞典對每一維特征響應(yīng)的均值就可以定量分析稀疏性與選擇性,即:
其中,是每個(gè)單詞針對K個(gè)特征平均激活概率的期望值,單詞zj對特征xk響應(yīng)概率的期望值可標(biāo)記為pjk∈(0,1),那么,整個(gè)詞典對K個(gè)輸入特征的響應(yīng)期望值可記為矩陣矩陣中的每一行元素pj·代表了單詞zj,1≤j≤J對K個(gè)輸入特征向量響應(yīng)的期望值,列向量p·k則代表了輸入特征xk在整個(gè)視覺詞典上的分布。因此,為了對整個(gè)RBM網(wǎng)絡(luò)進(jìn)行有監(jiān)督地微調(diào),定義交叉熵?fù)p失函數(shù)h(z)如下:
學(xué)習(xí)得到視覺詞典的稀疏性和選擇性與目標(biāo)矩陣P密切相關(guān),對視覺詞典而言,矩陣P中元素為:
其中,參數(shù)μ∈(0,1),這樣就可以獲得兼具稀疏性和選擇性的視覺詞典,進(jìn)而既能保證各視覺單詞的多樣性又能兼顧圖像局部特征表達(dá)之間的差異性,更加準(zhǔn)確地表達(dá)圖像內(nèi)容。
進(jìn)一步地,所述的基于深度學(xué)習(xí)編碼模型的人員再識別方法,由于深度學(xué)習(xí)編碼需要對多層網(wǎng)絡(luò)進(jìn)行訓(xùn)練學(xué)習(xí),而無監(jiān)督RBM網(wǎng)絡(luò)在訓(xùn)練時(shí)存在一個(gè)問題就是,若對所有層同時(shí)訓(xùn)練,時(shí)間復(fù)雜度會太高;如果每次訓(xùn)練一層,偏差就會逐層傳遞,從而導(dǎo)致嚴(yán)重的欠擬合問題。為此,在利用深度學(xué)習(xí)對SIFT特征編碼時(shí),首先采用自底向上的非監(jiān)督RBM分層訓(xùn)練各層參數(shù)每層網(wǎng)絡(luò)生成視覺詞典,訓(xùn)練時(shí)逐層學(xué)習(xí)每一層參數(shù),降低時(shí)間復(fù)雜度。此外,由于非監(jiān)督RBM學(xué)習(xí)模型的限制以及稀疏性約束使得模型能夠?qū)W習(xí)到訓(xùn)練數(shù)據(jù)本身的結(jié)構(gòu),從而得到比輸入更有表示能力的特征;然后根據(jù)訓(xùn)練數(shù)據(jù)的標(biāo)簽類別,誤差自頂向下傳播,對網(wǎng)絡(luò)各層參數(shù)進(jìn)行微調(diào)如下:
其中,φ(l)是一個(gè)超參數(shù)函數(shù),γ,η,ε代表學(xué)習(xí)速率,且有γ=ε-η。那么對于第一層網(wǎng)絡(luò)而言z(0)即為圖像SIFT特征輸入向量x,且也即是深度學(xué)習(xí)表示向量。那么最頂層網(wǎng)絡(luò)的參數(shù)就可更新如下:
其中,yc是指頂層輸出向量被判別為圖像類別C,在上述微調(diào)的過程中,采用最大交叉信息熵?fù)p失代表基于特征的分類誤差,然后該誤差反向傳播至每層網(wǎng)絡(luò)中。
綜上,整個(gè)基于深度學(xué)習(xí)編碼模型的人員再識別方法可以分為三個(gè)階段,第一階段就是利用非監(jiān)督RBM網(wǎng)絡(luò)采用自底向上的方式對初始SIFT特征進(jìn)行編碼得到視覺詞典,然后就是利用自頂向下的方式為整個(gè)網(wǎng)絡(luò)參數(shù)進(jìn)行有監(jiān)督微調(diào);第三階段就是利用誤差反向傳播對初始視覺詞典進(jìn)行有監(jiān)督微調(diào),獲得新的圖像表達(dá)方式,也即是圖像深度學(xué)習(xí)表示向量訓(xùn)練線性SVM分類器用以對行人進(jìn)行分類識別。
本發(fā)明的有益積極效果:
1、本發(fā)明基于深度學(xué)習(xí)編碼模型的人員再識別方法,與傳統(tǒng)的稀疏編碼方法相比,是一種深層的編碼學(xué)習(xí),不需要對每一個(gè)局部特征進(jìn)行編碼操作,當(dāng)特征數(shù)量和詞典規(guī)模較大的時(shí)候,會提高編碼效率,節(jié)約大量的時(shí)間。其次,由深度學(xué)習(xí)編碼學(xué)習(xí)得到的稀疏向量兼具稀疏性和選擇性,能夠大大提高特征對圖像內(nèi)容的分辨力,進(jìn)而提高人員再識別的準(zhǔn)確度。
實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)方法相比,新方法較好地提高了視覺詞典的稀疏性和選擇性,提取的特征能夠更加準(zhǔn)確的表達(dá)圖像本質(zhì)屬性,從而很好地提升人員再識別準(zhǔn)確度。
2、本發(fā)明基于深度學(xué)習(xí)編碼模型的人員再識別方法,在數(shù)據(jù)規(guī)模增大的情況下,依然可以保持較高的時(shí)間效率,具有更強(qiáng)的實(shí)用性。
附圖說明
圖1為基于卷積神經(jīng)網(wǎng)絡(luò)的行人檢測結(jié)果;
圖2為基于深度學(xué)習(xí)編碼模型的人員再識別流程圖;
圖3為無監(jiān)督RBM特征編碼示意圖;
圖4為視覺詞典稀疏性和選擇性示意圖,其中,(a)表示的視覺詞典兼具稀疏性和選擇性,(b)表示的視覺詞典只具有選擇性,(c)表示的視覺詞典只具有稀疏性,
圖5為不同視覺詞典對人員再識別準(zhǔn)確率的影響;
圖6為有監(jiān)督微調(diào)對人員再識別準(zhǔn)確率的影響。
具體實(shí)施方式
實(shí)施例一:本實(shí)施例基于深度學(xué)習(xí)編碼模型的人員再識別方法針對矢量量化編碼的量化誤差嚴(yán)重,而稀疏編碼只是一種淺層學(xué)習(xí)模型,容易導(dǎo)致視覺詞典對圖像特征缺乏選擇性的問題。首先,采用深度學(xué)習(xí)網(wǎng)絡(luò)—無監(jiān)督的受限玻爾茲曼機(jī)(RBM)代替?zhèn)鹘y(tǒng)的K-Means聚類及稀疏編碼等方法對SIFT特征庫進(jìn)行編碼學(xué)習(xí),生成視覺詞典;其次,根據(jù)學(xué)習(xí)得到的詞典,得到每一個(gè)SIFT特征對應(yīng)的稀疏向量,并對其進(jìn)行融合得到圖像的深度學(xué)習(xí)表示向量,并以此訓(xùn)練SVM分類器;然后,利用訓(xùn)練數(shù)據(jù)的類別標(biāo)簽信息對RBM網(wǎng)絡(luò)學(xué)習(xí)進(jìn)行有監(jiān)督的微調(diào),并利用SVM分類器完成行人分類識別。
與傳統(tǒng)的稀疏編碼方法及其改進(jìn)算法相比,有效地降低了時(shí)間開銷,并且能在一定程度上提高視覺詞典的稀疏性和選擇性,增強(qiáng)了人員再識別的準(zhǔn)確度及效率。
實(shí)施例二:參見圖2、圖3,本實(shí)施例的基于深度學(xué)習(xí)編碼模型的人員再識別方法,采用下述步驟,生成兼具稀疏性和選擇性的視覺詞典:
首先,提取訓(xùn)練圖像庫的SIFT特征;提取SIFT特征;其次,結(jié)合SIFT特征的空間信息,將鄰近的SIFT特征作為RBM的輸入,通過CD快速算法訓(xùn)練RBM,得到隱藏層特征;然后鄰近的隱藏層特征作為下一層RBM的輸入,得到輸出詞典。其中,ω1和ω2是RBM的連接權(quán)重,RBM具有一個(gè)顯見層,一個(gè)隱層,但是在RBM中,同層的神經(jīng)元之間是無連接的,這樣學(xué)習(xí)使得過程更簡單。
在網(wǎng)絡(luò)的訓(xùn)練過程中,RBM的隱層與顯層間之間是通過條件概率分布相關(guān)聯(lián)的,顯層層和隱層的條件概率為:
其中,xi,zj分別代表特征層和編碼層,也即是RBM中的顯層與隱層。ωij為特征層xi與編碼層之間的連接權(quán)重系數(shù),給定權(quán)重系數(shù)矩陣ω和隱層偏置向量b,輸入層特征x就可以編碼為視覺詞典z,相應(yīng)的給出ω和顯層偏置矩陣c就可以由視覺詞典z重構(gòu)出特征x。對于RBM中一組給定的輸入層和編碼層(x,z),其能量函數(shù)可計(jì)算如下:
基于能量函數(shù),可得到(x,z)的聯(lián)合概率分布函數(shù):
進(jìn)而得到聯(lián)合分布的邊緣分布——特征輸入節(jié)點(diǎn)的概率分布,即:
而RBM網(wǎng)絡(luò)訓(xùn)練的目的就是使p(x)的值最大化,為此,對式(5)求其梯度得:
其中,<xizj>dist表示在分布dist下的期望,<xizj>data是指訓(xùn)練數(shù)據(jù)集經(jīng)驗(yàn)概率分布下的期望值,而<xizj>model指該模型下概率分布的期望值,通??捎擅商乜_馬爾可夫鏈(Monte-Carlo Markov chain,MCMC)方法來得到模型樣例:
通過CD算法對RBM進(jìn)行快速學(xué)習(xí),加快參數(shù)的收斂,可得到權(quán)值wij的更新量為
Δωij=ε(<xizj>data-<xizj>model) (8)
其中ε為學(xué)習(xí)速率,通過CD算法,就可以得到不斷更新的參數(shù),一直到參數(shù)收斂,得到初始的視覺詞典。
實(shí)施例三:參見圖4,本實(shí)施例為了更加準(zhǔn)確地表達(dá)圖像內(nèi)容,在RBM目標(biāo)優(yōu)化函數(shù)中加入一個(gè)正則項(xiàng)h(z),將目標(biāo)函數(shù)調(diào)整如下:
其中,λ為正則項(xiàng)的加權(quán)系數(shù)。深度學(xué)習(xí)編碼能夠使得學(xué)習(xí)得到的視覺詞典具較強(qiáng)的選擇性,并使得圖像表達(dá)向量具有較好的稀疏性。
利用視覺詞典對每一維特征響應(yīng)的均值就可以定量分析稀疏性與選擇性,即:
其中,是每個(gè)單詞針對K個(gè)特征平均激活概率的期望值,單詞zj對特征xk響應(yīng)概率的期望值可標(biāo)記為pjk∈(0,1),那么,整個(gè)詞典對K個(gè)輸入特征的響應(yīng)期望值可記為矩陣矩陣中的每一行元素pj·代表了單詞zj,1≤j≤J對K個(gè)輸入特征向量響應(yīng)的期望值,列向量p·k則代表了輸入特征xk在整個(gè)視覺詞典上的分布。因此,為了對整個(gè)RBM網(wǎng)絡(luò)進(jìn)行有監(jiān)督地微調(diào),定義交叉熵?fù)p失函數(shù)h(z)如下:
學(xué)習(xí)得到視覺詞典的稀疏性和選擇性與目標(biāo)矩陣P密切相關(guān),對視覺詞典而言,矩陣P中元素為:
其中,參數(shù)μ∈(0,1),這樣就可以獲得兼具稀疏性和選擇性的視覺詞典,進(jìn)而既能保證各視覺單詞的多樣性又能兼顧圖像局部特征表達(dá)之間的差異性,更加準(zhǔn)確地表達(dá)圖像內(nèi)容。
由于深度學(xué)習(xí)編碼需要對多層網(wǎng)絡(luò)進(jìn)行訓(xùn)練學(xué)習(xí),而無監(jiān)督RBM網(wǎng)絡(luò)在訓(xùn)練時(shí)存在一個(gè)問題就是,若對所有層同時(shí)訓(xùn)練,時(shí)間復(fù)雜度會太高;如果每次訓(xùn)練一層,偏差就會逐層傳遞,從而導(dǎo)致嚴(yán)重的欠擬合問題。為此,在利用深度學(xué)習(xí)對SIFT特征編碼時(shí),首先采用自底向上的非監(jiān)督RBM分層訓(xùn)練各層參數(shù)每層網(wǎng)絡(luò)生成視覺詞典,訓(xùn)練時(shí)逐層學(xué)習(xí)每一層參數(shù),降低時(shí)間復(fù)雜度。此外,由于非監(jiān)督RBM學(xué)習(xí)模型的限制以及稀疏性約束使得模型能夠?qū)W習(xí)到訓(xùn)練數(shù)據(jù)本身的結(jié)構(gòu),從而得到比輸入更有表示能力的特征;然后根據(jù)訓(xùn)練數(shù)據(jù)的標(biāo)簽類別,誤差自頂向下傳播,對網(wǎng)絡(luò)各層參數(shù)進(jìn)行微調(diào)如下:
其中,φ(l)是一個(gè)超參數(shù)函數(shù),γ,η,ε代表學(xué)習(xí)速率,且有γ=ε-η。那么對于第一層網(wǎng)絡(luò)而言z(0)即為圖像SIFT特征輸入向量x,且也即是深度學(xué)習(xí)表示向量。那么最頂層網(wǎng)絡(luò)的參數(shù)就可更新如下:
其中,yc是指頂層輸出向量被判別為圖像類別C,在上述微調(diào)的過程中,采用最大交叉信息熵?fù)p失代表基于特征的分類誤差,然后該誤差反向傳播至每層網(wǎng)絡(luò)中,然后得到最終的圖像深度學(xué)習(xí)表示向量,并利用其進(jìn)行訓(xùn)練SVM分類器,實(shí)現(xiàn)人員分類識別。
實(shí)驗(yàn)結(jié)果與分析
這里分別在常用的:INRIA圖像集、TUD圖像集對本實(shí)例性能進(jìn)行評估。:INRIA數(shù)據(jù)庫是目前使用多的靜態(tài)行人檢測數(shù)據(jù)庫且圖片中人體大部分為站立姿勢,它的訓(xùn)練集有正樣本614張,負(fù)樣本1218張;測試集有正樣本288張,負(fù)樣本453張。TUD行人數(shù)據(jù)庫采集于車載攝像機(jī),它的訓(xùn)練集正樣本為1092對圖像(包含1776個(gè)行人),負(fù)樣本為192對非行人圖像。在有監(jiān)督微調(diào)階段從每個(gè)圖像類別中隨機(jī)選取100幅圖像用以有監(jiān)督地微調(diào)整個(gè)RBM網(wǎng)絡(luò),并用同樣的數(shù)據(jù)訓(xùn)練線性SVM分類器,每個(gè)類別中的剩余圖像用作測試圖像集。人員識別性能評價(jià)指標(biāo)為平均準(zhǔn)確率(Average Precision,AP)以及時(shí)間開銷。相關(guān)定義如下:
參數(shù)的影響
首先,在INRIA圖像集上進(jìn)行分類識別實(shí)驗(yàn),分析不同視覺詞典規(guī)模對的影響,結(jié)果如圖5所示。從圖5中不難看出,在一定范圍內(nèi),隨著視覺詞典規(guī)模的增加人員再識別的準(zhǔn)確率有著明顯的提升,然而,當(dāng)視覺詞典規(guī)模達(dá)到一定數(shù)量時(shí),識別準(zhǔn)確率會增長緩慢甚至?xí)兴档?,這是因?yàn)楫?dāng)詞典規(guī)模較小時(shí),視覺詞典中的單詞不足以表達(dá)全部的圖像內(nèi)容,而當(dāng)視覺詞典規(guī)模過大時(shí)會導(dǎo)致詞典中有一定的冗余信息,降低視覺詞典的語義分辨能力。因此,針對不同的數(shù)據(jù)只有選擇合適的詞典規(guī)模才能達(dá)到較好的識別效果,后續(xù)實(shí)驗(yàn)中選取詞典規(guī)模為1024。
其次,為了驗(yàn)證有監(jiān)督微調(diào)對識別的效果,在同樣的數(shù)據(jù)和詞典規(guī)模下分別采用有監(jiān)督的微調(diào)和不進(jìn)行微調(diào)進(jìn)行10次識別實(shí)驗(yàn),得識別結(jié)果如圖6所示。從圖6可以看出,利用RBM對SIFT特征進(jìn)行編碼時(shí),在有監(jiān)督微調(diào)之后可以明顯的改善人員識別性能。這是因?yàn)椋斜O(jiān)督微調(diào)可以利用誤差反向傳播的方式更好地調(diào)整網(wǎng)絡(luò)各層參數(shù)。
實(shí)驗(yàn)性能分析
首先,分別在INRIA數(shù)據(jù)集和TUD數(shù)據(jù)集上進(jìn)行識別實(shí)驗(yàn),將本方法與其他幾種經(jīng)典的人員識別方法包括基于傳統(tǒng)視覺詞袋模型的方法以及基于稀疏編碼模型的方法進(jìn)行比較,以驗(yàn)證本方法性能,識別表AP值如表1所示。
表1不同方法在INRIA數(shù)據(jù)集與TUD數(shù)據(jù)集上的識別結(jié)果
從表1可以看出,ScSPM方法和LLC方法由于得到了圖像語義的稀疏表達(dá),其識別性能要優(yōu)于傳統(tǒng)的基于硬分配的視覺詞袋模型方法(HA)和基于軟分配的視覺詞袋模型方法(SA)。本方法由于利用RBM對SIFT特征進(jìn)行深度編碼,并利用訓(xùn)練數(shù)據(jù)的類別信息對整個(gè)編碼網(wǎng)絡(luò)進(jìn)行有監(jiān)督微調(diào),使得視覺詞典具有很好的選擇性且圖像表示向量具有稀疏性,因此,其分識別性能要優(yōu)于ScSPM方法以及LLC方法。
然后,我們在數(shù)據(jù)集INRIA數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),將本方法與其他方法之間的人員再識別時(shí)間效率進(jìn)行分析對比,得平均訓(xùn)練時(shí)間和平均測試時(shí)間如表2所示。從表2可以看出,由于ScSPM方法、LLC方法以及本方法采用線性SVM分類器進(jìn)行分類識別,因此,它們的訓(xùn)練時(shí)間要遠(yuǎn)低于SA方法。由于LLC方法叫較之于ScSPM方法作了一些優(yōu)化工作,所以其訓(xùn)練和測試時(shí)間要高于ScSPM方法。綜合,表1和表2可以看出,本方法可以取得較好識別性能的情況下,消耗最少的識別時(shí)間,尤其適用于大規(guī)模數(shù)據(jù)下的人員再識別。
表2不同方法在數(shù)據(jù)集15-Scenes上的時(shí)間效率對比
相關(guān)知識
1.1深度學(xué)習(xí)相關(guān)理論
深度學(xué)習(xí)的概念起源于人工神經(jīng)網(wǎng)絡(luò),其基本思想是利用多層非線性運(yùn)算單元構(gòu)建深度學(xué)習(xí)網(wǎng)絡(luò),并將較低層的輸出作為更高層的輸入,以此從大量輸入數(shù)據(jù)中學(xué)習(xí)得到有效的高階特征表示,最后將這些高階特征表示用于解決分類、回歸和信息檢索等特定問題。得益于深度學(xué)習(xí)的強(qiáng)大表達(dá)能力,它已經(jīng)被成功應(yīng)用于文本數(shù)據(jù)學(xué)習(xí)和視覺識別任務(wù)當(dāng)中。
相較于淺學(xué)習(xí)而言,深度學(xué)習(xí)具有更強(qiáng)的特征表達(dá)能力,然而,非凸目標(biāo)函數(shù)產(chǎn)生的局部最優(yōu)解是造成深度學(xué)習(xí)困難的主要因素,且情況隨著網(wǎng)絡(luò)深度的增加而越發(fā)復(fù)雜。針對該問題,2006年,Hinton等人提出了一種用于深度置信網(wǎng)絡(luò)的無監(jiān)督學(xué)習(xí)算法,有效地解決了深度學(xué)習(xí)模型訓(xùn)練困難的問題。Ranzato等人提出用無監(jiān)督學(xué)習(xí)初始化每一層神經(jīng)網(wǎng)絡(luò)的想法。具體的在圖像分類識別領(lǐng)域,2012年,Srivastava等人提出了一種多模式深度置信網(wǎng)絡(luò)模型(Multimodal Deep Belief Network,MDBN),該模型對圖像和圖像標(biāo)注數(shù)據(jù)分別建立DBN,在最頂層通過學(xué)習(xí)聯(lián)合受限玻爾茲曼機(jī)將這兩個(gè)DBN結(jié)合起來,取得了較好的圖像分類性能。同年,Krizhevsky等人構(gòu)建了具有6千萬個(gè)參數(shù)、65萬神經(jīng)元的大規(guī)模深度卷積神經(jīng)網(wǎng)絡(luò),利用GPU加速學(xué)習(xí)過程,在ILSVRC-2012比賽中成功地將圖像分類誤判率從26.2%降到15.3%,取得了遠(yuǎn)超其他方法的結(jié)果。2013年,Munawar等人在堆棧自編碼網(wǎng)絡(luò)的基礎(chǔ)上提出了基于模板的深度重構(gòu)模型(Template Deep Reconstruction Model,TDRM),該模型利用無監(jiān)督的貪婪逐層訓(xùn)練算法訓(xùn)練高斯受限波爾茲曼機(jī)(Gaussian Restricted Boltzmann Machines,GRBM),并將訓(xùn)練好的參數(shù)作為TDRM的初始值,減少了TDRM參數(shù)訓(xùn)練時(shí)間,在Pascal VOC 2013年圖像分類競賽中取得了最好的成績。
然而,上述基于深度學(xué)習(xí)的圖像分類識別方法都是以訓(xùn)練圖像集的像素級數(shù)據(jù)作為輸入,然后學(xué)習(xí)得到若干維的圖像表達(dá)向量,這種方法的時(shí)間復(fù)雜度和計(jì)算復(fù)雜度都極高,需要耗費(fèi)大量的人力物力。此外,對學(xué)習(xí)得到的特征解釋性差,也即是這種圖像內(nèi)容的表達(dá)方式也仍然停留在底層視覺特征層面。
1.2視覺詞袋模型
Sivic等人借鑒文本處理領(lǐng)域中的詞袋模型(Bag of Words,BoW),提出了視覺詞袋模型(Bag of Visual Words Model,BoVWM),成功地把自然語言處理領(lǐng)域的一些方法應(yīng)用到了圖像處理領(lǐng)域。
視覺詞袋模型首先從訓(xùn)練圖像庫中提取大量的SIFT特征,并對其進(jìn)行聚類生成視覺詞典;然后,提取測試圖像的SIFT特征,并將它們與視覺詞典中的單詞進(jìn)行匹配映射;最后,統(tǒng)計(jì)各單詞出現(xiàn)的頻率,得到表征測試圖像語義內(nèi)容的視覺詞匯分布直方圖特征。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。