1.一種基于深度學(xué)習(xí)編碼模型的人員再識別方法,其特征在于,包括以下步驟:
首先,利用非監(jiān)督RBM網(wǎng)絡(luò)采用自底向上的方式對提取的初始SIFT特征進(jìn)行編碼得到視覺詞典;
其次,采用自頂向下的方式為整個(gè)網(wǎng)絡(luò)參數(shù)進(jìn)行有監(jiān)督微調(diào);
然后,就是利用誤差反向傳播對初始視覺詞典進(jìn)行有監(jiān)督微調(diào),獲取視頻圖像新的圖像表達(dá)方式,也就是圖像深度學(xué)習(xí)表示向量;
最后,利用圖像深度學(xué)習(xí)表示向量訓(xùn)練線性SVM分類器用以對行人進(jìn)行分類識別。
2.根據(jù)權(quán)利要求1所述的基于深度學(xué)習(xí)編碼模型的人員再識別方法,其特征在于,具體包括以下步驟:
首先,提取訓(xùn)練圖像庫的SIFT特征;
其次,結(jié)合SIFT特征的空間信息,將鄰近的SIFT特征作為RBM的輸入,通過CD快速算法訓(xùn)練RBM,得到隱藏層特征;
然后,鄰近的隱藏層特征作為下一層RBM的輸入,得到輸出詞典;
ω1和ω2作為RBM的連接權(quán)重,RBM具有一個(gè)顯見層,一個(gè)隱層,但是在RBM中,同層的神經(jīng)元之間是無連接的,這樣學(xué)習(xí)使得過程更簡單。
3.根據(jù)權(quán)利要求2所述的基于深度學(xué)習(xí)編碼模型的人員再識別方法,其特征在于:在網(wǎng)絡(luò)的訓(xùn)練過程中,RBM的隱層與顯層之間是通過條件概率分布相關(guān)聯(lián)的,顯層和隱層的條件概率為:
其中,xi,zj分別代表特征層和編碼層,也就是RBM中的顯層與隱層;ωij為特征層xi與編碼層之間的連接權(quán)重系數(shù),給定權(quán)重系數(shù)矩陣ω和隱層偏置向量b,輸入層特征x就可以編碼為視覺詞典z,相應(yīng)的給出ω和顯層偏置矩陣c就可以由視覺詞典z重構(gòu)出特征x。對于RBM中一組給定的輸入層和編碼層(x,z),其能量函數(shù)可計(jì)算如下:
基于能量函數(shù),可得到(x,z)的聯(lián)合概率分布函數(shù):
進(jìn)而得到聯(lián)合分布的邊緣分布——特征輸入節(jié)點(diǎn)的概率分布,即:
而RBM網(wǎng)絡(luò)訓(xùn)練的目的就是使p(x)的值最大化,為此,對式(5)求其梯度得:
其中,<xizj>dist表示在分布dist下的期望,<xizj>data是指訓(xùn)練數(shù)據(jù)集經(jīng)驗(yàn)概率分布下的期望值,而<xizj>model指該模型下概率分布的期望值,通??捎擅商乜_馬爾可夫鏈方法來得到模型樣例:
通過CD算法對RBM進(jìn)行快速學(xué)習(xí),加快參數(shù)的收斂,可得到權(quán)值wij的更新量為:
Δωij=ε(<xizj>data-<xizj>model) (8)
其中ε為學(xué)習(xí)速率,通過CD算法,就可以得到不斷更新的參數(shù),一直到參數(shù)收斂,得到初始的視覺詞典。
4.根據(jù)權(quán)利要求3所述的基于深度學(xué)習(xí)編碼模型的人員再識別方法,其特征在于:在RBM目標(biāo)優(yōu)化函數(shù)中加入一個(gè)正則項(xiàng)h(z),將目標(biāo)函數(shù)調(diào)整如下:
其中,λ為正則項(xiàng)的加權(quán)系數(shù);深度學(xué)習(xí)編碼能夠使得學(xué)習(xí)得到的視覺詞典具較強(qiáng)的選擇性,并使得圖像表達(dá)向量具有較好的稀疏性。
5.根據(jù)權(quán)利要求4所述的基于深度學(xué)習(xí)編碼模型的人員再識別方法,其特征在于:利用視覺詞典對每一維特征響應(yīng)的均值就可以定量分析稀疏性與選擇性,即:
其中,是每個(gè)單詞針對K個(gè)特征平均激活概率的期望值,單詞zj對特征xk響應(yīng)概率的期望值可標(biāo)記為pjk∈(0,1),那么,整個(gè)詞典對K個(gè)輸入特征的響應(yīng)期望值可記為矩陣矩陣中的每一行元素pj·代表了單詞zj,1≤j≤J對K個(gè)輸入特征向量響應(yīng)的期望值,列向量p·k則代表了輸入特征xk在整個(gè)視覺詞典上的分布。
6.根據(jù)權(quán)利要求5所述的基于深度學(xué)習(xí)編碼模型的人員再識別方法,其特征在于:為了對整個(gè)RBM網(wǎng)絡(luò)進(jìn)行有監(jiān)督地微調(diào),定義交叉熵?fù)p失函數(shù)h(z)如下:
學(xué)習(xí)得到視覺詞典的稀疏性和選擇性與目標(biāo)矩陣P密切相關(guān),對視覺詞典而言,矩陣P中元素為:
其中,參數(shù)μ∈(0,1),這樣就可以獲得兼具稀疏性和選擇性的視覺詞典,進(jìn)而既能保證各視覺單詞的多樣性又能兼顧圖像局部特征表達(dá)之間的差異性,更加準(zhǔn)確地表達(dá)圖像內(nèi)容。
7.根據(jù)權(quán)利要求6所述的基于深度學(xué)習(xí)編碼模型的人員再識別方法,其特征在于:由于非監(jiān)督RBM學(xué)習(xí)模型的限制以及稀疏性約束使得模型能夠?qū)W習(xí)到訓(xùn)練數(shù)據(jù)本身的結(jié)構(gòu),從而得到比輸入更有表示能力的特征;然后根據(jù)訓(xùn)練數(shù)據(jù)的標(biāo)簽類別,誤差自頂向下傳播,對網(wǎng)絡(luò)各層參數(shù)進(jìn)行微調(diào)如下:
其中,φ(l)是一個(gè)超參數(shù)函數(shù),γ,η,ε代表學(xué)習(xí)速率,且有γ=ε-η;那么對于第一層網(wǎng)絡(luò)而言z(0)即為圖像SIFT特征輸入向量x,且也即是深度學(xué)習(xí)表示向量;那么最頂層網(wǎng)絡(luò)的參數(shù)就可更新如下:
其中,yc是指頂層輸出向量被判別為圖像類別C,在上述微調(diào)的過程中,采用最大交叉信息熵?fù)p失代表基于特征的分類誤差,將該誤差反向傳播至每層網(wǎng)絡(luò)中,并得到最終的深度學(xué)習(xí)表示向量,并用以訓(xùn)練SVM分類器,實(shí)現(xiàn)人員再分類識別。