本發(fā)明屬于計(jì)算機(jī)視覺監(jiān)控技術(shù)領(lǐng)域,具體涉及一種基于多層次深度特征融合的攝像機(jī)網(wǎng)絡(luò)行人識別方法。
背景技術(shù):
近年來,攝像機(jī)網(wǎng)絡(luò)已經(jīng)越來越多地應(yīng)用于機(jī)場、地鐵站、廣場、銀行等公共場所的視頻監(jiān)控。在無重疊視域的多攝像機(jī)之間匹配行人目標(biāo)的問題,我們稱之為行人識別問題,其目的在于從整個(gè)攝像機(jī)網(wǎng)絡(luò)中找到一個(gè)或者幾個(gè)感興趣的行人目標(biāo)。
行人識別問題一直是計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn),利用該技術(shù)可以對監(jiān)控視頻中的行人進(jìn)行自動分析,從而改變了傳統(tǒng)人工對大量視頻數(shù)據(jù)進(jìn)行監(jiān)察的方式,大大節(jié)約了人力成本,提高了視頻處理的效率。然而在攝像機(jī)網(wǎng)絡(luò)中,由于不同攝像頭的拍攝視角變化、監(jiān)控環(huán)境的光照變化、行人的姿態(tài)變化,加上復(fù)雜變換的背景和遮擋等問題,導(dǎo)致了相同的人在不同視頻中的視覺外觀產(chǎn)生較大的差異,這給行人識別帶來了巨大的挑戰(zhàn)。針對同一個(gè)人在不同光照和拍攝環(huán)境下的圖像外觀會出現(xiàn)不一致的問題,已有很多研究人員在行人特征提取方面做了大量的研究工作,致力于找到一種對光照、拍攝角度、人體姿態(tài)等具有不變性的特征表示,比如ELF、SDALF、kBiCov、LDFV等。這些手工提取或基于學(xué)習(xí)的特征描述子在行人識別領(lǐng)域取得了一定的成果,但都屬于淺層特征,對行人圖片的表征能力有限。
深度特征是利用深度卷積神經(jīng)網(wǎng)絡(luò)提取的特征,近年來,深度學(xué)習(xí)在語音識別、圖像識別、自然語言處理等領(lǐng)域都獲得了突破性的進(jìn)展,其采用的模型為深層神經(jīng)網(wǎng)絡(luò)模型,即包含多個(gè)隱層的神經(jīng)網(wǎng)絡(luò),多層非線性結(jié)構(gòu)使其具備強(qiáng)大的特征表達(dá)能力和對復(fù)雜任務(wù)的建模能力。但是目前還沒有有效的方法來充分利用多層次的深度特征用于行人識別任務(wù)。一方面,在實(shí)際的監(jiān)控場景中,由于帶標(biāo)簽的行人樣本量往往較少,不足以對深度網(wǎng)絡(luò)進(jìn)行充分訓(xùn)練,因此難以提取行人圖片的魯棒性深度特征;另一方面,由于卷積神經(jīng)網(wǎng)絡(luò)的最后一層為Softmax分類器,它的局限在于只能將前一層的輸出作為輸入的特征進(jìn)行分類,不能充分利用不同層次的深度特征。
技術(shù)實(shí)現(xiàn)要素:
基于上述,本發(fā)明提供了一種基于多層次深度特征融合的攝像機(jī)網(wǎng)絡(luò)行人識別方法,適用于對多攝像機(jī)網(wǎng)絡(luò)中的行人樣本進(jìn)行分類以實(shí)現(xiàn)行人識別,能夠有效提高對行人目標(biāo)進(jìn)行識別的準(zhǔn)確率。
一種基于多層次深度特征融合的攝像機(jī)網(wǎng)絡(luò)行人識別方法,包括如下步驟:
(1)根據(jù)AlexNet圖像分類模型的八層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在ImageNet數(shù)據(jù)庫上進(jìn)行訓(xùn)練得到一個(gè)預(yù)訓(xùn)練網(wǎng)絡(luò);
(2)通過對所述的預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行微調(diào),在行人數(shù)據(jù)庫上學(xué)習(xí)一個(gè)新的網(wǎng)絡(luò)模型,即目標(biāo)網(wǎng)絡(luò);
(3)根據(jù)所述的目標(biāo)網(wǎng)絡(luò)提取所有訓(xùn)練樣本第l層的深度特征,l=5、6或7,并用不同層次特征表示的訓(xùn)練樣本分別訓(xùn)練k個(gè)二分類的SVM(支持向量機(jī)),k為行人數(shù)據(jù)庫的行人類別數(shù),其中第j個(gè)SVM用于將第j類與其他所有類別劃分開,j為自然數(shù)且1≤j≤k;
(4)對于行人數(shù)據(jù)庫中任一測試樣本,在SVM的決策層對其不同層次的深度特征進(jìn)行融合,得到該測試樣本對應(yīng)的決策值向量V,取決策值向量V中最大元素值所對應(yīng)的類別即為該測試樣本的類別標(biāo)簽。
所述預(yù)訓(xùn)練網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)及其訓(xùn)練方法已有文獻(xiàn)公開披露,具體參見作者Alex Krizhevsky,Ilya Sutskever and Geoffrey E.Hinton發(fā)表的標(biāo)題為ImageNet Classification with Deep Convolutional Neural Networks的文獻(xiàn)(出版源:Advances in Neural Information Processing Systems,2012,25(2):2012)。
所述步驟(2)的具體實(shí)現(xiàn)過程為:首先修改預(yù)訓(xùn)練網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu),即將該預(yù)訓(xùn)練網(wǎng)絡(luò)最后一層的輸出單元個(gè)數(shù)修改為行人數(shù)據(jù)庫的行人類別數(shù),其余保持不變,得到目標(biāo)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu);然后遷移預(yù)訓(xùn)練網(wǎng)絡(luò)第1~7層的網(wǎng)絡(luò)參數(shù)至目標(biāo)網(wǎng)絡(luò)的第1~7層,并用行人數(shù)據(jù)庫中的訓(xùn)練數(shù)據(jù)重新學(xué)習(xí)目標(biāo)網(wǎng)絡(luò)最后一層的參數(shù),最終學(xué)習(xí)完成后得到所述的目標(biāo)網(wǎng)絡(luò)。
所述步驟(3)的具體實(shí)現(xiàn)過程為:首先將行人數(shù)據(jù)庫中的訓(xùn)練樣本集分為若干個(gè)批次,并分批輸入至目標(biāo)網(wǎng)絡(luò)中,對所有批次提取目標(biāo)網(wǎng)絡(luò)第l層的輸出,得到整個(gè)訓(xùn)練樣本集的第l層深度特征;然后將第j類訓(xùn)練樣本的第l層深度特征作為正樣本,其余訓(xùn)練樣本的第l層深度特征作為負(fù)樣本,訓(xùn)練二分類的SVM,訓(xùn)練得到的SVM記為SVMlj,并依此遍歷k個(gè)類別。
所述步驟(4)的具體實(shí)現(xiàn)過程為:對于行人數(shù)據(jù)庫中任一測試樣本,首先將該測試樣本輸入至目標(biāo)網(wǎng)絡(luò)中,提取目標(biāo)網(wǎng)絡(luò)第l層的輸出作為該測試樣本第l層深度特征;進(jìn)而將該測試樣本第l層深度特征輸入至各SVM中,得到對應(yīng)的決策函數(shù)值并組成向量Gl;最后根據(jù)下式對各層次進(jìn)行融合得到?jīng)Q策值向量V:
其中:al為第l層深度特征所占的權(quán)重(可通過交叉驗(yàn)證的方法獲得各層次特征的權(quán)重)。
本發(fā)明通過遷移預(yù)訓(xùn)練網(wǎng)絡(luò)的參數(shù)到行人數(shù)據(jù)庫,在行人數(shù)據(jù)庫上學(xué)習(xí)了一個(gè)新的網(wǎng)絡(luò)模型,利用新的網(wǎng)絡(luò)模型提取多個(gè)不同層次的深度特征,并通過將卷積神經(jīng)網(wǎng)絡(luò)最后一層的Softmax分類器替換為SVM分類器,達(dá)到了充分利用多層深度特征的目的;進(jìn)而利用不同層次的深度特征構(gòu)造多組二分類的SVM分類器,并對這些二分類器的決策值進(jìn)行線性加權(quán)得到最終分類結(jié)果。本發(fā)明在SVM分類器的決策層進(jìn)行多層特征融合的方式能夠有效提高對行人目標(biāo)進(jìn)行識別的準(zhǔn)確率。
附圖說明
圖1為本發(fā)明構(gòu)建行人數(shù)據(jù)庫深度網(wǎng)絡(luò)模型的流程示意圖。
圖2為本發(fā)明多層次深度特征提取與融合的流程示意圖。
具體實(shí)施方式
為了更為具體地描述本發(fā)明,下面結(jié)合附圖及具體實(shí)施方式對本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)說明。
本發(fā)明方法包括行人數(shù)據(jù)庫上的深度網(wǎng)絡(luò)模型構(gòu)建和多層次深度特征的提取與融合這樣兩個(gè)部分。我們通過遷移預(yù)訓(xùn)練網(wǎng)絡(luò)參數(shù)到行人數(shù)據(jù)庫的方法,幫助行人數(shù)據(jù)庫上目標(biāo)網(wǎng)絡(luò)的學(xué)習(xí),利用目標(biāo)網(wǎng)絡(luò)提取了行人樣本的多個(gè)層次的深度特征,再利用不同層次的深度特征構(gòu)造多組二分類的SVM分類器,并對這些二分類器的決策值進(jìn)行線性加權(quán)以得到最終的分類結(jié)果。下面結(jié)合附圖對本發(fā)明方法作進(jìn)一步說明:
圖1所示了構(gòu)建行人數(shù)據(jù)庫深度網(wǎng)絡(luò)模型的流程,具體方案如下:
(1)步驟100根據(jù)AlexNet的八層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搭建網(wǎng)絡(luò);步驟101在ImageNet數(shù)據(jù)庫上進(jìn)行預(yù)訓(xùn)練得到一個(gè)預(yù)訓(xùn)練網(wǎng)絡(luò)模型。預(yù)訓(xùn)練網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練方法具體參見:Krizhevsky A,Sutskever I and Hinton G E.ImageNet classification with deep convolutional neural networks.Advances in Neural Information Processing Systems,2012,25(2):2012。
(2)通過對步驟101的預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行微調(diào),在行人數(shù)據(jù)庫上學(xué)習(xí)一個(gè)新的網(wǎng)絡(luò)模型,即目標(biāo)網(wǎng)絡(luò);其步驟如下:
步驟102修改預(yù)訓(xùn)練網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu),即將該網(wǎng)絡(luò)最后一層Softmax層的輸出單元個(gè)數(shù)修改為行人數(shù)據(jù)庫的行人類別數(shù),作為目標(biāo)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu);
步驟103遷移預(yù)訓(xùn)練網(wǎng)絡(luò)第一至第七層的網(wǎng)絡(luò)參數(shù)到目標(biāo)網(wǎng)絡(luò)的第一至第七層;
步驟104用行人數(shù)據(jù)庫中的訓(xùn)練數(shù)據(jù)重新學(xué)習(xí)目標(biāo)網(wǎng)絡(luò)最后一層的參數(shù),最終得到一個(gè)目標(biāo)網(wǎng)絡(luò)。
(3)得到目標(biāo)網(wǎng)絡(luò)以后,利用目標(biāo)網(wǎng)絡(luò)提取行人的深度特征;圖2所示了多層次深度特征提取與融合的流程,本發(fā)明采用構(gòu)造多個(gè)二分類SVM分類器的方法來實(shí)現(xiàn)多分類;假設(shè)目標(biāo)域的類別數(shù)為k,則需要訓(xùn)練k個(gè)二分類SVM,其中第j個(gè)分類器把第j類同其他類別劃分開,其步驟如下:
先把行人數(shù)據(jù)庫的n個(gè)訓(xùn)練樣本記為{(x(i),y(i))|i=1,2,...,n},其中y(i)∈{1,2,...,k}表示第i個(gè)訓(xùn)練樣本對應(yīng)的類別標(biāo)簽。步驟200將這n個(gè)訓(xùn)練樣本輸入到目標(biāo)網(wǎng)絡(luò),將網(wǎng)絡(luò)第l層的輸出提取出來,作為訓(xùn)練樣本的第l層的深度特征表示,記為其中l(wèi)=5,6,7。
步驟201將第j類的訓(xùn)練樣本作為正樣本,將其余類別的訓(xùn)練樣本作為負(fù)樣本,訓(xùn)練二分類的SVM,記為SVMlj,其中l(wèi)=5,6,7,j=1,2,...,k。
(4)在分類器的決策層對不同層次的深度特征進(jìn)行融合,其步驟如下:
先將行人數(shù)據(jù)庫的m個(gè)測試樣本{x(τ)|τ=1,2,...,m}輸入到目標(biāo)網(wǎng)絡(luò),步驟200將網(wǎng)絡(luò)第l層的輸出提取出來,作為測試樣本的第l層的深度特征表示,記為其中l(wèi)=5,6,7。
假設(shè)二分類器SVMlj對應(yīng)的決策函數(shù)為glj其中l(wèi)=5,6,7,j=1,2,...,k。步驟202將用第l層的深度特征表示的測試樣本輸入到二分類器SVMlj中,得到對應(yīng)的決策函數(shù)值為
步驟203對于每個(gè)測試樣本x(τ),第l層特征所訓(xùn)練的k個(gè)二分類器的決策值組成一個(gè)決策值向量,記為:
Gl=[gl1 gl2 … glk]T
其中,k為行人數(shù)據(jù)庫的類別數(shù)。
步驟204對不同特征得到的分類器決策值進(jìn)行線性加權(quán),得到測試樣本最終的決策值向量,也即本發(fā)明融合特征所對應(yīng)的決策值向量,如下式所示:
其中,αl表示第l層特征在融合特征中所占的權(quán)重,通過交叉驗(yàn)證的方法可以獲得不同層次特征的權(quán)重。
步驟205判定測試樣本x(τ)的類別標(biāo)簽C,判定公式如下:
其中,vj表示向量V的第j個(gè)元素。
上述對實(shí)施例的描述是為便于本技術(shù)領(lǐng)域的普通技術(shù)人員能理解和應(yīng)用本發(fā)明。熟悉本領(lǐng)域技術(shù)的人員顯然可以容易地對上述實(shí)施例做出各種修改,并把在此說明的一般原理應(yīng)用到其他實(shí)施例中而不必經(jīng)過創(chuàng)造性的勞動。因此,本發(fā)明不限于上述實(shí)施例,本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的揭示,對于本發(fā)明做出的改進(jìn)和修改都應(yīng)該在本發(fā)明的保護(hù)范圍之內(nèi)。