本發(fā)明屬于視頻行人識別領(lǐng)域,尤其涉及一種基于外貌特征緊湊表示的視頻行人再識別方法及系統(tǒng)。
背景技術(shù):
由于視頻監(jiān)控、行人跟蹤與檢索近年來的普遍應(yīng)用,行人再識別技術(shù)得到廣泛的關(guān)注。針對某個視頻監(jiān)控攝像頭下出現(xiàn)的目標(biāo)行人,需要從視頻監(jiān)控網(wǎng)絡(luò)的其他攝像頭下對目標(biāo)行人進(jìn)行再次識別,即為行人再識別技術(shù)。然而,由于不同攝像頭下的光照變化、行人姿態(tài)變化以及背景對行人的遮擋和干擾,這給行人再識別技術(shù)帶來極大困難。
常見的行人再識別系統(tǒng)按照輸入格式一般分為兩類:圖像下的行人再識別與視頻下的行人再識別。圖像下的行人再識別技術(shù)由于只能從單一的圖像中獲取行人信息,信息量十分有限,因此很難解決遮擋、視角變化、行人姿態(tài)變化等問題。另一方面,跟單幅圖像輸入相比較,視頻輸入不僅包含更多的步態(tài)時序信息,還提供了各個時間點下更為豐富的外貌特征信息。此外,在絕大多數(shù)的實際應(yīng)用,都是把視頻作為原始輸入,比圖像更直接,也更方便。因此,視頻下的行人再識別技術(shù)比圖像下的行人再識別具有更大的研究意義。
盡管視頻提供了更為豐富的時序以及外貌信息,但是處理難度也大大增加。目前為止,只有少數(shù)的行人再識別技術(shù)是針對視頻輸入提出的。這些技術(shù)針對行人視頻中的時序信息,比如步態(tài)以及身體的運(yùn)動模式等,提出了不同的算法進(jìn)行提取與比較。盡管運(yùn)動信息作為一種生物行為可以用來進(jìn)行行人判別,但是由于很多人都有相似的行走方式,因此很難作為有效的行人標(biāo)識來進(jìn)行再識別任務(wù)。此外,行人的步態(tài)被認(rèn)為是不受外貌信息干擾的生物特征,因此很多研究者試圖通過側(cè)面投影來對行人步態(tài)進(jìn)行提取,但是由于背景的復(fù)雜和干擾物體對行人的遮擋,行人的步態(tài)信息很難被提取到。
技術(shù)實現(xiàn)要素:
為了解決現(xiàn)有技術(shù)的缺點,本發(fā)明的第一目的是提供一種基于外貌特征緊湊表示的視頻行人再識別方法。
本發(fā)明的一種基于外貌特征緊湊表示的視頻行人再識別方法,包括:
提取行人視頻中的光流曲線,進(jìn)而得到行人步態(tài)的周期曲線,再根據(jù)步態(tài)周期進(jìn)行隨機(jī)選取行人步態(tài)的周期曲線中若干關(guān)鍵幀;
將選取的每個關(guān)鍵幀輸入卷積神經(jīng)網(wǎng)絡(luò)來對行人外貌特征進(jìn)行提取;
將提取的所有關(guān)鍵幀相對應(yīng)的行人外貌特征融合為一個特征向量,進(jìn)而構(gòu)建出特征池;
提取特征池內(nèi)的特征向量進(jìn)行距離尺度算法學(xué)習(xí),使得同一行人特征之間的距離減小,而不同行人特征之間的距離增加,然后將距離尺度算法學(xué)習(xí)后的特征向量進(jìn)行匹配與排序,從而實現(xiàn)行人的再次識別。
進(jìn)一步的,選取行人步態(tài)的周期曲線中4個關(guān)鍵幀。
當(dāng)每個行人步態(tài)的周期曲線上選取4個具有代表性的若干關(guān)鍵幀時,行人識別率最高;增加再多的關(guān)鍵幀,并不會對結(jié)果有明顯的提高,反而會增加數(shù)據(jù)處理時間,降低數(shù)據(jù)處理效率。
進(jìn)一步的,將提取的所有關(guān)鍵幀相對應(yīng)的行人外貌特征融合為一個特征向量的過程中,通過提取每個關(guān)鍵幀中的最大值來將每幀中的顯著特征提取并融合。
本發(fā)明將多幀的特征融合為一個向量特征,因此是“單一”的,融合過程中通過取每幀中的最大值來將每幀中的顯著特征提取并整合,因此是“信息緊湊”的,這樣能夠避免信息干擾,提高行人識別的準(zhǔn)確性及速度。
進(jìn)一步的,在提取特征池內(nèi)的特征向量進(jìn)行距離尺度算法學(xué)習(xí)的過程中,通過計算一個行人的一組中每個特征向量到另一個行人的一組特征向量的最小距離,并取這些距離的平均值作為兩個行人特征之間的距離。
本發(fā)明通過求取特征向量之間的距離,使得同一行人特征之間的距離減小,而不同行人特征之間的距離增加,實現(xiàn)了行人的再次識別,提高了行人識別的準(zhǔn)確性。
本發(fā)明的第二目的是提供一種基于外貌特征緊湊表示的視頻行人再識別系統(tǒng)。
本發(fā)明的一種基于外貌特征緊湊表示的視頻行人再識別系統(tǒng),包括:
關(guān)鍵幀選取模塊,其用于提取行人視頻中的光流曲線,進(jìn)而得到行人步態(tài)的周期曲線,再根據(jù)步態(tài)周期進(jìn)行隨機(jī)選取行人步態(tài)的周期曲線中若干關(guān)鍵幀;
行人外貌特征提取模塊,其用于將選取的每個關(guān)鍵幀輸入卷積神經(jīng)網(wǎng)絡(luò)來對行人外貌特征進(jìn)行提?。?/p>
特征池構(gòu)建模塊,其用于將提取的所有關(guān)鍵幀相對應(yīng)的行人外貌特征融合為一個特征向量,進(jìn)而構(gòu)建出特征池;
距離尺度算法學(xué)習(xí)模塊,其用于提取特征池內(nèi)的特征向量進(jìn)行距離尺度算法學(xué)習(xí),使得同一行人特征之間的距離減小,而不同行人特征之間的距離增加,然后將距離尺度算法學(xué)習(xí)后的特征向量進(jìn)行匹配與排序,從而實現(xiàn)行人的再次識別。
進(jìn)一步的,在所述關(guān)鍵幀選取模塊中,選取行人步態(tài)的周期曲線中4個關(guān)鍵幀。當(dāng)每個行人步態(tài)的周期曲線上選取4個具有代表性的若干關(guān)鍵幀時,行人識別率最高;增加再多的關(guān)鍵幀,并不會對結(jié)果有明顯的提高,反而會增加數(shù)據(jù)處理時間,降低數(shù)據(jù)處理效率。
進(jìn)一步的,在所述特征池構(gòu)建模塊中,通過提取每個關(guān)鍵幀中的最大值來將每幀中的顯著特征提取并融合。
本發(fā)明將多幀的特征融合為一個向量特征,因此是“單一”的,融合過程中通過取每幀中的最大值來將每幀中的顯著特征提取并整合,因此是“信息緊湊”的,這樣能夠避免信息干擾,提高行人識別的準(zhǔn)確性及速度。
進(jìn)一步的,在所述距離尺度算法學(xué)習(xí)模塊中,通過計算一個行人的一組中每個特征向量到另一個行人的一組特征向量的最小距離,并取這些距離的平均值作為兩個行人特征之間的距離。本發(fā)明通過求取特征向量之間的距離,使得同一行人特征之間的距離減小,而不同行人特征之間的距離增加,實現(xiàn)了行人的再次識別,提高了行人識別的準(zhǔn)確性。
本發(fā)明還提供了另一種基于外貌特征緊湊表示的視頻行人再識別系統(tǒng)。
該基于外貌特征緊湊表示的視頻行人再識別系統(tǒng),包括:
行人視頻采集裝置,其被配置為采集行人視頻信息,并傳送至服務(wù)器;
所述服務(wù)器,其被配置為:
提取行人視頻中的光流曲線,進(jìn)而得到行人步態(tài)的周期曲線,再根據(jù)步態(tài)周期進(jìn)行隨機(jī)選取行人步態(tài)的周期曲線中若干關(guān)鍵幀;
將選取的每個關(guān)鍵幀輸入卷積神經(jīng)網(wǎng)絡(luò)來對行人外貌特征進(jìn)行提?。?/p>
將提取的所有關(guān)鍵幀相對應(yīng)的行人外貌特征融合為一個特征向量,進(jìn)而構(gòu)建出特征池;
提取特征池內(nèi)的特征向量進(jìn)行距離尺度算法學(xué)習(xí),使得同一行人特征之間的距離減小,而不同行人特征之間的距離增加,然后將距離尺度算法學(xué)習(xí)后的特征向量進(jìn)行匹配與排序,從而實現(xiàn)行人的再次識別。
本發(fā)明的有益效果為:
本發(fā)明從行人視頻的關(guān)鍵幀中提取并整合出緊湊的行人外貌特征進(jìn)而實現(xiàn)視頻下的行人再識別,與之前基于時序信息的視頻行人再識別方法相比,該方法更接近人眼的視覺系統(tǒng),而且提取特征池內(nèi)的特征向量進(jìn)行距離尺度算法學(xué)習(xí),使得同一行人特征之間的距離減小,而不同行人特征之間的距離增加,然后將距離尺度算法學(xué)習(xí)后的特征向量進(jìn)行匹配與排序,更容易地實現(xiàn)行人再識別任務(wù)。
附圖說明
構(gòu)成本申請的一部分的說明書附圖用來提供對本申請的進(jìn)一步理解,本申請的示意性實施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當(dāng)限定。
圖1是本發(fā)明的一種基于外貌特征緊湊表示的視頻行人再識別方法流程圖;
圖2是行人步態(tài)的周期曲線;
圖3是訓(xùn)練網(wǎng)絡(luò)示意圖;
圖4是特征池化示意圖;
圖5是本發(fā)明的實施例一的基于外貌特征緊湊表示的視頻行人再識別系統(tǒng)結(jié)構(gòu)圖;
圖6是本發(fā)明的實施例二的基于外貌特征緊湊表示的視頻行人再識別系統(tǒng)結(jié)構(gòu)圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。
根據(jù)視覺感知的相關(guān)研究表明,人腦對于顏色、紋理等外貌信息的檢測閾值要遠(yuǎn)低于對于運(yùn)動的檢測閾值。因此人眼在外貌識別方面的表現(xiàn)比運(yùn)動識別要更好。在大多數(shù)情況下,根據(jù)行人的外在特征比如衣服以及背包等,比根據(jù)步態(tài)以及姿態(tài)等運(yùn)動信息,可以更容易地實現(xiàn)行人再識別任務(wù)。
因此,本發(fā)明基于上述研究,給出了基于外貌特征緊湊表示的視頻行人再識別方法流及系統(tǒng)。
圖1是本發(fā)明實施例中一種基于外貌特征緊湊表示的視頻行人再識別方法流程圖,如圖所示本實施例中的于外貌特征緊湊表示的視頻行人再識別方法可以包括:
s101,提取行人視頻中的光流曲線,進(jìn)而得到行人步態(tài)的周期曲線,再根據(jù)步態(tài)周期進(jìn)行隨機(jī)選取行人步態(tài)的周期曲線中若干關(guān)鍵幀。
具體實現(xiàn)中,為了自動選擇最具代表性的幀,首先提取行人視頻中的的光流曲線(flowenergyprole,fep)。光流曲線是一個一維信號,并且近似于視頻中的連續(xù)幀下的行人運(yùn)動能量強(qiáng)度。理想情況下,曲線的局部最大值對應(yīng)于人的兩條腿重疊時的姿勢,而在局部最小值處,兩條腿是距離最遠(yuǎn)的。如圖2所示,得到了行人步態(tài)的周期曲線,由于fep信號對背景的噪聲和遮擋比較敏感,因此曲線只能對行人步態(tài)進(jìn)行大致的估計。
一個完整的步態(tài)周期包括兩個連續(xù)的正弦曲線,其中左右兩條腿開始的兩步分別代表對應(yīng)一個正弦曲線,由于視頻中很難區(qū)分這兩步,因此設(shè)定每一步相對應(yīng)的一個正弦曲線為一個步態(tài)周期。具體實現(xiàn)中,給定一個步態(tài)周期,可以根據(jù)行走動作當(dāng)中的不同狀態(tài)找到其中的關(guān)鍵幀。
如圖2所示,fep曲線中的局部最高點和局部最低點所對應(yīng)的幀就為這個步態(tài)周期中最具有代表性的兩個關(guān)鍵幀。其他的關(guān)鍵幀可以從最高點和最低點之間等距選取。根據(jù)實驗表明,當(dāng)每個步態(tài)周期選取4個關(guān)鍵幀時,行人識別率最高。增加再多的關(guān)鍵幀,并不會對結(jié)果有明顯的提高。
需要說明的是,也可以在行人步態(tài)的周期曲線中選取其他數(shù)量的關(guān)鍵幀,比如2個、3個或5個,且并不影響本發(fā)明的視頻行人再識別結(jié)果。
s102,將選取的每個關(guān)鍵幀輸入卷積神經(jīng)網(wǎng)絡(luò)來對行人外貌特征進(jìn)行提取。
本發(fā)明的訓(xùn)練網(wǎng)絡(luò)由5個卷積層(conv1,…,5)、2個全連接層(fc6,7)和1個softmax層組成,和vgg-m網(wǎng)絡(luò)結(jié)構(gòu)很相似。網(wǎng)絡(luò)的具體參數(shù)如圖3所示。為了將代表幀當(dāng)中提取的特征信息整合成一個單一且緊湊的向量,我們在訓(xùn)練網(wǎng)絡(luò)中引入了一個特征池化層(featurepooling)。
訓(xùn)練網(wǎng)絡(luò)的參數(shù)由預(yù)訓(xùn)練好的vgg-m網(wǎng)絡(luò)初始化得到,然后在目標(biāo)行人數(shù)據(jù)庫上進(jìn)行微調(diào)。在訓(xùn)練階段,首先將所選取的代表幀全部重新設(shè)定為128*64大小,然后連同每個幀所對應(yīng)的行人標(biāo)簽一起輸入卷積神經(jīng)網(wǎng)絡(luò)。
在測試階段,本發(fā)明提出的網(wǎng)絡(luò)可以看成是一個具有卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的特征提取器。具體來講,每一幀首先輸入卷積神經(jīng)網(wǎng)絡(luò),通過5個卷積層得到其特征,然后將從不同幀當(dāng)中學(xué)習(xí)到的特征輸入同一個特征池化層,最后在全連接層輸出一個整合后的4096維向量。實驗表明,最后3層當(dāng)中,fc6層的特征作為行人的特征向量識別準(zhǔn)確率最高,因此我們選取fc6作為特征提取層,fc7以及softmax層在數(shù)據(jù)測試階段是被丟掉的。
s103,將提取的所有關(guān)鍵幀相對應(yīng)的行人外貌特征融合為一個特征向量,進(jìn)而構(gòu)建出特征池。
其中,融合的特征向量為一個單一并且信息緊湊的特征向量。
從卷積層輸出后,得到了對應(yīng)四個代表幀的4個特征地圖,如圖4所示。將這4個特征地圖進(jìn)行簡單的取平均,很容易對識別結(jié)果造成干擾。因此我們在卷積神經(jīng)網(wǎng)絡(luò)中引入了特征池化層。實驗結(jié)果表明,對多個卷積神經(jīng)中輸出的特征地圖進(jìn)行最大值池化,最后的行人再識別準(zhǔn)確率最高。
如圖4所示,盡管卷積神經(jīng)網(wǎng)絡(luò)能夠?qū)D像當(dāng)中的特征進(jìn)行提取,但是一個行人最具有判別性的特征可能分布在不同的幀以及不同部位,因此需要對這些散落的特征進(jìn)行整合。通過對特征地圖在小單位內(nèi)進(jìn)行最大值池化處理,各個幀中最強(qiáng)的特征就可以被選取并整合成一個緊湊且具有判別性的行人特征向量。理論上說,特征池化層可以放在任意兩層之間,然而實驗結(jié)果表明,當(dāng)放在最后一個卷積層和第一個全連接層之間時,識別準(zhǔn)確率最高。
s104,提取特征池內(nèi)的特征向量進(jìn)行距離尺度算法學(xué)習(xí),使得同一行人特征之間的距離減小,而不同行人特征之間的距離增加,然后將距離尺度算法學(xué)習(xí)后的特征向量進(jìn)行匹配與排序,從而實現(xiàn)行人的再次識別。
通過輸入某行人的視頻,得到一組特征向量x=(x1,x2,...,xm),m為該視頻所含有的步態(tài)周期個數(shù),同樣的,另一行人的特征向量表示為y=(y1,y2,...,yn)。通過計算每個特征向量到另一組特征向量的最小l2距離,并取這些距離的平均值作為兩行人特征之間的距離,如公式1所示。
在公開的行人視頻數(shù)據(jù)庫上進(jìn)行實驗:
所有的實驗在3個現(xiàn)有的公開數(shù)據(jù)庫上展開:prid2011數(shù)據(jù)庫,ilids-vid數(shù)據(jù)庫和sdu-vid數(shù)據(jù)庫。實驗中,所有的數(shù)據(jù)庫被隨機(jī)平均分成了兩部分,訓(xùn)練集與測試集。在測試的過程中,將來自第一個攝像頭的視頻序列設(shè)為查詢集,另一個攝像頭下的視頻序列設(shè)為視頻庫集。
針對每個步態(tài)周期選取了若干代表幀進(jìn)行特征學(xué)習(xí),代替了將整個視頻序列作為輸入。在一個步態(tài)周期內(nèi)選取不同數(shù)量的代表幀對實驗結(jié)果的影響,如表1所示。
可以看出,當(dāng)選取4個代表幀時,實驗結(jié)果表現(xiàn)最好。通過進(jìn)一步分析,當(dāng)選取的代表幀過少時(如1,2),不足以覆蓋一整個步態(tài)周期內(nèi)的所有關(guān)鍵的行人特征,因此識別準(zhǔn)確率較低;另一方面,如果選取的代表幀過多(如6,10),又很容易引入背景噪聲,對行人識別造成干擾,此外還會打打增加實驗的運(yùn)算量。
因此,在實驗中采取4個代表幀的選取。
表1不同數(shù)量的代表幀的對實驗結(jié)果的影響
在對多個代表幀進(jìn)行特征學(xué)習(xí)后,引入了特征池化層對多個特征向量進(jìn)行整合。不同的池化層設(shè)置對實驗結(jié)果的影響,如表2所示。
當(dāng)采用最大值池化時,實驗結(jié)果最好。平均值池化與無池化下的實驗結(jié)果相對較低。因此我們在算法中采取的是最大值池化。
表2不同的池化層設(shè)置對實驗結(jié)果的影響
1single-framedescriptor.
表3與現(xiàn)有方法的實驗結(jié)果比較
如表3所示,將本發(fā)明的該方法與現(xiàn)存的基于視頻的行人再識別方法進(jìn)行了比較??梢钥闯?,實驗結(jié)果已經(jīng)達(dá)到了頂尖的水平。在ilids-vid數(shù)據(jù)庫上,該方法比排名第二的算法rnn+of準(zhǔn)確率高出2.2%。在prid2011數(shù)據(jù)庫上,該方法比排名第二的算法cnn+xqda準(zhǔn)確率高出6%。在sdu-vid數(shù)據(jù)庫上,目前只有sta和rnn兩種算法的結(jié)果,該方法的準(zhǔn)確率比其中最高的提高14.3%。值得注意的是,以上所有的算法都是將整個視頻序列作為輸入,而本發(fā)明的該方法只在每個步態(tài)周期內(nèi)選取了4個關(guān)鍵幀,因此運(yùn)算量也大大降低。
圖5是本發(fā)明的實施例一的基于外貌特征緊湊表示的視頻行人再識別系統(tǒng)結(jié)構(gòu)圖。如圖所示的本發(fā)明的一種基于外貌特征緊湊表示的視頻行人再識別系統(tǒng),包括:
(1)關(guān)鍵幀選取模塊,其用于提取行人視頻中的光流曲線,進(jìn)而得到行人步態(tài)的周期曲線,再根據(jù)步態(tài)周期進(jìn)行隨機(jī)選取行人步態(tài)的周期曲線中若干關(guān)鍵幀。
具體實現(xiàn)中,為了自動選擇最具代表性的幀,首先提取行人視頻中的的光流曲線(flowenergyprole,fep)。光流曲線是一個一維信號,并且近似于視頻中的連續(xù)幀下的行人運(yùn)動能量強(qiáng)度。理想情況下,曲線的局部最大值對應(yīng)于人的兩條腿重疊時的姿勢,而在局部最小值處,兩條腿是距離最遠(yuǎn)的。如圖2所示,得到了行人步態(tài)的周期曲線,由于fep信號對背景的噪聲和遮擋比較敏感,因此曲線只能對行人步態(tài)進(jìn)行大致的估計。
一個完整的步態(tài)周期包括兩個連續(xù)的正弦曲線,其中左右兩條腿開始的兩步分別代表對應(yīng)一個正弦曲線,由于視頻中很難區(qū)分這兩步,因此設(shè)定每一步相對應(yīng)的一個正弦曲線為一個步態(tài)周期。具體實現(xiàn)中,給定一個步態(tài)周期,可以根據(jù)行走動作當(dāng)中的不同狀態(tài)找到其中的關(guān)鍵幀。
fep曲線中的局部最高點和局部最低點所對應(yīng)的幀就為這個步態(tài)周期中最具有代表性的兩個關(guān)鍵幀。其他的關(guān)鍵幀可以從最高點和最低點之間等距選取。根據(jù)實驗表明,當(dāng)每個步態(tài)周期選取4個關(guān)鍵幀時,行人識別率最高。增加再多的關(guān)鍵幀,并不會對結(jié)果有明顯的提高。
需要說明的是,也可以在行人步態(tài)的周期曲線中選取其他數(shù)量的關(guān)鍵幀,比如2個、3個或5個,且并不影響本發(fā)明的視頻行人再識別結(jié)果。
(2)行人外貌特征提取模塊,其用于將選取的每個關(guān)鍵幀輸入卷積神經(jīng)網(wǎng)絡(luò)來對行人外貌特征進(jìn)行提取。
本發(fā)明的訓(xùn)練網(wǎng)絡(luò)由5個卷積層(conv1,…,5)、2個全連接層(fc6,7)和1個softmax層組成,和vgg-m網(wǎng)絡(luò)結(jié)構(gòu)很相似。網(wǎng)絡(luò)的具體參數(shù)如圖3所示。為了將代表幀當(dāng)中提取的特征信息整合成一個單一且緊湊的向量,我們在訓(xùn)練網(wǎng)絡(luò)中引入了一個特征池化層(featurepooling)。
訓(xùn)練網(wǎng)絡(luò)的參數(shù)由預(yù)訓(xùn)練好的vgg-m網(wǎng)絡(luò)初始化得到,然后在目標(biāo)行人數(shù)據(jù)庫上進(jìn)行微調(diào)。在訓(xùn)練階段,首先將所選取的代表幀全部重新設(shè)定為128*64大小,然后連同每個幀所對應(yīng)的行人標(biāo)簽一起輸入卷積神經(jīng)網(wǎng)絡(luò)。
在測試階段,本發(fā)明提出的網(wǎng)絡(luò)可以看成是一個具有卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的特征提取器。具體來講,每一幀首先輸入卷積神經(jīng)網(wǎng)絡(luò),通過5個卷積層得到其特征,然后將從不同幀當(dāng)中學(xué)習(xí)到的特征輸入同一個特征池化層,最后在全連接層輸出一個整合后的4096維向量。實驗表明,最后3層當(dāng)中,fc6層的特征作為行人的特征向量識別準(zhǔn)確率最高,因此我們選取fc6作為特征提取層,fc7以及softmax層在數(shù)據(jù)測試階段是被丟掉的。
(3)特征池構(gòu)建模塊,其用于將提取的所有關(guān)鍵幀相對應(yīng)的行人外貌特征融合為一個特征向量,進(jìn)而構(gòu)建出特征池。
其中,融合的特征向量為一個單一并且信息緊湊的特征向量。
從卷積層輸出后,得到了對應(yīng)四個代表幀的4個特征地圖,如圖4所示。將這4個特征地圖進(jìn)行簡單的取平均,很容易對識別結(jié)果造成干擾。因此我們在卷積神經(jīng)網(wǎng)絡(luò)中引入了特征池化層。實驗結(jié)果表明,對多個卷積神經(jīng)中輸出的特征地圖進(jìn)行最大值池化,最后的行人再識別準(zhǔn)確率最高。
盡管卷積神經(jīng)網(wǎng)絡(luò)能夠?qū)D像當(dāng)中的特征進(jìn)行提取,但是一個行人最具有判別性的特征可能分布在不同的幀以及不同部位,因此需要對這些散落的特征進(jìn)行整合。通過對特征地圖在小單位內(nèi)進(jìn)行最大值池化處理,各個幀中最強(qiáng)的特征就可以被選取并整合成一個緊湊且具有判別性的行人特征向量。理論上說,特征池化層可以放在任意兩層之間,然而實驗結(jié)果表明,當(dāng)放在最后一個卷積層和第一個全連接層之間時,識別準(zhǔn)確率最高。
(4)距離尺度算法學(xué)習(xí)模塊,其用于提取特征池內(nèi)的特征向量進(jìn)行距離尺度算法學(xué)習(xí),使得同一行人特征之間的距離減小,而不同行人特征之間的距離增加,然后將距離尺度算法學(xué)習(xí)后的特征向量進(jìn)行匹配與排序,從而實現(xiàn)行人的再次識別。
通過輸入某行人的視頻,得到一組特征向量x=(x1,x2,...,xm),m為該視頻所含有的步態(tài)周期個數(shù),同樣的,另一行人的特征向量表示為y=(y1,y2,...,yn)。通過計算每個特征向量到另一組特征向量的最小l2距離,并取這些距離的平均值作為兩行人特征之間的距離,如公式1所示。
圖6是本發(fā)明的實施例二的基于外貌特征緊湊表示的視頻行人再識別系統(tǒng)結(jié)構(gòu)圖。如圖所示的本發(fā)明的另一種基于外貌特征緊湊表示的視頻行人再識別系統(tǒng),包括:
(1)行人視頻采集裝置,其被配置為采集行人視頻信息,并傳送至服務(wù)器。
其中,行人視頻采集裝置可以采用攝像機(jī)來實現(xiàn)。
(2)服務(wù)器,被配置為:
提取行人視頻中的光流曲線,進(jìn)而得到行人步態(tài)的周期曲線,再根據(jù)步態(tài)周期進(jìn)行隨機(jī)選取行人步態(tài)的周期曲線中若干關(guān)鍵幀;
將選取的每個關(guān)鍵幀輸入卷積神經(jīng)網(wǎng)絡(luò)來對行人外貌特征進(jìn)行提??;
將提取的所有關(guān)鍵幀相對應(yīng)的行人外貌特征融合為一個特征向量,進(jìn)而構(gòu)建出特征池;
提取特征池內(nèi)的特征向量進(jìn)行距離尺度算法學(xué)習(xí),使得同一行人特征之間的距離減小,而不同行人特征之間的距離增加,然后將距離尺度算法學(xué)習(xí)后的特征向量進(jìn)行匹配與排序,從而實現(xiàn)行人的再次識別。
本發(fā)明從行人視頻的關(guān)鍵幀中提取并整合出緊湊的行人外貌特征進(jìn)而實現(xiàn)視頻下的行人再識別,與之前基于時序信息的視頻行人再識別方法相比,該方法更接近人眼的視覺系統(tǒng),而且提取特征池內(nèi)的特征向量進(jìn)行距離尺度算法學(xué)習(xí),使得同一行人特征之間的距離減小,而不同行人特征之間的距離增加,然后將距離尺度算法學(xué)習(xí)后的特征向量進(jìn)行匹配與排序,更容易地實現(xiàn)行人再識別任務(wù)。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用硬件實施例、軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機(jī)可用程序代碼的計算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器和光學(xué)存儲器等)上實施的計算機(jī)程序產(chǎn)品的形式。
本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機(jī)程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機(jī)程序指令到通用計算機(jī)、專用計算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機(jī)器,使得通過計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機(jī)程序指令也可存儲在能引導(dǎo)計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機(jī)可讀存儲器中,使得存儲在該計算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機(jī)程序指令也可裝載到計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機(jī)實現(xiàn)的處理,從而在計算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以通過計算機(jī)程序來指令相關(guān)的硬件來完成,所述的程序可存儲于一計算機(jī)可讀取存儲介質(zhì)中,該程序在執(zhí)行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(read-onlymemory,rom)或隨機(jī)存儲記憶體(randomaccessmemory,ram)等。
上述雖然結(jié)合附圖對本發(fā)明的具體實施方式進(jìn)行了描述,但并非對本發(fā)明保護(hù)范圍的限制,所屬領(lǐng)域技術(shù)人員應(yīng)該明白,在本發(fā)明的技術(shù)方案的基礎(chǔ)上,本領(lǐng)域技術(shù)人員不需要付出創(chuàng)造性勞動即可做出的各種修改或變形仍在本發(fā)明的保護(hù)范圍以內(nèi)。