本發(fā)明涉及圖像處理技術(shù)領(lǐng)域,更具體地,涉及一種行人識(shí)別方法和裝置。
背景技術(shù):
近年來(lái),基于人的圖像識(shí)別分析技術(shù)取得了廣泛的應(yīng)用,例如年齡識(shí)別、公安安防和門禁系統(tǒng)等。圖像中的行人體型判斷,是對(duì)行人進(jìn)行語(yǔ)義描述的一個(gè)重要屬性,即檢測(cè)一張行人圖片或視頻中行人的身高、胖瘦等體型特征。
體型的測(cè)量在日常生活中隨處可見(jiàn)。傳統(tǒng)的體型判斷方法,大多需要接觸式的通過(guò)尺度工具的直接測(cè)量,或者間接地根據(jù)參照物測(cè)量。這些判斷方法雖然準(zhǔn)確,但都需要人工的持續(xù)參與。當(dāng)人數(shù)多時(shí),如果逐一測(cè)量則速度相對(duì)較慢。當(dāng)在人流量較大的場(chǎng)合,既需要估算體型,又需要達(dá)到一定的精度,并且對(duì)速度有一定要求時(shí),傳統(tǒng)的測(cè)量方法則不能滿足要求。
目前基于攝像頭行人圖像用計(jì)算機(jī)判斷行人體型的技術(shù),正在逐步興起,它通過(guò)非接觸式的視覺(jué)信息來(lái)判斷體型,但是面臨著很多的挑戰(zhàn)。其中之一就是行人視角的問(wèn)題,不同視角下行人的姿態(tài)體型有很大的不同。如何訓(xùn)練出不同視角下的魯棒的體型判斷模型是一個(gè)相當(dāng)有難度的問(wèn)題。
基于攝像頭行人圖像判斷行人體型的算法,通常首先使用行人檢測(cè)模塊檢測(cè)出攝像頭圖像中的行人位置,分離出單獨(dú)的行人圖像。接著,提取行人圖像的視覺(jué)特征,通常是行人區(qū)域的面積和寬高比。最后,通過(guò)這些特征擬合得到行人的體型。這些算法通常無(wú)法解決行人視角的問(wèn)題,不同視角下行人的姿態(tài)有很大的不同,算法擬合得到的結(jié)果差距很大。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的行人識(shí)別方法和裝置,相比現(xiàn)有技術(shù),不需要人主動(dòng)配合,具有復(fù)雜度低、魯棒性強(qiáng)等優(yōu)點(diǎn)。
根據(jù)本發(fā)明的一個(gè)方面,提供一種行人識(shí)別方法,該方法包括:
步驟1,根據(jù)圖像中的行人位置,標(biāo)明行人區(qū)域,分離單獨(dú)的行人圖像;
步驟2,根據(jù)行人區(qū)域和單獨(dú)的行人圖像,標(biāo)定行人數(shù)據(jù)集,將行人圖像對(duì)應(yīng)于行人體型;
步驟3,根據(jù)行人圖像,基于卷積神經(jīng)網(wǎng)絡(luò)分析獲取行人的屬性特征。
本發(fā)明提出的行人識(shí)別方法通過(guò)行人圖像的體型判斷,利用基于深度學(xué)習(xí)的多任務(wù)卷積神經(jīng)網(wǎng)絡(luò),在離線訓(xùn)練過(guò)程中針對(duì)不同性別、不同的行人視角訓(xùn)練一個(gè)統(tǒng)一的體型判斷模型,有效的解決行人視角的問(wèn)題,大大提高了算法準(zhǔn)確度。
根據(jù)本發(fā)明的另一個(gè)方面,提供一種行人識(shí)別裝置,該裝置包括行人檢測(cè)模塊、樣本標(biāo)定模塊、離線訓(xùn)練模塊和在線體型判斷模塊。
所述行人檢測(cè)模塊,用于根據(jù)圖像中的行人位置,標(biāo)明行人區(qū)域,分離單獨(dú)的行人圖像;
所述樣本標(biāo)定模塊,用于根據(jù)行人區(qū)域和單獨(dú)的行人圖像,標(biāo)定行人數(shù)據(jù)集,將行人圖像對(duì)應(yīng)于行人體型,標(biāo)定為訓(xùn)練樣本;
所述離線訓(xùn)練模塊,用于根據(jù)收集得到的訓(xùn)練樣本集,訓(xùn)練出基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò);
所述在線體型判斷模塊,用于在線檢測(cè)行人圖像,并將檢測(cè)數(shù)據(jù)輸入卷積神經(jīng)網(wǎng)絡(luò),判斷行人體型的估計(jì)值。
其中,所述行人檢測(cè)模塊根據(jù)攝像頭采集的視頻序列,分離為單獨(dú)圖像,獲取行人數(shù)據(jù)集;對(duì)樣本集進(jìn)行預(yù)處理并且歸一化為統(tǒng)一尺度,生成數(shù)據(jù)文件。
其中,所述樣本標(biāo)定模塊,將行人圖像標(biāo)定行人身份ID,設(shè)定數(shù)據(jù)屬性,其中,所述數(shù)據(jù)屬性包括視角、性別或者體型,其中,行人的視角劃分為八個(gè)方向,分別為正前、左前、右前、左、右、左后、右后、正后,分別給予標(biāo)號(hào)1~8;將行人性別劃分為男性和女性兩類,給予標(biāo)號(hào)1,2;將行人體型分為偏瘦、健碩、適中、超重、肥胖五類,分別給予標(biāo)號(hào)1~5。
其中,所述離線訓(xùn)練模塊,構(gòu)建具有五層卷積操作層、五層池化操作層、五層dropout層、兩層全連接層、三層softmax分類器和三層邏輯回歸對(duì)象層的卷積神經(jīng)網(wǎng)絡(luò),其中三個(gè)softmax分類器分別對(duì)應(yīng)三種行人屬性:視角、性別、體型;各個(gè)神經(jīng)元的激活函數(shù)采用ReLu(Rectified Linear Units)激活函數(shù)f(x)=max(0,x),該激活函數(shù)具有單側(cè)抑制、相對(duì)寬闊的興奮邊界、稀疏激活性等特性,由于分段線性可以避免梯度消失問(wèn)題;每一次迭代取一個(gè)數(shù)據(jù)batch,batch大小為64,即以64個(gè)樣本為單位利用誤差反向傳播算法對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,基于權(quán)重矩陣計(jì)算各層誤差及梯度方向,根據(jù)梯度下降法更新權(quán)值矩陣,循環(huán)執(zhí)行,直到網(wǎng)絡(luò)達(dá)到收斂。
其中,所述在線體型判斷模塊,用于對(duì)在線獲得的監(jiān)控圖像進(jìn)行行人檢測(cè),得到行人圖像,再將行人圖像輸入卷積神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)最后一層全連接層被分為3個(gè)分支,分別使用softmax回歸模型分類器對(duì)視角、性別、體型進(jìn)行分類;根據(jù)三個(gè)softmax分類輸出層結(jié)果來(lái)識(shí)別出行人視角、性別、體型信息。
本發(fā)明提出的行人識(shí)別裝置對(duì)硬件要求低,算法清晰,將行人視角劃分為八個(gè)方向可以更好的適應(yīng)不同視角下的行人姿態(tài),同時(shí)引入深度學(xué)習(xí)策略,從而使最終算法更好的適應(yīng)數(shù)據(jù)和環(huán)境的變化。
附圖說(shuō)明
圖1為本發(fā)明行人識(shí)別方法的流程圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明的具體實(shí)施方式作進(jìn)一步詳細(xì)描述。以下實(shí)施例用于說(shuō)明本發(fā)明,但不用來(lái)限制本發(fā)明的范圍。
在根據(jù)本申請(qǐng)的一個(gè)實(shí)施例中,參考圖1,提供一種行人識(shí)別方法,該方法包括:步驟1,根據(jù)圖像中的行人位置,標(biāo)定行人區(qū)域,分離單獨(dú)的行人圖像;步驟2,根據(jù)行人區(qū)域和單獨(dú)的行人圖像,標(biāo)定行人數(shù)據(jù)集,將行人圖像對(duì)應(yīng)于行人體型;步驟3,根據(jù)行人圖像,基于卷積神經(jīng)網(wǎng)絡(luò)分析獲取行人的屬性特征。
其中,步驟1中,進(jìn)一步包括:步驟11,根據(jù)攝像頭采集的視頻序列,分離為單獨(dú)圖像,獲取行人數(shù)據(jù)集;步驟12,對(duì)樣本集進(jìn)行預(yù)處理并且歸一化為統(tǒng)一尺度,生成數(shù)據(jù)文件。
其中,步驟2中:將行人圖像標(biāo)定行人身份ID,設(shè)定數(shù)據(jù)屬性其中,所述數(shù)據(jù)屬性包括視角、性別或者體型,其中,行人的視角劃分為八個(gè)方向,分別為正前、左前、右前、左、右、左后、右后、正后,分別給予標(biāo)號(hào)1~8;將行人性別劃分為男性和女性兩類,給予標(biāo)號(hào)1,2;將行人體型分為偏瘦、健碩、適中、超重、肥胖五類,分別給予標(biāo)號(hào)1~5。
其中,步驟3中,進(jìn)一步包括:步驟31,根據(jù)收集得到的訓(xùn)練樣本集,訓(xùn)練出基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò);步驟32,檢測(cè)行人圖像,并將檢測(cè)數(shù)據(jù)輸入卷積神經(jīng)網(wǎng)絡(luò),判斷行人體型的估計(jì)值。
其中,步驟11中,收集行業(yè)內(nèi)公認(rèn)數(shù)據(jù)集并且增加監(jiān)控視頻中的行人檢測(cè)數(shù)據(jù)集,采用行人檢測(cè)方法檢測(cè)圖像中的行人區(qū)域。
其中,步驟11進(jìn)一步包括:步驟111,從攝像頭采集拍攝到的視頻序列;步驟112,將視頻序列按照每10秒輸出一張圖像;步驟113,使用行人檢測(cè)方法檢測(cè)圖像中的行人區(qū)域。
其中,步驟12中,所述統(tǒng)一的尺度可以是128*64,該數(shù)據(jù)文件用于卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。
其中,步驟31中,設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),并進(jìn)行訓(xùn)練,獲取網(wǎng)絡(luò)收斂時(shí)的權(quán)重連接矩陣W,用于以后的分類過(guò)程。
其中,步驟31還進(jìn)一步包括:步驟311,設(shè)計(jì)一個(gè)具有五層卷積操作層、五層池化操作層、五層dropout層、兩層全連接層、三層softmax分類器和三層邏輯回歸對(duì)象層的卷積神經(jīng)網(wǎng)絡(luò),三個(gè)softmax分類器分別對(duì)應(yīng)三種行人屬性:視角、性別、體型;步驟312,各個(gè)神經(jīng)元的激活函數(shù)采用ReLu(Rectified Linear Units)激活函數(shù)f(x)=max(0,x),該激活函數(shù)具有單側(cè)抑制、相對(duì)寬闊的興奮邊界、稀疏激活性等特性,由于分段線性可以避免梯度消失問(wèn)題;步驟313,每一次迭代取一個(gè)數(shù)據(jù)batch,batch大小為64,即以64個(gè)樣本為單位利用誤差反向傳播算法對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,基于權(quán)重矩陣計(jì)算各層誤差及梯度方向,根據(jù)梯度下降法更新權(quán)值矩陣,循環(huán)執(zhí)行,直到網(wǎng)絡(luò)達(dá)到收斂。
其中,步驟32中,對(duì)在線獲得的監(jiān)控圖像進(jìn)行行人檢測(cè),得到行人圖像,再將行人圖像輸入卷積神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)最后一層全連接層被分為3個(gè)分支,分別使用softmax回歸模型分類器對(duì)視角、性別、體型進(jìn)行分類;根據(jù)三個(gè)softmax分類輸出層結(jié)果來(lái)識(shí)別出行人視角、性別、體型信息。
其中,步驟32中,每個(gè)所述softmax回歸模型分類器均采用函數(shù)
計(jì)算當(dāng)前圖像屬于每一個(gè)類別的概率,選取概率最高的類別作為識(shí)別結(jié)果,即可得到待識(shí)別行人的視角、性別、體型特征。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例,提供一種行人識(shí)別裝置,該裝置包括行人檢測(cè)模塊、樣本標(biāo)定模塊、離線訓(xùn)練模塊和在線體型判斷模塊。所述行人檢測(cè)模塊,用于根據(jù)圖像中的行人位置,標(biāo)明行人區(qū)域,分離單獨(dú)的行人圖像;所述樣本標(biāo)定模塊,用于根據(jù)行人區(qū)域和單獨(dú)的行人圖像,標(biāo)定行人數(shù)據(jù)集,將行人圖像對(duì)應(yīng)于行人體型,標(biāo)定為訓(xùn)練樣本;所述離線訓(xùn)練模塊,用于根據(jù)收集得到的訓(xùn)練樣本集,訓(xùn)練出基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò);所述在線體型判斷模塊,用于在線檢測(cè)行人圖像,并將檢測(cè)數(shù)據(jù)輸入卷積神經(jīng)網(wǎng)絡(luò),判斷行人體型的估計(jì)值。
其中,所述行人檢測(cè)模塊根據(jù)攝像頭采集的視頻序列,分離為單獨(dú)圖像,獲取行人數(shù)據(jù)集;對(duì)樣本集進(jìn)行預(yù)處理并且歸一化為統(tǒng)一尺度,生成數(shù)據(jù)文件。
所述樣本標(biāo)定模塊,將行人圖像標(biāo)定行人身份ID,設(shè)定數(shù)據(jù)屬性,其中,所述數(shù)據(jù)屬性包括視角、性別或者體型,其中,行人的視角劃分為八個(gè)方向,分別為正前、左前、右前、左、右、左后、右后、正后,分別給予標(biāo)號(hào)1~8;將行人性別劃分為男性和女性兩類,給予標(biāo)號(hào)1,2;將行人體型分為偏瘦、健碩、適中、超重、肥胖五類,分別給予標(biāo)號(hào)1~5。
所述離線訓(xùn)練模塊,設(shè)計(jì)一個(gè)具有五層卷積操作層、五層池化操作層、五層dropout層、兩層全連接層、三層softmax分類器和三層邏輯回歸對(duì)象層的卷積神經(jīng)網(wǎng)絡(luò),三個(gè)softmax分類器分別對(duì)應(yīng)三種行人屬性:視角、性別、體型;各個(gè)神經(jīng)元的激活函數(shù)采用ReLu(Rectified Linear Units)激活函數(shù)f(x)=max(0,x),該激活函數(shù)具有單側(cè)抑制、相對(duì)寬闊的興奮邊界、稀疏激活性等特性,由于分段線性可以避免梯度消失問(wèn)題;每一次迭代取一個(gè)數(shù)據(jù)batch,batch大小為64,即以64個(gè)樣本為單位利用誤差反向傳播算法對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,基于權(quán)重矩陣計(jì)算各層誤差及梯度方向,根據(jù)梯度下降法更新權(quán)值矩陣,循環(huán)執(zhí)行,直到網(wǎng)絡(luò)達(dá)到收斂。
所述在線體型判斷模塊,用于對(duì)在線獲得的監(jiān)控圖像進(jìn)行行人檢測(cè),得到行人圖像,再將行人圖像輸入卷積神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)最后一層全連接層被分為3個(gè)分支,分別使用softmax回歸模型分類器對(duì)視角、性別、體型進(jìn)行分類;根據(jù)三個(gè)softmax分類輸出層結(jié)果來(lái)識(shí)別出行人視角、性別、體型信息。
最后,本申請(qǐng)的方法僅為較佳的實(shí)施方案,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。