一種基于深信度網(wǎng)絡(luò)的人車分類方法
【專利摘要】本發(fā)明提出了一種基于深信度網(wǎng)絡(luò)的人車分類方法。所述方法將訓(xùn)練圖像歸一化為灰度圖像,提取HOG算子,得到HOG特征直方圖,將灰度圖像拉直后與HOG特征直方圖串聯(lián),訓(xùn)練DBN,構(gòu)造基于DBN的人車分類網(wǎng)絡(luò);將待分類圖像進(jìn)行歸一化和HOG特征提取后,輸入基于DBN的人車分類網(wǎng)絡(luò)中分類。本發(fā)明方法的深信度網(wǎng)絡(luò)具有多個隱含層,擁有比淺層網(wǎng)絡(luò)更加優(yōu)異的特征表達(dá)能力;將原始圖像和特征直方圖相結(jié)合作為輸入數(shù)據(jù),在保留圖像外觀信息的基礎(chǔ)上突出了局部梯度方向的統(tǒng)計信息;本發(fā)明對于光照、外觀大幅變化的人車圖像,仍可以獲得優(yōu)良的分類性能。
【專利說明】一種基于深信度網(wǎng)絡(luò)的人車分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于圖像處理和人工智能【技術(shù)領(lǐng)域】,具體涉及一種基于深信度網(wǎng)絡(luò)的人車分類方法。
【背景技術(shù)】
[0002]隨著我國智慧城市建設(shè)不斷走向深入,智能視頻監(jiān)控系統(tǒng)以其高清化、網(wǎng)絡(luò)化和智能化等優(yōu)點(diǎn)已經(jīng)成為智慧城市的必不可少重要特征之一。其中,行人和車輛是智能視頻監(jiān)控系統(tǒng)重點(diǎn)關(guān)注的兩類目標(biāo),進(jìn)行人車分類信息是公安圖像偵查和交通狀態(tài)分析的重要組成部分。因此,基于圖像分析和人工智能的人車分類方法是智能視頻監(jiān)控系統(tǒng)的關(guān)鍵技術(shù),已成為國內(nèi)外相關(guān)領(lǐng)域的研究熱點(diǎn)。
[0003]人車分類的一般流程包括目標(biāo)圖像獲取、目標(biāo)特征提取、構(gòu)造分類器和人車分類判別等步驟。在目標(biāo)特征提取方面,HOG算子、LBP算子、不變距特征和幾何比例特征等方法被用來進(jìn)行目標(biāo)特征表征。然而,每種特征提取方法都有相應(yīng)的最佳使用場合,且不可避免的要丟失原始圖像的部分信息,很難在目標(biāo)光照,外觀,尺寸大幅變化的情況下維持有效的特征表征;在分類器方面,SVM,神經(jīng)網(wǎng)絡(luò),貝葉斯決策等理論廣泛應(yīng)用于圖像分類領(lǐng)域。其中,基于SVM的方法分類性能最佳,并且能在小樣本條件下取得良好的識別性能。但是,對于智能視頻監(jiān)控系統(tǒng)中獲取的海量人車圖像構(gòu)成的大數(shù)據(jù)圖像樣本,SVM方法則存在尋優(yōu)時間漫長和易陷入局部最優(yōu)的問題。
【發(fā)明內(nèi)容】
[0004]本發(fā)明所要解決的技術(shù)問題是為了克服現(xiàn)有技術(shù)的不足,提出一種基于深信度網(wǎng)絡(luò)的人車分類方法。所述方法應(yīng)用于智能視頻監(jiān)控系統(tǒng)中,可以對在光照、視角、分辨率等方面存在大幅差異的人車圖像,實(shí)現(xiàn)穩(wěn)健和高性能的分類功能。
[0005]本發(fā)明為解決上述技術(shù)問題,采用如下技術(shù)方案:一種基于深信度網(wǎng)絡(luò)的人車分類方法,包括步驟如下:
[0006]步驟A,圖像特征提取:
[0007]將不同尺寸的訓(xùn)練圖像歸一化為同一大小的灰度圖像Ig,提取灰度圖像Ig的方向梯度直方圖HOG算子,得到灰度圖像的HOG特征直方圖Hg ;將灰度圖像Ig拉直后與HOG特征直方圖Hg串聯(lián),構(gòu)成聯(lián)合圖像特征Vi ;
[0008]步驟B,構(gòu)造深信度網(wǎng)絡(luò)DBN:
[0009]所述DBN基于受限波爾茲曼機(jī)RBM,確定DBN的網(wǎng)絡(luò)層數(shù)及各層節(jié)點(diǎn)數(shù)量;
[0010]步驟C,訓(xùn)練DBN:
[0011]將聯(lián)合圖像特征Vi輸入DBN,先逐層貪婪訓(xùn)練DBN,再使用反向傳播BP算法,調(diào)整DBN參數(shù),完成DBN的訓(xùn)練;
[0012]步驟D,進(jìn)行人車分類:
[0013]將待分類圖像進(jìn)行歸一化和HOG特征提取后,形成聯(lián)合圖像特征Vt,輸入步驟C訓(xùn)練完成的DBN中,進(jìn)行人車分類。
[0014]步驟A中,所述圖像特征提取,具體過程如下:
[0015]步驟A-1,將訓(xùn)練圖像歸一化為96X144的灰度圖像Ig ;
[0016]步驟A-2,使用HOG算子對Ig進(jìn)行特征提取,獲得I X 6732維的HOG特征直方圖Hg;
[0017]步驟A-3,將Ig拉直后和Hg串聯(lián)成聯(lián)合圖像特征Vi,為一個1X20556的向量。
[0018]步驟B中,所述構(gòu)造深信度網(wǎng)絡(luò)DBN,具體包括以下步驟:
[0019]步驟B-1,構(gòu)造基于RBM的5層DBN,包括I個輸入層,3個隱藏層和I個分類層;
[0020]步驟B-2,指定DBN的輸入層節(jié)點(diǎn)數(shù)為20556 ;第一個隱藏層節(jié)點(diǎn)數(shù)為500 ;第二個隱藏層節(jié)點(diǎn)數(shù)為500 ;第三個隱藏層節(jié)點(diǎn)數(shù)為2000 ;分類層的節(jié)點(diǎn)數(shù)為2。
[0021]步驟C中,所述訓(xùn)練DBN,具體包括以下步驟:
[0022]步驟C-1,使用對比散度⑶算法對DBN的前4層進(jìn)行逐層訓(xùn)練,計算3個隱藏層的輸出值和各層之間的權(quán)值及偏置;
[0023]步驟C-2,使用softmax回歸模型訓(xùn)練DBN的分類層;
[0024]步驟C-3,使用BP算法對整個DBN進(jìn)行調(diào)整,優(yōu)化DBN參數(shù),完成DBN的全局訓(xùn)練。
[0025]有益效果:本發(fā)明提出了一種基于深信度網(wǎng)絡(luò)的人車分類方法。所述方法將訓(xùn)練圖像歸一化為灰度圖像,提取HOG算子,得到HOG特征直方圖,將灰度圖像拉直后與HOG特征直方圖串聯(lián),訓(xùn)練DBN,構(gòu)造基于DBN的人車分類網(wǎng)絡(luò);將待分類圖像進(jìn)行歸一化和HOG特征提取后,輸入基于DBN的人車分類網(wǎng)絡(luò)中分類。本發(fā)明方法的深信度網(wǎng)絡(luò)具有多個隱含層,擁有比淺層網(wǎng)絡(luò)更加優(yōu)異的特征表達(dá)能力;將原始圖像和特征直方圖相結(jié)合作為輸入數(shù)據(jù),在保留圖像外觀信息的基礎(chǔ)上突出了局部梯度方向的統(tǒng)計信息;本發(fā)明對于光照、外觀大幅變化的人車圖像,仍可以獲得優(yōu)良的分類性能。
【專利附圖】
【附圖說明】
[0026]圖1是本發(fā)明中基于深信度網(wǎng)絡(luò)的人車分類方法流程圖。
[0027]圖2是本發(fā)明中深信度分類網(wǎng)絡(luò)DBN示意圖。
【具體實(shí)施方式】
[0028]下面結(jié)合附圖,進(jìn)一步具體說明本發(fā)明的一種基于深信度網(wǎng)絡(luò)的人車分類方法。如圖1所示,本發(fā)明所提供的一種基于深信度網(wǎng)絡(luò)的人車分類方法,包括如下步驟:
[0029]I)圖像特征提取:將不同尺寸的訓(xùn)練圖像歸一化為同一大小的灰度圖像,對灰度圖像進(jìn)行HOG算子提取,得到灰度圖像對應(yīng)的HOG特征直方圖;將灰度圖像拉直后與HOG特征直方圖串聯(lián)構(gòu)造成聯(lián)合圖像特征Vi作為輸入數(shù)據(jù);
[0030]2)構(gòu)造分類網(wǎng)絡(luò):構(gòu)造基于RBM的深信度網(wǎng)絡(luò)(De印Belief Net, DBN),確定DBN的網(wǎng)絡(luò)層數(shù)及各層的節(jié)點(diǎn)數(shù)量;
[0031]3)訓(xùn)練分類網(wǎng)絡(luò):將聯(lián)合數(shù)據(jù)Vi作為可視層數(shù)據(jù)輸入DBN,逐層貪婪訓(xùn)練DBNJi輸入數(shù)據(jù)進(jìn)行模式學(xué)習(xí)和分類推導(dǎo),完成基于DBN的人車分類網(wǎng)絡(luò)Cdbn ;
[0032]4)分類時,將待分類圖像進(jìn)行歸一化和HOG特征提取后,形成聯(lián)合數(shù)據(jù)Vt,輸入網(wǎng)絡(luò)Cdbn中分類,判別待分類圖像是行人還是車輛。[0033]所述步驟I)具體包括以下步驟:
[0034]11)將從監(jiān)控視頻中獲取的包含目標(biāo)的彩色圖像歸一化為96X144的灰度圖像
1S ;
[0035]12)使用矩形HOG (R-HOG)算子對Ig進(jìn)行特征提取。其中,HOG算子的塊(block)尺寸為16X 16,每塊等分為不重疊的4個單元(cell),每個單元中獲取的梯度方向(范圍是 0-180° )合并為9個區(qū)間,即20°為一個區(qū)間,也就是說一個單元的特征是一個9維向量。
[0036]本算法進(jìn)行特征提取時,將圖像Ig劃分為相互交疊的塊,每個塊與相鄰塊有50%的面積相互重疊。則圖像Ig中存在((96-8)/8)*((144-8)/8) =187個塊,每個塊內(nèi)有4個單元,每個單元用一個9維特征向量表示,則每個塊有4*9=36維特征。因此,每個圖像Ig獲取的HOG特征直方圖Hg為36*187=6732維。
[0037]13)將Ig拉直后和Hg串聯(lián)成為聯(lián)合圖像特征Vi,是一個96*144+6732=20556維向量。
[0038]所述步驟2)具體包括以下步驟:
[0039]21)本發(fā)明中采用深信度網(wǎng)絡(luò)(DBN)是目前研究和應(yīng)用最為廣泛的深度學(xué)習(xí)結(jié)構(gòu),深度學(xué)習(xí)與傳統(tǒng)的淺層學(xué)習(xí)的最大區(qū)別在于:a)強(qiáng)調(diào)了網(wǎng)絡(luò)結(jié)構(gòu)的深度,網(wǎng)絡(luò)層數(shù)通常達(dá)到5層以上;b)突出了特征學(xué)習(xí)的重要性,通過多個隱層的非線性變化,深度網(wǎng)絡(luò)擁有比淺層網(wǎng)絡(luò)更加優(yōu)異的特征表達(dá)能力。DBN由多層受限波爾茲曼機(jī)(Restricted BoltzmannMachine, RBM)組成,RBM是一個兩層(可見層、隱藏層)神經(jīng)網(wǎng)絡(luò),層間全連接,層內(nèi)無連接。RBM也可被視為一個無向圖模型,可見層用于表示觀測數(shù)據(jù),隱藏層可視為一種特征檢測器。
[0040]綜合考慮人車分類性能和訓(xùn)練時間開銷,本發(fā)明構(gòu)造基于RBM的5層深信度網(wǎng)絡(luò)Cdbn,包括I個輸入層,3個隱藏層和I個分類層;最后的分類層使用Softmax回歸模型產(chǎn)生最終的網(wǎng)絡(luò)輸出。
[0041]22)由于采用步驟I)所述的聯(lián)合圖像特征,可視層節(jié)點(diǎn)數(shù)為聯(lián)合樣本的維數(shù) 20556 ;2_4 層的隱藏節(jié)點(diǎn)數(shù)參考文獻(xiàn)(G.E.Hinton, R.R.Salakhutdinov, ” Reducingthe Dimensionality of Data with Neural Networks^, Science, Vol.313.n0.5786,pp.504-507,2006)中的設(shè)置;輸出層是針對人車分類的softmax回歸模型,因此輸出節(jié)點(diǎn)數(shù)為2。綜上所述,如圖2所示,所述Cdbn各層的節(jié)點(diǎn)數(shù)為20556-500-500-2000-2 ;
[0042]所述步驟3)具體包括以下步驟:
[0043]31)對于深度網(wǎng)絡(luò)的訓(xùn)練一直是神經(jīng)網(wǎng)絡(luò)研究領(lǐng)域的難點(diǎn),傳統(tǒng)基于梯度下降法的全局訓(xùn)練方法對于深度網(wǎng)絡(luò)通常難以奏效,訓(xùn)練深層網(wǎng)絡(luò)引起的局部最優(yōu)點(diǎn)、梯度彌散等問題是目前全局訓(xùn)練方法很難克服的障礙。
[0044]目前一種有效訓(xùn)練深度網(wǎng)絡(luò)的思路是首先逐層進(jìn)行貪婪訓(xùn)練,從而預(yù)訓(xùn)練得到深度網(wǎng)絡(luò)的權(quán)重,然后采用傳統(tǒng)的BP算法等方法進(jìn)行全局的微調(diào),最終優(yōu)化整個深度網(wǎng)絡(luò)。
[0045]本發(fā)明中使用對比散度(Contrastive Divergence, CD)算法對Cdbn的前4層進(jìn)行逐層預(yù)訓(xùn)練,計算3個隱藏層的輸出值和各層之間的權(quán)值及偏置。Cdbn中的前4層RBM被限制為一個可視層V和一個隱藏層HH,兩者的聯(lián)合概率密度為:
[0046]ρ(ν,Κ) =I e—E_)(I)
Z[0047]其中,E (V,h)是RBM的能量函數(shù),其形式為:
[0048]E (V, h) =- Σ j e VaiV1-Σ』e 抑廠 Σ i; JViIiiWi」(2)
Vi, hj分別表示可視層節(jié)點(diǎn)i和隱藏層節(jié)點(diǎn)j的狀態(tài),a” bj是相應(yīng)的偏置,wu是兩者之間的權(quán)重,Z是配分函數(shù)。由此,可以得出兩層之間的條件概率分布,即可視層的狀態(tài)Vi為I的概率是:
[0049]P (Vi=I I h) = σ {?Λ Σ jhjWij) (3)
其中σ (X)為sigmoid函數(shù)I/(Ι+exp (-χ))。隱藏層的狀態(tài)h」為I的概率是:
[0050]p(hj=l |ν) = σ (bj+Σ ^iWij) (4)
[0051]訓(xùn)練的具體流程為:
[0052]a)開始進(jìn)行第一個RBM (20556— 500)的訓(xùn)練;隨機(jī)初始化模型參數(shù)Θ ={w, a, b},w,a,b分別是權(quán)值、可視層偏置和隱藏層偏置,并設(shè)定三個參數(shù)的學(xué)習(xí)率Aw=Aa=Ab=0.1 ;
[0053]b)對可視層輸入進(jìn)行正向傳播,利用公式(4),計算出隱藏層的輸出ftf ;
[0054]c)按照公式(3),對隱藏層的輸出A/進(jìn)行反向傳播,得到^ ;
[0055]d)同樣對V11進(jìn)行正向傳播,得到N ;
[0056]e)結(jié)合參數(shù)對應(yīng)的學(xué)習(xí)率,更新模式參數(shù)Θ ={w,a, b},參數(shù)的變化量是:
[0057]
【權(quán)利要求】
1.一種基于深信度網(wǎng)絡(luò)的人車分類方法,其特征在于,包括步驟如下: 步驟A,圖像特征提取: 將不同尺寸的訓(xùn)練圖像歸一化為同一大小的灰度圖像Ig,提取灰度圖像Ig的方向梯度直方圖HOG算子,得到灰度圖像的HOG特征直方圖Hg ;將灰度圖像Ig拉直后與HOG特征直方圖Hg串聯(lián),構(gòu)成聯(lián)合圖像特征Vi ; 步驟B,構(gòu)造深信度網(wǎng)絡(luò)DBN: 所述DBN基于受限波爾茲曼機(jī)RBM,確定DBN的網(wǎng)絡(luò)層數(shù)及各層節(jié)點(diǎn)數(shù)量; 步驟C,訓(xùn)練DBN: 將聯(lián)合圖像特征Vi輸入DBN,先逐層貪婪訓(xùn)練DBN,再使用反向傳播BP算法,微調(diào)DBN參數(shù),完成DBN的訓(xùn)練; 步驟D,進(jìn)行人車分類: 將待分類圖像進(jìn)行歸一化和HOG特征提取后,形成聯(lián)合圖像特征Vt,輸入步驟C訓(xùn)練完成的DBN中,進(jìn)行人車分類。
2.根據(jù)權(quán)利要求1所述的一種基于深信度網(wǎng)絡(luò)的人車分類方法,其特征在于,步驟A中,所述圖像特征提取,具體過程如下: 步驟A-1,將訓(xùn)練圖像歸一化為96X144的灰度圖像Ig ; 步驟A-2,使用HOG算子對Ig進(jìn)行特征提取,獲得I X 6732維的HOG特征直方圖Hg ; 步驟A-3,將Ig拉直后和Hg串聯(lián)成聯(lián)合圖像特征Vi,為一個1X20556的向量。
3.根據(jù)權(quán)利要求1所述的一種基于深信度網(wǎng)絡(luò)的人車分類方法,其特征在于,步驟B中,所述構(gòu)造深信度網(wǎng)絡(luò)DBN,具體包括以下步驟: 步驟B-1,構(gòu)造基于RBM的5層DBN,包括I個輸入層,3個隱藏層和I個分類層; 步驟BUgSDBN的輸入層節(jié)點(diǎn)數(shù)為20556 ;第一個隱藏層節(jié)點(diǎn)數(shù)為500 ;第二個隱藏層節(jié)點(diǎn)數(shù)為500 ;第三個隱藏層節(jié)點(diǎn)數(shù)為2000 ;分類層的節(jié)點(diǎn)數(shù)為2。
4.根據(jù)權(quán)利要求1所述的一種基于深信度網(wǎng)絡(luò)的人車分類方法,其特征在于,步驟C中,所述訓(xùn)練DBN,具體包括以下步驟: 步驟C-1,使用對比散度CD算法對DBN的前4層進(jìn)行逐層訓(xùn)練,計算3個隱藏層的輸出值和各層之間的權(quán)值及偏置; 步驟C-2,使用softmax回歸模型訓(xùn)練DBN的分類層; 步驟C-3,使用BP算法對整個DBN進(jìn)行調(diào)整,優(yōu)化DBN參數(shù),完成DBN的全局訓(xùn)練。
【文檔編號】G06K9/62GK103778432SQ201410007538
【公開日】2014年5月7日 申請日期:2014年1月8日 優(yōu)先權(quán)日:2014年1月8日
【發(fā)明者】孫寧, 吳秦龍, 韓光, 李曉飛 申請人:南京郵電大學(xué)