本發(fā)明屬于圖像處理領(lǐng)域,尤其涉及一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的密集人群人數(shù)計數(shù)方法及系統(tǒng)。
背景技術(shù):
密集人群計數(shù)(Dense Crowd Counting)是指針對視頻或圖像中的密集人群,統(tǒng)計個體目標數(shù)目。近年來,基于模式識別和機器學習的人群計數(shù)被廣泛的研究和應(yīng)用在智能監(jiān)控領(lǐng)域,如:機場車站等地的人流量監(jiān)控及大型商場區(qū)域性人群分布等。通過監(jiān)控某場所的人數(shù)能為管理機構(gòu)提供實時密度信息,有效控制人流量,從而防止因人群密度過大而造成的潛在危機。然而,由于遮擋,人群無規(guī)律分布等問題,密集人群計數(shù)仍面臨著很大的挑戰(zhàn)。
現(xiàn)有的人群計數(shù)方法大部分著重在數(shù)目較少的人數(shù)統(tǒng)計(100人以下),但低密度的人群計數(shù)對于安全隱患的發(fā)現(xiàn)意義不大。對于人數(shù)目超過一百甚至上千的人群場景,一些算法著重估計其密度等級,但也僅限于給出低,中,高三個密度等級,現(xiàn)實應(yīng)用意義不大。自2013年開始,逐漸出現(xiàn)了針對包含千人以上人群的計數(shù)方法。但特征提取模型設(shè)計過程較為復雜,計算耗時也相對較長。
技術(shù)實現(xiàn)要素:
為了解決現(xiàn)有技術(shù)中的缺點,本發(fā)明的第一目的是提供一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的密集人群人數(shù)計數(shù)方法。該方法針對圖像中整體布局差異性,人群分布不均勻,背景差別較大等特點對圖像進行分塊,對圖像的不同區(qū)域分別進行計數(shù),在對全局圖像人群計數(shù)的同時能有效統(tǒng)計不同區(qū)域人數(shù),從而能獲取圖像中的人群區(qū)域性分布。
本發(fā)明的一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的密集人群人數(shù)計數(shù)方法,包括:
步驟1:獲取包含密集人群的原始圖像,將獲取的原始圖像劃分成若干個大小一致的圖像塊并記錄每個圖像塊所屬的原始圖像標號;
步驟2:利用圖像塊及每個圖像塊所屬的原始圖像標號來訓練深度卷積網(wǎng)絡(luò);
步驟3:利用訓練完成的深度卷積網(wǎng)絡(luò),計算每個圖像塊中的人數(shù),并將所有圖像塊中的人數(shù)進行累加,最終得到原始圖像中所有人數(shù)。
進一步的,將獲取的原始圖像劃分成若干個大小一致的圖像塊之前,還包括對原始圖像進行放縮處理。這樣使圖像的維度為圖像塊大小的整倍數(shù),便于分割。另外,為盡量避免圖像失真,將縮放尺度降到了最低。
進一步的,據(jù)原始圖像大小將寬高均調(diào)整為64的倍數(shù),然后將調(diào)整后的圖像分割為若干個64*64大小的圖像塊。為避免圖像縮放倍數(shù)過大所引起的失真,本發(fā)明根據(jù)原始圖像大小進行調(diào)整,圖像大小可改變?yōu)槠渌叽?,但?jīng)過試驗驗證,尺寸為64*64的情況下結(jié)果最佳。
進一步的,在所述步驟2中,在訓練深度卷積網(wǎng)絡(luò)過程中,加入輔助訓練機制;所述輔助訓練機制為:在計數(shù)的同時,根據(jù)圖像塊中目標的表觀特征將圖像塊分成僅包含背景的圖像塊和非背景的圖像塊;根據(jù)圖像塊是否僅包含目標的頭部,所述非背景的圖像塊又分為包含頭部的圖像塊和包含頭部和身體的圖像塊。這樣使得深度卷積網(wǎng)絡(luò)更有效地濾除背景、保留目標并進行計數(shù),這也符合人類計數(shù)的普遍規(guī)律。
本發(fā)明的第二目的是提供一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的密集人群人數(shù)計數(shù)系統(tǒng)。
本發(fā)明的一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的密集人群人數(shù)計數(shù)系統(tǒng),包括:
圖像劃分模塊,其用于獲取包含密集人群的原始圖像,將獲取的原始圖像劃分成若干個大小一致的圖像塊并記錄每個圖像塊所屬的原始圖像標號;
深度卷積網(wǎng)絡(luò)訓練模塊,其用于利用圖像塊及每個圖像塊所屬的原始圖像標號來訓練深度卷積網(wǎng)絡(luò);
計數(shù)累加模塊,其用于利用訓練完成的深度卷積網(wǎng)絡(luò),計算每個圖像塊中的人數(shù),并將所有圖像塊中的人數(shù)進行累加,最終得到原始圖像中所有人數(shù)。
進一步的,該系統(tǒng)還包括圖像放縮模塊,其用于將獲取的原始圖像劃分成若干個大小一致的圖像塊之前,還包括對原始圖像進行放縮處理。這樣使圖像的維度為圖像塊大小的整倍數(shù),便于分割。另外,為盡量避免圖像失真,將縮放尺度降到了最低。
進一步的,在所述深度卷積網(wǎng)絡(luò)訓練模塊中,在訓練深度卷積網(wǎng)絡(luò)過程中,加入輔助訓練機制;所述輔助訓練機制為:在計數(shù)的同時,根據(jù)圖像塊中目標的表觀特征將圖像塊分成僅包含背景的圖像塊和非背景的圖像塊;根據(jù)圖像塊是否僅包含目標的頭部,所述非背景的圖像塊又分為包含頭部的圖像塊和包含頭部和身體的圖像塊。這樣使得深度卷積網(wǎng)絡(luò)更有效地濾除背景、保留目標并進行計數(shù),這也符合人類計數(shù)的普遍規(guī)律
本發(fā)明還提供了另一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的密集人群人數(shù)計數(shù)系統(tǒng)。
本發(fā)明的一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的密集人群人數(shù)計數(shù)系統(tǒng),包括:
圖像采集裝置,其被配置為采集包含密集人群的原始圖像,并傳送至服務(wù)器;
所述服務(wù)器,被配置為:
獲取包含密集人群的原始圖像,將獲取的原始圖像劃分成若干個大小一致的圖像塊并記錄每個圖像塊所屬的原始圖像標號;
利用圖像塊及每個圖像塊所屬的原始圖像標號來訓練深度卷積網(wǎng)絡(luò);
利用訓練完成的深度卷積網(wǎng)絡(luò),計算每個圖像塊中的人數(shù),并將所有圖像塊中的人數(shù)進行累加,最終得到原始圖像中所有人數(shù)。
進一步的,所述服務(wù)器還被配置為:將獲取的原始圖像劃分成若干個大小一致的圖像塊之前,還包括對原始圖像進行放縮處理。這樣使圖像的維度為圖像塊大小的整倍數(shù),便于分割。另外,為盡量避免圖像失真,將縮放尺度降到了最低。
進一步的,所述服務(wù)器還被配置為:在訓練深度卷積網(wǎng)絡(luò)過程中,加入輔助訓練機制;所述輔助訓練機制為:在計數(shù)的同時,根據(jù)圖像塊中目標的表觀特征將圖像塊分成僅包含背景的圖像塊和非背景的圖像塊;根據(jù)圖像塊是否僅包含目標的頭部,所述非背景的圖像塊又分為包含頭部的圖像塊和包含頭部和身體的圖像塊。這樣使得深度卷積網(wǎng)絡(luò)更有效地濾除背景、保留目標并進行計數(shù),這也符合人類計數(shù)的普遍規(guī)律。
本發(fā)明具有以下有益特性:
(1)本發(fā)明針對圖像中整體布局差異性,人群分布不均勻,背景差別較大等特點對圖像進行分塊,對圖像的不同區(qū)域分別進行計數(shù),在對全局圖像人群計數(shù)的同時能有效統(tǒng)計不同區(qū)域人數(shù),從而能獲取圖像中的人群區(qū)域性分布。
(2)借助深度卷積神經(jīng)網(wǎng)絡(luò)自動學習圖像特征,從而避免了設(shè)計特征提取器以對圖像進行手動特征提取的復雜任務(wù)。
(3)在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上設(shè)計了輔助訓練機制,在計數(shù)的同時對圖像塊中目標的表觀特征進行分類,使得整個網(wǎng)絡(luò)更有效地濾出背景,突出前景目標,從而有效提升了人群計數(shù)的準確度和魯棒性。
附圖說明
構(gòu)成本發(fā)明的一部分的說明書附圖用來提供對本發(fā)明的進一步理解,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當限定。
圖1是基于深度卷積神經(jīng)網(wǎng)絡(luò)的密集人群人數(shù)計數(shù)方法流程圖;
圖2是Count-net的結(jié)構(gòu)圖;
圖3是一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的密集人群人數(shù)計數(shù)系統(tǒng)結(jié)構(gòu)示意圖。
具體實施方式
應(yīng)該指出,以下詳細說明都是例示性的,旨在對本發(fā)明提供進一步的說明。除非另有指明,本文使用的所有技術(shù)和科學術(shù)語具有與本發(fā)明所屬技術(shù)領(lǐng)域的普通技術(shù)人員通常理解的相同含義。
需要注意的是,這里所使用的術(shù)語僅是為了描述具體實施方式,而非意圖限制根據(jù)本發(fā)明的示例性實施方式。如在這里所使用的,除非上下文另外明確指出,否則單數(shù)形式也意圖包括復數(shù)形式,此外,還應(yīng)當理解的是,當在本說明書中使用術(shù)語“包含”和/或“包括”時,其指明存在特征、步驟、操作、器件、組件和/或它們的組合。
鑒于深度學習在機器視覺領(lǐng)域的廣泛應(yīng)用(跟蹤,檢測,定位等)以及卷積神經(jīng)網(wǎng)絡(luò)在圖像處理,特征學習方面的強大性能。本發(fā)明采用了深度卷積神經(jīng)網(wǎng)絡(luò)進行密集人群計數(shù),同時,為更好的結(jié)合人群計數(shù)的目的,設(shè)計了輔助訓練機制,有效地提升了計數(shù)的準確性。
本發(fā)明公開了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的密集人群人數(shù)計數(shù)方法。該方法針對圖像中群人分布不均勻的現(xiàn)實情況采用了總-分-總的整體框架,進行了分塊計數(shù):
首先根據(jù)圖像原始大小進行縮放并分區(qū),得到若干個大小一致的圖像塊;
然后利用圖像塊及標簽訓練深度卷積網(wǎng)絡(luò)。
另外,本發(fā)明在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,設(shè)計了輔助訓練機制,形成了針對密集人群的計數(shù)網(wǎng)絡(luò)(Count-net),也就是深度學習卷積網(wǎng)絡(luò):在計數(shù)的同時將圖像中個體目標的表觀特征進行分類,從而使得Count-net更有效地濾除背景、保留目標并進行計數(shù),這也符合人類計數(shù)的普遍規(guī)律。在現(xiàn)實應(yīng)用中,無需再使用輔助訓練通道。原始圖像中的整體人數(shù)由各分塊中的人數(shù)累積得到。本發(fā)明避免了傳統(tǒng)人群計數(shù)方法中前景提取,特征模型設(shè)計等復雜過程,利用輔助訓練機制有效模擬人類的計數(shù)方式,并顯著提升了對密集人群計數(shù)的準確率。
密集人群計數(shù)流程:
任意圖像中人群的整體結(jié)構(gòu)都不同,如密度,布局及個體的表觀特征等。因此,直接針對整幅圖像進行人數(shù)統(tǒng)計具有一定的局限性??紤]到圖像中不同區(qū)域間的差異性,將圖像進行分割,采用Count-net分別統(tǒng)計不同圖像塊中的人數(shù),最終將屬于同一幅圖像的圖像塊中的人數(shù)累加,得到原始圖像中的人數(shù)。流程圖見圖1。
1圖像分割:
原始圖像中不同區(qū)域間的人群密度以及背景等都有較大差異,針對這些差異性,本發(fā)明采用簡單有效的處理:圖像分塊,即針對不同圖像塊分別進行人群計數(shù)。
為避免圖像縮放倍數(shù)過大所引起的失真,本發(fā)明根據(jù)原始圖像大小進行調(diào)整:根據(jù)圖像大小將寬高均調(diào)整為64的倍數(shù),然后將圖像分割為若干64*64大小的圖像塊。調(diào)整方式見公式(1)。
圖像大小可改變?yōu)槠渌叽纾?jīng)過試驗驗證,尺寸為64*64的情況下結(jié)果較好。
其中:M和N分別為原始圖像的寬和高;ceil(·)為正向取整函數(shù),Width和Lenth為縮放后的圖像寬和高;Minte和Ninte分別代表縮放后的圖像的列和行中的圖像塊個數(shù)。
2計數(shù)網(wǎng)絡(luò)Count-net
根據(jù)經(jīng)驗,針對圖像中的密集人群,在進行人數(shù)統(tǒng)計時一般依照人頭個數(shù)進行統(tǒng)計,這種計數(shù)方式簡單直接,且有效避免了重復計數(shù)。本發(fā)明在深度卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,融合了輔助訓練機制來模擬人類的計數(shù)方式,統(tǒng)計單個圖像塊中的人數(shù)。
圖2為Count-net的結(jié)構(gòu)圖,其中F1為全連接層。由于在輸入Count-net前將圖像進行了分塊處理,因此對于RGB圖像和灰度圖像,輸入圖像塊的大小分別為64*64*3和64*64*1。在訓練過程中,輸入數(shù)據(jù)X=(x1,x2,…,xK),樣本標簽為C=(c1,c2,…,cK)和A=(a1,a2,…,aK),其中xj為樣本集中第j(j=1,2,…,K)個圖像塊,cj和aj分別對應(yīng)其人數(shù)標簽和表觀特征標簽;K為樣本總數(shù),為正整數(shù)。
在該網(wǎng)絡(luò)中,圖像塊由輸入到全連接層的特征計算方式可表示為:
(feak)=Ψ(xk|θ). (2)
θ為F1層之前的網(wǎng)絡(luò)參數(shù),Ψ為輸入到特征的映射函數(shù),xk為第k(k=1,2,…,K)個輸入數(shù)據(jù),具體為64*64的圖像塊,feak為經(jīng)過訓練在全連接層所提取的特征。特征訓練的過程為依次前向傳播的過程。
得到頂層特征后,本發(fā)明通過回歸函數(shù)計算圖像塊中的人數(shù)。該回歸函數(shù)見公式(3)
其中為通過網(wǎng)絡(luò)估計的第k個圖像塊中的人數(shù),ΦLin為回歸函數(shù),θc為全連接層與人數(shù)統(tǒng)計輸出通道間的連接權(quán)重。
在迭代訓練過程中,采取歐氏距離作為損失函數(shù)來對網(wǎng)絡(luò)參數(shù)進行優(yōu)化,見公式(4):
其中K為樣本總數(shù)。ck是對應(yīng)第k個輸入數(shù)據(jù)的人數(shù)標簽。
為模擬人類的計數(shù)習慣,在此基礎(chǔ)上加入了輔助訓練機制:在計數(shù)的同時,對圖像塊中所展示的目標的表觀特征進行分類。
具體為:將僅包含背景的圖像塊單獨分為一類,且由于在密集人群中,計數(shù)一般以頭部為標準,對于僅包含部分身體的圖像塊,也歸類到背景中。對于非背景的圖像塊,首先根據(jù)圖像塊是否僅包含目標的頭部進行分類:即僅包含頭部的為一類,包含頭部和身體的為另一類。針對這2個類別,對每一類又根據(jù)圖像塊中目標的朝向進一步分為4類:臉部正對攝像機,臉部側(cè)對攝像機,臉部背向攝像機以及目標在攝像機下方(即攝像機拍到目標的頭頂)。另外,由于某些圖片在拍攝時攝像機距離目標較遠以至于無法分辨目標朝向,則將這一類分為第10類。
因此,表觀特征標簽可表示為:a={a1,a2,…,a10},ai∈(0,1)。
在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上設(shè)計了輔助訓練機制,在計數(shù)的同時對圖像塊中目標的表觀特征進行分類,使得整個網(wǎng)絡(luò)更有效地濾出背景,突出前景目標,從而有效提升了人群計數(shù)的準確度和魯棒性。
在網(wǎng)絡(luò)訓練過程中,表觀特征通道的輸出采用10-通道softmax分類器實現(xiàn),其映射函數(shù)為:
其中,θa為全連接層與目標表觀特征分類通道的連接權(quán)重,σ為sigmod函數(shù)。
迭代過程中的損失函數(shù)定義為:
其中B(·)為布爾函數(shù),即括號中的內(nèi)容為真時函數(shù)值為1,反之函數(shù)值為0。
Count-net所需訓練的主要參數(shù)為,將這三個參數(shù)表示為網(wǎng)絡(luò)整體參數(shù)θ。在網(wǎng)絡(luò)反向傳播進行權(quán)值更新過程中,為防止權(quán)值過大,加入范數(shù)限制權(quán)值大小,并防止產(chǎn)生過擬合,網(wǎng)絡(luò)權(quán)值更新的目標函數(shù)為:
網(wǎng)絡(luò)訓練流程如下:
輸入:{Xtrain,Ctrain,Atrain}
輸出:
1:初始化網(wǎng)絡(luò)參數(shù)θ,并根據(jù)公式(2)(3)(5)計算網(wǎng)絡(luò)輸出。
2:迭代過程中,更新網(wǎng)絡(luò)參數(shù)。
①更新softmax分類器參數(shù):
其中,為更新后的θa;S為每次參數(shù)更新過程中的樣本數(shù)量,為損失函數(shù)在θa上的偏導;η(t)為衰減系數(shù),其是時間t的函數(shù),也可以人為進行預置為常數(shù);
②更新回歸函數(shù)的參數(shù):
其中為更新后的θc,為損失函數(shù)在θc上的偏導。
更新網(wǎng)絡(luò)參數(shù):以上步驟中的η(t)設(shè)置為0.003,且每迭代20000次學習率衰減為原值的0.3倍。
3:在對整個網(wǎng)絡(luò)參數(shù)進行精調(diào)過程中,整體參數(shù)更新公式為:
3具體實施過程
綜合該方法所提出的密集人群計數(shù)結(jié)構(gòu)及所所用的深度卷積神經(jīng)網(wǎng)絡(luò),整體方法包括如下步驟:
步驟1:獲取原始圖像并進行分割,具體為:
①根據(jù)原始圖像大小計算圖像縮放倍數(shù)
②將縮放后的圖像分割成若干大小為64*64的圖像塊并記錄每個圖像塊所屬的原始圖像標號;
步驟2:基于訓練數(shù)據(jù)集,利用輔助訓練機制,訓練人群計數(shù)網(wǎng)絡(luò)Count-net,獲取網(wǎng)絡(luò)參數(shù)θ。
①隨機初始化網(wǎng)絡(luò)參數(shù)θ(θ,θc和θa),根據(jù)以下公式計算網(wǎng)絡(luò)輸出和
(feak)=Ψ(xk|θ)
其中計算網(wǎng)絡(luò)輸出過程為前向傳播過程。以表示在第i(i=1,2,3,4)個卷積層,有o個卷積模板,為o為正整數(shù);模板大小v,步幅為
表示在第i(i=1,2,3,4)個池化層,模板大小υ,步幅為其中,υ和均為正數(shù)。
ReLu表示激活函數(shù)。FC(u)表示全連接層有u個結(jié)點,u為預設(shè)正整數(shù)。Oi(u)表示第i(i=1,2,3,4)個輸出的節(jié)點個數(shù)。
則網(wǎng)絡(luò)整體結(jié)構(gòu)為:Con1(16,5,1)→Pool1(2,2)→ReLu→Con2(32,3,1)→Pool2(2,2)→ReLu→Con3(64,3,1)→Pool3(2,2)→ReLu→Con4(128,2,1)→Pool4(2,2)→ReLu→FC(200)→{O1(1)||O2(10)}。
②根據(jù)輸入數(shù)據(jù)標簽與網(wǎng)絡(luò)輸出間的差值,進行迭代訓練:
人群計數(shù)通道輸出損失函數(shù)為:
圖像塊表觀特征類別輸出通道損失函數(shù)為:
迭代次數(shù)設(shè)置為200000次,則每次迭代過程參數(shù)更新次序為:
1首先更新對表觀特征進行分類的softmax參數(shù):
2然后更新圖像塊人群計數(shù)的回歸函數(shù)參數(shù):
3最后更新特征提取部分網(wǎng)絡(luò)的參數(shù):
其中學習率η(t)設(shè)置為0.003,且每迭代20000次學習率衰減為原值的0.3倍。
4對網(wǎng)絡(luò)進行整體參數(shù)調(diào)節(jié),參數(shù)更新公式為:
步驟3:在實際應(yīng)用中,利用訓練好的人群計數(shù)網(wǎng)絡(luò)(僅保留計數(shù)通道)進行密集人群計數(shù)。
①給出屬于原始圖像的所有圖像塊,計算每個圖像塊中人數(shù):
(feak)=Ψ(xk|θ)
②根據(jù)步驟1中所記錄的每個圖像塊的標號,將屬于同一幅原始圖像的圖像塊的輸出加和,得到整體圖像中的人數(shù):
4實驗結(jié)果:
分別在UCF__CC_50和AHU-CROWD數(shù)據(jù)集上進行實驗。
4.1UCF_CC_50數(shù)據(jù)集:
該數(shù)據(jù)集包含50張圖像,人數(shù)范圍從94到4543不等,平均為1280人。數(shù)據(jù)庫中圖像包含的場景范圍較廣。
采用平均預測絕對誤差MAE和平均平方預測誤差MSE兩個指標作為評價標準,MAE的值越低,則方法準確性越高,MSE的值越低,則方法的魯棒性越好。
實驗結(jié)果較傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)如下:
4.2AHU-CROWD數(shù)據(jù)集
該數(shù)據(jù)集發(fā)布時間較新,共包含107張人群圖像數(shù)據(jù),單張圖像所包含的人數(shù)在58到2210之間。實驗采用平均預測絕對誤差MAE和平均預測相對誤差MRE作為評價指標。
圖3是一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的密集人群人數(shù)計數(shù)系統(tǒng)結(jié)構(gòu)示意圖。
如圖3所示的本發(fā)明的一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的密集人群人數(shù)計數(shù)系統(tǒng),包括:
(1)圖像劃分模塊,其用于獲取包含密集人群的原始圖像,將獲取的原始圖像劃分成若干個大小一致的圖像塊并記錄每個圖像塊所屬的原始圖像標號;
(2)深度卷積網(wǎng)絡(luò)訓練模塊,其用于利用圖像塊及每個圖像塊所屬的原始圖像標號來訓練深度卷積網(wǎng)絡(luò);
(3)計數(shù)累加模塊,其用于利用訓練完成的深度卷積網(wǎng)絡(luò),計算每個圖像塊中的人數(shù),并將所有圖像塊中的人數(shù)進行累加,最終得到原始圖像中所有人數(shù)。
在另一實施例中,該系統(tǒng)還包括圖像放縮模塊,其用于將獲取的原始圖像劃分成若干個大小一致的圖像塊之前,還包括對原始圖像進行放縮處理。這樣使圖像的維度為圖像塊大小的整倍數(shù),便于分割。另外,為盡量避免圖像失真,將縮放尺度降到了最低。
為避免圖像縮放倍數(shù)過大所引起的失真,本發(fā)明根據(jù)原始圖像大小進行調(diào)整:根據(jù)圖像大小將寬高均調(diào)整為64的倍數(shù),然后將圖像分割為若干64*64大小的圖像塊。
在具體實施過程中,在訓練深度卷積網(wǎng)絡(luò)過程中,加入輔助訓練機制;所述輔助訓練機制為:在計數(shù)的同時,根據(jù)圖像塊中目標的表觀特征將圖像塊細分。
具體為:將僅包含背景的圖像塊單獨分為一類,且由于在密集人群中,計數(shù)一般以頭部為標準,對于僅包含部分身體的圖像塊,也歸類到背景中。對于非背景的圖像塊,首先根據(jù)圖像塊是否僅包含目標的頭部進行分類:即僅包含頭部的為一類,包含頭部和身體的為另一類。針對這2個類別,對每一類又根據(jù)圖像塊中目標的朝向進一步分為4類:臉部正對攝像機,臉部側(cè)對攝像機,臉部背向攝像機以及目標在攝像機下方(即攝像機拍到目標的頭頂)。另外,由于某些圖片在拍攝時攝像機距離目標較遠以至于無法分辨目標朝向,則將這一類分為第10類。這樣使得深度卷積網(wǎng)絡(luò)更有效地濾除背景、保留目標并進行計數(shù),這也符合人類計數(shù)的普遍規(guī)律。在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上設(shè)計了輔助訓練機制,在計數(shù)的同時對圖像塊中目標的表觀特征進行分類,使得整個網(wǎng)絡(luò)更有效地濾出背景,突出前景目標,從而有效提升了人群計數(shù)的準確度和魯棒性。
本發(fā)明還提供了另一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的密集人群人數(shù)計數(shù)系統(tǒng),包括:圖像采集裝置和服務(wù)器。
其中,圖像采集裝置,其被配置為采集包含密集人群的原始圖像,并傳送至服務(wù)器。
圖像采集裝置可以為攝像機。
服務(wù)器,被配置為:獲取包含密集人群的原始圖像,將獲取的原始圖像劃分成若干個大小一致的圖像塊并記錄每個圖像塊所屬的原始圖像標號;
利用圖像塊及每個圖像塊所屬的原始圖像標號來訓練深度卷積網(wǎng)絡(luò);
利用訓練完成的深度卷積網(wǎng)絡(luò),計算每個圖像塊中的人數(shù),并將所有圖像塊中的人數(shù)進行累加,最終得到原始圖像中所有人數(shù)。
具體地,服務(wù)器還被配置為:將獲取的原始圖像劃分成若干個大小一致的圖像塊之前,還包括對原始圖像進行放縮處理。這樣使圖像的維度為圖像塊大小的整倍數(shù),便于分割。另外,為盡量避免圖像失真,將縮放尺度降到了最低。
服務(wù)器還被配置為:在訓練深度卷積網(wǎng)絡(luò)過程中,加入輔助訓練機制;所述輔助訓練機制為:在計數(shù)的同時,根據(jù)圖像塊中目標的表觀特征將圖像塊分成僅包含背景的圖像塊和非背景的圖像塊;根據(jù)圖像塊是否僅包含目標的頭部,所述非背景的圖像塊又分為包含頭部的圖像塊和包含頭部和身體的圖像塊。這樣使得深度卷積網(wǎng)絡(luò)更有效地濾除背景、保留目標并進行計數(shù),這也符合人類計數(shù)的普遍規(guī)律。
本發(fā)明在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上設(shè)計了輔助訓練機制,在計數(shù)的同時對圖像塊中目標的表觀特征進行分類,使得整個網(wǎng)絡(luò)更有效地濾出背景,突出前景目標,從而有效提升了人群計數(shù)的準確度和魯棒性。
本發(fā)明針對圖像中整體布局差異性,人群分布不均勻,背景差別較大等特點對圖像進行分塊,對圖像的不同區(qū)域分別進行計數(shù),在對全局圖像人群計數(shù)的同時能有效統(tǒng)計不同區(qū)域人數(shù),從而能獲取圖像中的人群區(qū)域性分布。借助深度卷積神經(jīng)網(wǎng)絡(luò)自動學習圖像特征,從而避免了設(shè)計特征提取器以對圖像進行手動特征提取的復雜任務(wù)。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本發(fā)明可采用硬件實施例、軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器和光學存儲器等)上實施的計算機程序產(chǎn)品的形式。
本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以通過計算機程序來指令相關(guān)的硬件來完成,所述的程序可存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(Read-Only Memory,ROM)或隨機存儲記憶體(Random AccessMemory,RAM)等。
上述雖然結(jié)合附圖對本發(fā)明的具體實施方式進行了描述,但并非對本發(fā)明保護范圍的限制,所屬領(lǐng)域技術(shù)人員應(yīng)該明白,在本發(fā)明的技術(shù)方案的基礎(chǔ)上,本領(lǐng)域技術(shù)人員不需要付出創(chuàng)造性勞動即可做出的各種修改或變形仍在本發(fā)明的保護范圍以內(nèi)。