本發(fā)明屬于視頻圖像處理領(lǐng)域,主要涉及一種改進(jìn)型pccnn神經(jīng)網(wǎng)絡(luò)模型的人群聚集檢測(cè)方法。
背景技術(shù):
目前針對(duì)人群聚集的檢測(cè)方法,主要集中在圖像分割、前景提取,紋理特征識(shí)別等傳統(tǒng)數(shù)字圖像處理技術(shù)。
在傳統(tǒng)的視頻人群聚集分析領(lǐng)域,一般通過(guò)幀間差分法、光流法、(混合)背景建模法等對(duì)關(guān)注目標(biāo)進(jìn)行前景提取,在前景提取前會(huì)選擇性采用圖像去噪、背景生成等預(yù)處理手段。但是由于圖像背景復(fù)雜度的增加,各類算法的計(jì)算復(fù)雜度也顯著增加,建模的難度也成規(guī)模提升。同時(shí),由于場(chǎng)景的干擾因素較多,如光照環(huán)境變化,目標(biāo)遮擋等,都對(duì)計(jì)算分析造成了極大的干擾。而且特征提取中的目標(biāo)特征確定也十分繁雜,目標(biāo)以外的背景也使得提取局部特征時(shí)會(huì)帶入大量的噪聲和干擾。
在前景提取完成后,往往對(duì)人群的數(shù)量估計(jì)采用的是基于提取前景的像素特征,該特征在前景提取效果較差、人數(shù)較多、人群重疊、遮擋物較多時(shí)得到的結(jié)果誤差很大。
隨著gpu計(jì)算能力的提升和神經(jīng)網(wǎng)絡(luò)理論的成熟,以機(jī)器學(xué)習(xí)為代表的人工智能方法成為了一種提取大量有效特征的可行方法,是視頻圖像處理領(lǐng)域的嶄新方向,對(duì)于人群聚集的視頻檢測(cè)提供了新的途徑。
技術(shù)實(shí)現(xiàn)要素:
發(fā)明目的:本發(fā)明針對(duì)安防監(jiān)控活動(dòng)中現(xiàn)有系統(tǒng)很難主動(dòng)檢測(cè)異常事件的不足,綜合考慮不同監(jiān)控場(chǎng)景下人群聚集的特點(diǎn),提供一種改進(jìn)型pccnn神經(jīng)網(wǎng)絡(luò)模型的人群聚集檢測(cè)方法,采用多級(jí)神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)思路,實(shí)時(shí)分析視頻中人群的密度變化特征,從而實(shí)現(xiàn)檢測(cè)視頻中的人群聚集行為,主動(dòng)進(jìn)行群體事件、群體行為的預(yù)警,避免異常事件的發(fā)生以及可能造成的人員傷亡。
技術(shù)方案:本發(fā)明采用的技術(shù)方案為:
一種改進(jìn)型pccnn神經(jīng)網(wǎng)絡(luò)模型的人群聚集檢測(cè)方法,包括以下步驟:
(1)收集不同遠(yuǎn)近視角下的人群聚集分段序列圖像并進(jìn)行擴(kuò)充后作為訓(xùn)練集,將訓(xùn)練集中的圖像根據(jù)與攝像機(jī)的距離分為離攝像機(jī)近的、離攝像機(jī)適中的以及離攝像機(jī)遠(yuǎn)的a、b、c三類,并向訓(xùn)練集中添加無(wú)人的d類背景圖像;
(2)構(gòu)建由三個(gè)深度不同的子神經(jīng)網(wǎng)絡(luò)組成的并行交叉神經(jīng)網(wǎng)絡(luò)模型,其中,第一個(gè)子網(wǎng)絡(luò)深度>第二個(gè)子網(wǎng)絡(luò)深度>第三個(gè)子網(wǎng)絡(luò)深度;
(3)分別以a、b、c類為正樣本,其余三類總和為負(fù)樣本依次訓(xùn)練第一個(gè)子網(wǎng)絡(luò)、第二子網(wǎng)絡(luò)、第三子網(wǎng)絡(luò)響應(yīng)的正樣本分類正確率達(dá)設(shè)定閾值以上,將得到的參數(shù)作為并行交叉神經(jīng)網(wǎng)絡(luò)模型中子網(wǎng)絡(luò)的初始訓(xùn)練參數(shù);在確定三個(gè)子網(wǎng)絡(luò)的初始訓(xùn)練參數(shù)后將abcd四類圖片作為輸入對(duì)并行交叉神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,從而獲得最終的神經(jīng)網(wǎng)絡(luò)模型;
(4)用訓(xùn)練好的模型對(duì)目標(biāo)視頻的采樣幀進(jìn)行分析,得到相應(yīng)的密度圖;
(5)通過(guò)對(duì)密度圖分別進(jìn)行人群分布區(qū)域的提取和分布數(shù)量的估算,同時(shí)結(jié)合人群聚集加權(quán)中心矩的計(jì)算,從而判定是否存在人群聚集的行為。
作為優(yōu)選,步驟(1)中的擴(kuò)充包括將訓(xùn)練圖像以自身為基準(zhǔn)進(jìn)行指定倍數(shù)的放縮,以及選取訓(xùn)練圖像中的高密度部分兩種擴(kuò)充操作。
作為優(yōu)選,步驟(2)中的多深度的并行交叉神經(jīng)網(wǎng)絡(luò)模型中,第一個(gè)子網(wǎng)絡(luò)深度為5,之間穿插4個(gè)最大池化層,第二個(gè)子網(wǎng)絡(luò)深度為4,之間穿插2個(gè)最大池化層和2個(gè)平均池化層,第三個(gè)子網(wǎng)絡(luò)深度為3,之間穿插3個(gè)平均池化層;各子網(wǎng)絡(luò)的輸出末端輸入一個(gè)1*1的卷積層,該1*1的卷積層的輸出通過(guò)雙線性插值對(duì)輸入圖像采樣最終生成人群分布的密度圖。
作為優(yōu)選,步驟(5)中,包括:
(5.1)對(duì)密度圖進(jìn)行二值化,提取二值化圖像中的連通區(qū)域,計(jì)算各連通區(qū)域的面積占整幅圖像的百分比;
(5.2)對(duì)密度圖進(jìn)行中值濾波,將濾波后的各連通區(qū)域位置對(duì)應(yīng)的像素值求和,估算各區(qū)域人群分布數(shù)量;
(5.3)根據(jù)密度圖中各連通區(qū)域的密度分布求各區(qū)域的加權(quán)一階中心矩,確定各區(qū)域的聚集中心;
(5.4)當(dāng)連續(xù)采樣幀中的連通區(qū)域百分比占比大于設(shè)定閾值,對(duì)應(yīng)區(qū)域的人數(shù)分布數(shù)量估計(jì)大于設(shè)定閾值,且連續(xù)采樣幀的聚集中心在視頻幀中的偏移小于設(shè)定的范圍,則判定發(fā)生了人群聚集。
作為優(yōu)選,步驟(5.2)中每個(gè)區(qū)域人群分布數(shù)量的估算值采用對(duì)像素和值*b進(jìn)行線性估算,b為人數(shù)估計(jì)值和像素密度值固定映射比值。有益效果:本發(fā)明與現(xiàn)有技術(shù)方案相比,其顯著優(yōu)點(diǎn)為:
(1)本發(fā)明針對(duì)卷積神經(jīng)網(wǎng)絡(luò)中的構(gòu)建生成特點(diǎn),獨(dú)創(chuàng)性的提出了利用不同遠(yuǎn)近視角下的視頻幀序列訓(xùn)練一個(gè)并行交叉神經(jīng)網(wǎng)絡(luò)(pccnn)來(lái)進(jìn)行人群聚集行為分析的方法,使用該方法可以對(duì)視頻中的人群聚集行為作出準(zhǔn)確的判別,且具有較其他檢測(cè)方法更好的抗干擾性和可擴(kuò)展性;
(2)由于訓(xùn)練數(shù)據(jù)集本身具備可擴(kuò)展性,可以針對(duì)實(shí)際的安防背景定制相應(yīng)的訓(xùn)練集,從而使得訓(xùn)練模型更貼近實(shí)際場(chǎng)景,對(duì)人群聚集的準(zhǔn)確檢出率有明顯的提高;
(3)通過(guò)分析由對(duì)應(yīng)模型生成的密度變化序列圖,分別從人群的分布區(qū)域和數(shù)量?jī)蓚€(gè)方面進(jìn)行綜合分析,同時(shí)結(jié)合人群聚集加權(quán)中心矩的計(jì)算,從而提高了人群聚集行為判定的準(zhǔn)確度。
附圖說(shuō)明
圖1為本發(fā)明的方法流程圖。
圖2為本發(fā)明的訓(xùn)練神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖。
圖3為本發(fā)明的子神經(jīng)網(wǎng)絡(luò)初始化參數(shù)訓(xùn)練示意圖。
圖4(a)為使用本發(fā)明進(jìn)行人群聚集檢測(cè)的聚集目標(biāo)幀檢出示意圖。
圖4(b)為使用本發(fā)明進(jìn)行人群聚集檢測(cè)幀的人群密度分布示意圖。
圖4(c)為使用本發(fā)明進(jìn)行人群聚集檢測(cè)的聚集區(qū)域處理結(jié)果示意圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。
如圖1所示,本發(fā)明實(shí)施例公開的一種改進(jìn)型pccnn神經(jīng)網(wǎng)絡(luò)模型的人群聚集檢測(cè)方法,主要包括如下步驟:
(1)訓(xùn)練集的生成:收集各類遠(yuǎn)近視角的人群聚集分段序列圖片,并對(duì)收集的數(shù)據(jù)集進(jìn)行擴(kuò)充后作為訓(xùn)練集,主要采用兩種擴(kuò)充操作:第一種擴(kuò)充操作選取每個(gè)訓(xùn)練圖像以自身為基準(zhǔn)進(jìn)行指定倍數(shù)的縮放,如進(jìn)行0.5到2倍不等的放縮,放縮尺度步長(zhǎng)為0.1,主要用來(lái)解決人群圖像不同尺度的問(wèn)題,第二種擴(kuò)充操作是直接截取原始訓(xùn)練圖像集中的高密度人群部分作為新圖擴(kuò)充到數(shù)據(jù)集中,主要是改善cnn在高密度人群時(shí)易于辨識(shí)出錯(cuò)部分的區(qū)域性能。將訓(xùn)練集中的圖像根據(jù)與攝像機(jī)的距離分為離攝像機(jī)較近的(人物五官均較清晰的人物圖像)、離攝像機(jī)適中的(人物輪廓圖像)以及離攝像機(jī)較遠(yuǎn)的(頭部圖像)a、b、c三類,并向訓(xùn)練集中添加無(wú)人的d類背景圖像。
(2)神經(jīng)網(wǎng)絡(luò)模型的生成:如圖2所示,該網(wǎng)絡(luò)由三個(gè)深度不同的子神經(jīng)網(wǎng)絡(luò)組成。第一個(gè)子網(wǎng)絡(luò)采用一個(gè)深度為5的網(wǎng)絡(luò)來(lái)識(shí)別離攝像機(jī)較近的人物圖像,5個(gè)卷積網(wǎng)絡(luò)從輸入到輸出方向依次有64、128、256、512、512個(gè)3*3核的濾波器,之間穿插4個(gè)最大池化層,前三個(gè)最大池化層采用2*2核,后一個(gè)最大池化層采用3*3核;第二個(gè)子網(wǎng)絡(luò)采用一個(gè)深度為4的網(wǎng)絡(luò)用于識(shí)別離攝像機(jī)適中的人物輪廓圖像,4個(gè)卷積網(wǎng)絡(luò)從輸入到輸出方向依次有64、128、256、256個(gè)3*3核的濾波器,之間穿插2個(gè)最大池化層和2個(gè)平均池化層,其中最大池化層采用2*2核,平均池化層采用3*3核;第三個(gè)子網(wǎng)絡(luò)采用一個(gè)低深度的網(wǎng)絡(luò)來(lái)識(shí)別離攝像機(jī)較遠(yuǎn)的低級(jí)頭部圖像。由于區(qū)塊檢測(cè)不需要高級(jí)特征的捕獲,故而采用一個(gè)深度只有3的卷積網(wǎng)絡(luò),每個(gè)層有24個(gè)5*5核的濾波器。之間穿插3個(gè)平均池化層,均采用5*5核。
在各子網(wǎng)絡(luò)的輸出末端,使用1*1的卷積核對(duì)三個(gè)子網(wǎng)絡(luò)的輸出做線性加權(quán)。該層的輸出通過(guò)雙線性插值對(duì)本層輸入圖像采樣最終生成人群分布的密度圖。圖像人數(shù)的總和能夠通過(guò)預(yù)測(cè)密度圖的和來(lái)計(jì)算。該網(wǎng)絡(luò)的誤差函數(shù)以標(biāo)準(zhǔn)集為基準(zhǔn)通過(guò)后向傳播l2loss計(jì)算。
(3)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和使用:如圖3所示,擴(kuò)充后的數(shù)據(jù)集分為三類:a類--離攝像機(jī)較近,人物五官均較清晰的人物圖像;b類--離攝像機(jī)適中的人物輪廓圖像;c類--離攝像機(jī)較遠(yuǎn)的低級(jí)頭部圖像。并添加無(wú)人的背景圖像為d類。首先,以a類為正樣本,bcd類為負(fù)樣本訓(xùn)練子網(wǎng)絡(luò)1單獨(dú)構(gòu)造的分類網(wǎng)絡(luò),直至a類分類正確率達(dá)80%以上后將得到的參數(shù)作為(2)中所述組合神經(jīng)網(wǎng)絡(luò)子網(wǎng)絡(luò)1的初始訓(xùn)練參數(shù);然后,以b類為正樣本,acd類為負(fù)樣本訓(xùn)練子網(wǎng)絡(luò)2單獨(dú)構(gòu)造的分類網(wǎng)絡(luò),直至b類分類正確率達(dá)80%以上后將得到的參數(shù)作為(2)中所述組合神經(jīng)網(wǎng)絡(luò)子網(wǎng)絡(luò)2的初始訓(xùn)練參數(shù);接著,以c類為正樣本,abd類為負(fù)樣本訓(xùn)練子網(wǎng)絡(luò)3單獨(dú)構(gòu)造的分類網(wǎng)絡(luò),直至c類分類正確率達(dá)80%以上后將得到的參數(shù)作為(2)中所述組合神經(jīng)網(wǎng)絡(luò)子網(wǎng)絡(luò)3的初始訓(xùn)練參數(shù),子網(wǎng)絡(luò)的訓(xùn)練示意圖如圖3所示;最后,在確定三個(gè)子網(wǎng)絡(luò)的初始訓(xùn)練參數(shù)后將abcd四類圖片作為輸入對(duì)(2)中的組合神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而獲得最終的神經(jīng)網(wǎng)絡(luò)模型。
(4)以目標(biāo)視頻的采樣幀作為訓(xùn)練獲得模型的輸入,其中采樣頻率為每秒2幀,采樣得到的原始幀圖如圖4(a)所示;經(jīng)過(guò)訓(xùn)練獲得模型的計(jì)算即可在輸出端得到相應(yīng)的密度圖,為了便于可視化表示,將密度圖各值以密度圖峰值為基準(zhǔn)歸一化到峰值為255的灰度圖,可得如圖4(b)所示的密度分布示意圖。
(5)通過(guò)對(duì)密度圖分別進(jìn)行人群分布區(qū)域的提取和分布數(shù)量的估算,同時(shí)結(jié)合人群聚集加權(quán)中心矩的計(jì)算,從而判定是否存在人群聚集的行為。具體方法為:
(5.1)人群分布區(qū)域的提?。簩?duì)密度圖進(jìn)行二值化,二值化的閾值選取為a*密度圖峰值,a的取值通過(guò)統(tǒng)計(jì)各實(shí)例的人群密度圖密度分布范圍得出噪聲和實(shí)際人群的密度分布臨界值(噪聲峰值≈0.07~0.11*密度圖峰值),一般可取0.1,二值化后的結(jié)果如圖4(c)所示。對(duì)二值化后獲取的圖像進(jìn)行連通性分析,計(jì)算各連通區(qū)域的面積占整幅圖像的百分比。
(5.2)人群分布數(shù)量的估算:選用3*3的核對(duì)整個(gè)密度圖進(jìn)行中值濾波,濾波后對(duì)(5.1)中各區(qū)域位置對(duì)應(yīng)于本步驟中的各像素值求和,進(jìn)行人群分布各區(qū)域數(shù)量的估算,此處采用對(duì)像素和值*b進(jìn)行線性估算,b為人數(shù)估計(jì)值和像素密度值固定映射比值,由網(wǎng)絡(luò)結(jié)構(gòu)本身確定,此處取8~12之間的整數(shù)值較佳,本例中取b=10。
(5.3)人群聚集加權(quán)中心矩的計(jì)算:對(duì)(5.1)中提取到的人群分布區(qū)域位置對(duì)應(yīng)于(5.2)中的區(qū)域范圍根據(jù)密度分布求該區(qū)域的加權(quán)一階中心矩,確定該區(qū)域的聚集中心。
(5.4)人群聚集行為的判定:當(dāng)連續(xù)3s的采樣幀中的連通區(qū)域百分比占比大于設(shè)定閾值,如3%,對(duì)應(yīng)區(qū)域的人數(shù)分布數(shù)量估計(jì)大于設(shè)定閾值,如8,且連續(xù)采樣幀的聚集中心在視頻幀中未出現(xiàn)較大偏移(此處可取聚集中心的橫縱坐標(biāo)偏移量小于視頻幀畫面橫縱坐標(biāo)范圍的10%),則判定發(fā)生了人群聚集。
上述實(shí)施例中涉及到具體參數(shù)的取值是在特定的應(yīng)用中設(shè)定的較為優(yōu)選的結(jié)果,可以根據(jù)實(shí)際情況進(jìn)行合理調(diào)整以取得較好的檢測(cè)效果。應(yīng)當(dāng)指出:以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。