技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于深度學(xué)習(xí)的人類行為分析方法,屬于視頻和圖像處理技術(shù)領(lǐng)域。
背景技術(shù):
:
隨著信息技術(shù)的不斷發(fā)展、城市信息化應(yīng)用水平不斷提升,智慧城市建設(shè)成為社會建設(shè)的一個趨勢。目前,監(jiān)控攝像頭已遍布中國大地的每個街頭,晝夜不停地監(jiān)視和錄像。在改善社會治安的同時,產(chǎn)生海量視頻信息,對成千上萬的監(jiān)控平臺進行監(jiān)控將耗費大量的人力、物力和時間。傳統(tǒng)的人海戰(zhàn)術(shù),因其效率低下,容易錯過關(guān)鍵目標(biāo),常常使視頻監(jiān)控處于“監(jiān)而不控”的狀態(tài)。而智能視頻監(jiān)控系統(tǒng),能夠在節(jié)約人力、物力和時間的成本的同時,進一步解決目前視頻監(jiān)控“監(jiān)而不控”的病態(tài),從而更加智能、快速、準(zhǔn)確地分析出視頻中發(fā)生的事件。
目前國內(nèi)外關(guān)于視頻監(jiān)控中人類行為分析技術(shù)存在著不少急待解決的問題:
1)在對視頻監(jiān)控中的人物進行檢測的方法大都是基于幀的,不同幀之間的同一個人無法建立相互聯(lián)系,而行為是包含時空信息的,這就需要將前后幀上面同一個人的行為進行關(guān)聯(lián)。
2)行為分析比較看重時間和空間特征,很多深度學(xué)習(xí)算法在輸入的時候直接采用縮放方法來使得輸入規(guī)模一樣,但是這種方法在處理輸入源尺度不一致的問題時,容易破壞輸入的空間特征。
3)現(xiàn)有的行為識別方法能夠很好地利用行為的空間特征進行識別,但是有很多沒有考慮行為的時間特征,或者沒有考慮時間和空間特征的充分融合,將時間和空間特征孤立開來,這樣就會使得提取的特征不具有代表性。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是提供一種基于深度學(xué)習(xí)的人類行為分析方法,能夠自動對現(xiàn)實監(jiān)控場景下人進行檢測與跟蹤,并可較為準(zhǔn)確地對其行為進行分析,給出相關(guān)類別,適應(yīng)性強、效果好。
上述的目的通過以下技術(shù)方案實現(xiàn):
基于深度學(xué)習(xí)的人類行為分析方法,該方法包括兩個階段:標(biāo)注訓(xùn)練階段和應(yīng)用階段;
所述標(biāo)注階段包括如下步驟:
s1:對多個監(jiān)控場景視頻數(shù)據(jù)進行相關(guān)人物的標(biāo)注,用于訓(xùn)練人物檢測卷積神經(jīng)網(wǎng)絡(luò),通過網(wǎng)絡(luò)微調(diào)和參數(shù)優(yōu)化方法來得到人物檢測模型;
s2:進行人物行為序列提取;
s3:對提取的人物的行為序列進行標(biāo)注,用于訓(xùn)練行為識別卷積神經(jīng)網(wǎng)絡(luò),通過網(wǎng)絡(luò)微調(diào)和參數(shù)優(yōu)化方法來得到行為識別模型;
所述應(yīng)用階段包括針對實際監(jiān)控場景的視頻,使用與標(biāo)注訓(xùn)練階段相同的人物行為序列提取方法,將提取出來的行為視頻序列及其對應(yīng)的光流矢量圖像化序列作為行為識別卷積神經(jīng)網(wǎng)絡(luò)的輸入,通過行為識別模型進行行為分類。
所述的基于深度學(xué)習(xí)的人類行為分析方法,所述的進行人物行為序列提取的方法包括如下步驟:
s21:對使用人物檢測模型對視頻序列中的人物進行檢測、建模、預(yù)估、關(guān)聯(lián);
s22:對同一人物的行為進行區(qū)域提取,形成該人物的行為視頻序列;
s23:提取行為視頻序列的光流矢量圖像化序列:采用相鄰的幀之間的光流場估計方法在提取行為視頻序列的光流矢量信息,然后將光流矢量值屬于固定范圍光流信息歸一化到0-255之間,將光流矢量圖像化,然后根據(jù)先后順序進行堆疊,得到光流矢量圖像化序列。
所述的基于深度學(xué)習(xí)的人類行為分析方法,所述的對使用人物檢測模型對視頻序列中的人物進行檢測、建模、預(yù)估、關(guān)聯(lián)的具體方法是:
s211:使用人物檢測模型來對視頻當(dāng)前幀上面的人物進行檢測,得到檢測包圍盒;
s212:對前一幀中檢測到的人物建立模型[x,y,s,r,x′,y′,s′],其中(x,y),s,r分別是前一幀中包圍盒的質(zhì)心坐標(biāo)、面積和長寬比例,(x′,y′),s′表示建模人物分配到的包圍盒信息;
s213:假設(shè)人物在當(dāng)前幀上面包圍盒的長寬比例與上一幀相同,根據(jù)已建模人物在前一幀包圍盒的信息,使用卡爾曼濾波對其在當(dāng)前幀上面包圍盒的信息進行預(yù)估,得到預(yù)估包圍盒;
假設(shè)人物在t-1時刻的最佳狀態(tài)p(t-1|t-1),該狀態(tài)是個包含了該人物在t-1時刻的坐標(biāo)和其對應(yīng)速度信息的向量。根據(jù)公式(1)對該人物在t時刻的狀態(tài)進行預(yù)測,得到p(t|t-1),
p(t|t-1)=ap(t-1|t-1)(1)
利用公式(2)來計算公式(1)中預(yù)測值的協(xié)方差,其中,c(t|t-1)是p(t|t-1)對應(yīng)的協(xié)方差,q(t)是系統(tǒng)協(xié)方差,
c(t|t-1)=ac(t-1|t-1)at+q(t)(2)
利用公式(3)計算卡爾曼增益k(t),其中r是觀測結(jié)果的不確定性,
k(t)=c(t|t-1)ht(hc(t|t-1)ht+r)-1(3)
s214:然后根據(jù)公式(4)計算當(dāng)前幀上面的檢測包圍盒與預(yù)估包圍盒的重合度,再使用匈牙利優(yōu)化算法根據(jù)重合度將檢測包圍盒分配給建模人物,
根據(jù)公式(3)得到的卡爾曼增益和實際分配包圍盒的狀態(tài)zk來計算t時刻人物的最佳狀態(tài),
p(t|t)=p(t|t-1)+k(t)(zk-hp(t|t-1))(5)
獲得t時刻的最佳狀態(tài)p(t|t)后,使用公式(6)更新t時刻的協(xié)方差c(t|t),繼續(xù)迭代預(yù)估、關(guān)聯(lián)相鄰幀上面相同的人物,
c(t|t)=c(t|t-1)-k(t)hc(t|t-1)(6)
公式(1)至(6)中,a是狀態(tài)轉(zhuǎn)移矩陣,h是觀測矩陣。
所述的基于深度學(xué)習(xí)的人類行為分析方法,所述的對同一人物的行為進行區(qū)域提取,形成該人物的行為視頻序列,具體是:根據(jù)人物一系列行為中各包圍盒的大小,重新定義整個過程中包含該人物行為的最優(yōu)包圍盒,采用最優(yōu)包圍盒來將視頻中該人物的行為分割出來,以得到尺度相同的單一人物的行為視頻序列同時記錄序列包圍盒質(zhì)心坐標(biāo)信息。
所述的基于深度學(xué)習(xí)的人類行為分析方法,所述的提取行為視頻序列的光流矢量圖像化序列的具體方法是:
采用相鄰的幀之間的光流場估計方法在提取行為視頻序列的光流矢量信息,然后根據(jù)公式(7)將正負(fù)thresh范圍光流信息歸一化到0-255之間。
其中,img(i,j)表示得到光流矢量圖像上(i,j)位置出的灰度值,thresh是設(shè)定的閾值,光流場估計過程中假設(shè)相鄰幀運動細(xì)微,因此這里的thresh可以選取例如20之類的細(xì)小數(shù)值,然后根據(jù)先后順序?qū)⒌玫剿胶痛怪狈较虻墓饬魇噶繄D像進行堆疊,得到光流矢量圖像化序列。
有益效果:
本發(fā)明避免了傳統(tǒng)方法特征設(shè)計、提取過程中復(fù)雜的計算,能夠自動對現(xiàn)實監(jiān)控場景下人進行檢測與跟蹤,并可較為準(zhǔn)確地對其行為進行分析,給出相關(guān)類別。
附圖說明
圖1是本發(fā)明基于深度學(xué)習(xí)的人類行為分析方法框架圖;
圖2是本發(fā)明人物行為序列提取方法流程圖;
圖3是本發(fā)明3d行為識別網(wǎng)絡(luò)框架圖。
具體實施方式
下面結(jié)合具體實施方式,進一步闡明本發(fā)明,應(yīng)理解下述具體實施方式僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍。
請參閱附圖,圖1是本發(fā)明基于深度學(xué)習(xí)的人類行為分析方法框架圖;圖2是本發(fā)明人物行為序列提取方法流程圖;圖3是本發(fā)明3d行為識別網(wǎng)絡(luò)框架圖。
本發(fā)明提供了一種基于深度學(xué)習(xí)的人類行為分析方法。該方法包括兩個階段:標(biāo)注訓(xùn)練階段和應(yīng)用階段。標(biāo)注訓(xùn)練階段:首先需要標(biāo)注一定數(shù)量的人物監(jiān)控視頻數(shù)據(jù);這些數(shù)據(jù)被用來訓(xùn)練人物檢測卷積神經(jīng)網(wǎng)絡(luò),得到人物檢測模型;使用人物檢測模型對監(jiān)控視頻中的人物進行檢測、建模、預(yù)估、關(guān)聯(lián);對關(guān)聯(lián)后的相同人物提取行為視頻序列,提取行為視頻序列的光流矢量圖像化序列,并對行為序列進行行為類別標(biāo)注,同時;使用行為視頻序列和對應(yīng)的光流矢量圖像化序列訓(xùn)練行為識別卷積神經(jīng)網(wǎng)絡(luò),得到行為識別模型。應(yīng)用階段:使用人物檢測模型對實際監(jiān)控場景的視頻中的人物進行檢測、建模、預(yù)估、關(guān)聯(lián);對關(guān)聯(lián)后的相同人物提取行為視頻序列,提取行為視頻序列的光流矢量圖像化序列,并對行為序列進行行為類別標(biāo)注;將行為視頻序列和光流矢量圖像化序列作為行為識別網(wǎng)絡(luò)的輸入,利用行為識別模型對其行為進行分類。
下面通過具體實施例對本發(fā)明做進一步闡述:
1)針對實際監(jiān)控場景的視頻,使用人物行為序列提取方法:
1.1)對使用人物檢測模型對視頻序列中的人物進行檢測、建模、預(yù)估、關(guān)聯(lián)。
1.1.1)使用人物檢測模型來對視頻當(dāng)前幀上面的人物進行檢測,得到檢測包圍盒;
1.1.2)對前一幀中檢測到的人物建立模型[x,y,s,r,x′,y′,s′],其中(x,y),s,r分別是前一幀中包圍盒的質(zhì)心坐標(biāo)、面積和長寬比例,(x′,y′),s′表示建模人物分配到的包圍盒信息;
1.1.3)假設(shè)人物在當(dāng)前幀上面包圍盒的長寬比例與上一幀相同,根據(jù)已建模人物在前一幀包圍盒的信息,使用卡爾曼濾波對其在當(dāng)前幀上面包圍盒的信息進行預(yù)估,得到預(yù)估包圍盒;
假設(shè)人物在t-1時刻的最佳狀態(tài)p(t-1|t-1),該狀態(tài)是個包含了該人物在t-1時刻的坐標(biāo)和其對應(yīng)速度信息的向量。根據(jù)公式(1)對該人物在t時刻的狀態(tài)進行預(yù)測,得到p(t|t-1)。
p(t|t-1)=ap(t-1|t-1)(1)
利用公式(2)來計算公式(1)中預(yù)測值的協(xié)方差,其中,c(t|t-1)是p(t|t-1)對應(yīng)的協(xié)方差,q(t)是系統(tǒng)協(xié)方差。
c(t|t-1)=ac(t-1|t-1)at+q(t)(2)
利用公式(3)計算卡爾曼增益k(t),其中r是觀測結(jié)果的不確定性。
k(t)=c(t|t-1)ht(hc(t|t-1)ht+r)-1(3)
1.1.4)然后根據(jù)公式(4)計算當(dāng)前幀上面的檢測包圍盒與預(yù)估包圍盒的重合度,再使用匈牙利優(yōu)化算法根據(jù)重合度將檢測包圍盒分配給建模人物。
根據(jù)公式(3)得到的卡爾曼增益和實際分配包圍盒的狀態(tài)zk來計算t時刻人物的最佳狀態(tài)。
p(t|t)=p(t|t-1)+k(t)(zk-hp(t|t-1))(5)
獲得t時刻的最佳狀態(tài)p(t|t)后,使用公式(6)更新t時刻的協(xié)方差c(t|t),繼續(xù)迭代預(yù)估、關(guān)聯(lián)相鄰幀上面相同的人物。
c(t|t)=c(t|t-1)-k(t)hc(t|t-1)(6)
公式(1)至(6)中,a是狀態(tài)轉(zhuǎn)移矩陣,h是觀測矩陣。
1.2)對同一人的行為進行區(qū)域提取,形成對應(yīng)的行為視頻序列:
通過記錄同一人在各幀上面包圍盒質(zhì)心以及大小,來確定一個新的包圍盒,該包圍盒能夠?qū)⒃撔袨榈乃兄w行為都涵蓋進去,然后根據(jù)新的包圍盒來將該主體從整個視頻場景中摳出來,從而得到該主體的行為視頻序列同時記錄序列包圍盒質(zhì)心坐標(biāo)信息。
1.3)提取行為視頻序列的光流矢量圖像化序列。采用相鄰的幀之間的光流場估計方法在提取行為視頻序列的光流矢量信息,然后根據(jù)公式(7)將正負(fù)thresh范圍光流信息歸一化到0-255之間。
其中,img(i,j)表示得到光流矢量圖像上(i,j)位置出的灰度值,thresh是設(shè)定的閾值,光流場估計過程中假設(shè)相鄰幀運動細(xì)微,因此這里的thresh可以選取例如20之類的細(xì)小數(shù)值。
然后根據(jù)先后順序?qū)⒌玫剿胶痛怪狈较虻墓饬魇噶繄D像進行堆疊,得到光流矢量圖像化序列。
2)行為識別:
根據(jù)步驟1得到的行為視頻序列及其對應(yīng)的光流矢量圖像化序列作為行為識別卷積神經(jīng)網(wǎng)絡(luò)的輸入,時間、空間網(wǎng)絡(luò)采用了三維的卷積和三維的池化操作,在分別提取其時間、空間特征的過程中就將時空信息進行了部分融合,最終將時空網(wǎng)絡(luò)提取的時空信息再次進行融合,從而提取出更具有時空特征的時間描述符,根據(jù)行為識別模型來進行行為分類。
應(yīng)當(dāng)指出,上述實施實例僅僅是為清楚地說明所作的舉例,而并非對實施方式的限定,這里無需也無法對所有的實施方式予以窮舉。本實施例中未明確的各組成部分均可用現(xiàn)有技術(shù)加以實現(xiàn)。對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應(yīng)視為本發(fā)明的保護范圍。