本發(fā)明屬于視頻分析技術(shù),具體涉及一種基于視頻分析的暴力行為智能化檢測(cè)方法。
背景技術(shù):
基于視頻的暴力行為檢測(cè)在智能監(jiān)控、視頻內(nèi)容標(biāo)注和評(píng)級(jí)等領(lǐng)域均具有潛在的應(yīng)用價(jià)值。近年來(lái),暴恐事件,群眾斗毆事件等不斷發(fā)生,公共安全問(wèn)題顯得尤為重要。在智能視頻監(jiān)控中實(shí)現(xiàn)暴力檢測(cè)的功能,能夠?qū)Υ祟愂虑閳?bào)警并及時(shí)的進(jìn)行處理。另外,目前混雜的視頻材料在網(wǎng)絡(luò)上無(wú)處不在,其中不乏一些包含暴力、色情等內(nèi)容的視頻,這些視頻可能會(huì)對(duì)少年兒童造成不良影響,如產(chǎn)生心理恐慌、暴力傾向等。因此,利用暴力視頻檢測(cè)方法來(lái)對(duì)視頻內(nèi)容進(jìn)行標(biāo)注和評(píng)級(jí),能夠有效的對(duì)網(wǎng)絡(luò)進(jìn)行分類管理。
目前,對(duì)暴力行為自動(dòng)檢測(cè)的研究主要是利用人工提取的特征進(jìn)行識(shí)別。如基于軌跡提取的方法對(duì)暴力行為進(jìn)行識(shí)別,這種方法主要是跟蹤興趣目標(biāo)得到運(yùn)動(dòng)軌跡,通過(guò)軌跡的稠密程度來(lái)判斷暴力行為是否發(fā)生,但是由于運(yùn)動(dòng)軌跡本身缺乏對(duì)描述目標(biāo)動(dòng)作的區(qū)分性,容易導(dǎo)致將單人的快速或者大幅度的動(dòng)作誤判為暴力行為,即誤報(bào)率較高。針對(duì)此問(wèn)題,也有人提出了加入局部的動(dòng)態(tài)信息進(jìn)行區(qū)分,但是局部特征依然不能很好的表達(dá)整個(gè)畫(huà)面?zhèn)鬟f的信息。
此外,還有一些人利用光流矢量來(lái)進(jìn)行暴力行為的識(shí)別,如mosift特征,局部二值化特征等等。光流場(chǎng)可以計(jì)算連續(xù)兩幀之間目標(biāo)的移動(dòng)速度和方向,但是在基于視頻的持續(xù)行為分析中,該方法依然缺少長(zhǎng)期有效的時(shí)間信息。
技術(shù)實(shí)現(xiàn)要素:
為了克服上述技術(shù)的不足,本發(fā)明結(jié)合了手工特征和深度學(xué)習(xí)特征的優(yōu)點(diǎn),提出了一種基于視頻分析的暴力行為智能化檢測(cè)方法。通過(guò)計(jì)算運(yùn)動(dòng)軌跡和卷積神經(jīng)網(wǎng)絡(luò)特征層,將二者進(jìn)行融合得到新的特征作為判別標(biāo)準(zhǔn),提高了暴力行為檢測(cè)的準(zhǔn)確率;并且本發(fā)明的魯棒性高,能夠應(yīng)對(duì)擁擠的視頻場(chǎng)景。
基于視頻分析的暴力行為智能化檢測(cè)方法主要包括運(yùn)動(dòng)軌跡獲取,卷積神經(jīng)網(wǎng)絡(luò)特征層計(jì)算,特征提取,特征分類四個(gè)部分。具體技術(shù)方案如下:
一種基于視頻分析的暴力行為智能檢測(cè)方法,包括:
第一部分:采用密集軌跡提取算法獲取視頻圖片上的運(yùn)動(dòng)特征點(diǎn),跟蹤獲取到的運(yùn)動(dòng)特征點(diǎn)并計(jì)算這些運(yùn)動(dòng)特征點(diǎn)在多個(gè)連續(xù)視頻幀上的位置,以得到運(yùn)動(dòng)特征點(diǎn)對(duì)應(yīng)的運(yùn)動(dòng)軌跡;
第二部分:輸入靜態(tài)的視頻幀,訓(xùn)練空間流的卷積神經(jīng)網(wǎng)絡(luò)以得到基于空間檢測(cè)的卷積神經(jīng)網(wǎng)絡(luò)模型,并利用空間流網(wǎng)絡(luò)模型作為特征提取器提取視頻的空間特征層;輸入視頻的光流場(chǎng),訓(xùn)練時(shí)間流的卷積神經(jīng)網(wǎng)絡(luò)以得到基于時(shí)間檢測(cè)的卷積神經(jīng)網(wǎng)絡(luò)模型,并利用時(shí)間流網(wǎng)絡(luò)模型作為特征提取器提取視頻的時(shí)間特征層;
第三部分:將第一部分提取到的運(yùn)動(dòng)軌跡在第二部得到的神經(jīng)網(wǎng)絡(luò)特征層上進(jìn)行池化,計(jì)算得到基于軌跡和深度特征融合的三維特征向量;
第四部分:將三維特征向量作為判別是否發(fā)生暴力行為的標(biāo)準(zhǔn),并通過(guò)svm進(jìn)行分類。
進(jìn)一步的,第一部分是通過(guò)網(wǎng)格劃分的方式在視頻幀上進(jìn)行密集采樣特征點(diǎn),計(jì)算每個(gè)像素點(diǎn)自相關(guān)矩陣的特征值,并設(shè)置閾值t去除低于閾值的無(wú)關(guān)特征點(diǎn)。
進(jìn)一步的,閾值t的計(jì)算公式如下:
式中,
進(jìn)一步的,采用shi-tomasi角點(diǎn)檢測(cè)算法計(jì)算每個(gè)像素點(diǎn)自相關(guān)矩陣的特征值。
進(jìn)一步的,第一部分采用的跟蹤算法是:
設(shè)上一步中密集采樣到的某個(gè)特征點(diǎn)的坐標(biāo)為:
pt=(xt,yt),
式中,xt,yt表示采樣點(diǎn)在t時(shí)刻的位置;
采用下式計(jì)算該特征點(diǎn)在下一幀圖像中的位置為:
式中,ωt=(ut,vt)為密集光流場(chǎng),u和v分別代表光流的水平和垂直分量,m代表中值濾波核,尺寸為3x3像素,*為卷積操作;
通過(guò)求出特征點(diǎn)在每一幀中圖像的位置,最終得到該特征點(diǎn)在視頻中的軌跡為:
t=(δpt,δpt+1,…,δpt+l-1),
式中,位移矢量δpt=pt+1-pt=(xt+1-xt,yt+1-yt),
經(jīng)過(guò)歸一化后,得到長(zhǎng)度為2l的特征向量(l為一條軌跡的長(zhǎng)度),一個(gè)向量對(duì)應(yīng)一條軌跡。
進(jìn)一步的,第二部分中,
空間特征層為:
式中,m是第m個(gè)特征層,hm是特征層高度,wm是特征層寬度,l是視頻的長(zhǎng)度,nm是特征層通道數(shù),s表示空間;
時(shí)間特征層為:
式中,m是第m個(gè)特征層,hm是特征層高度,wm是特征層寬度,l是視頻的長(zhǎng)度,nm是特征層通道數(shù),s表示空間,t表示時(shí)間。
進(jìn)一步的,第三部分中得到的三維特征向量為
式中,n∈(s,t),
進(jìn)一步的,第四部分中,在采用svm進(jìn)行分類前先將第三部分得到的特征向量進(jìn)行降維,得到維度為d的特征。
進(jìn)一步的,對(duì)特征利用pca算法進(jìn)行降維。
進(jìn)一步的,利用fisher向量對(duì)降維后的特征進(jìn)行編碼。
通過(guò)采用以上技術(shù)方案,具有以下有益效果:
(1)通過(guò)將深度學(xué)習(xí)特征與手工特征結(jié)合,提高了識(shí)別正確率,能夠智能高效的從視頻中分析出有無(wú)暴力行為發(fā)生;
(2)因?yàn)榧尤胩崛≤壽E的操作,該方法具有一定的魯棒性,能夠有效的應(yīng)對(duì)擁擠的視頻場(chǎng)景。
附圖說(shuō)明
圖1是本發(fā)明的方法步驟流程圖;
圖2是空間和時(shí)間網(wǎng)絡(luò)各個(gè)特征層的正確率結(jié)果圖;
圖3是pca降維的正確率結(jié)果圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,下面結(jié)合附圖及具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明。
如圖1所示的基于視頻分析的暴力行為智能檢測(cè)方法的流程圖,包括以下幾個(gè)部分:
第一部分:運(yùn)動(dòng)軌跡獲取
(1)采用密集軌跡提取算法獲取多個(gè)運(yùn)動(dòng)特征點(diǎn)。
輸入實(shí)例視頻v,通過(guò)網(wǎng)格劃分的方式在視頻幀上進(jìn)行密集采樣特征點(diǎn)。本發(fā)明通過(guò)實(shí)驗(yàn)改變特征點(diǎn)采樣的間隔(即網(wǎng)格的大小w),來(lái)得到不同數(shù)量的特征點(diǎn),w取值為2到20。實(shí)驗(yàn)結(jié)果顯示w=5時(shí),能夠保證算法的識(shí)別率和計(jì)算效率,因此本發(fā)明在該步驟中設(shè)置采樣網(wǎng)格的大小為5。
采樣后,通過(guò)shi-tomasi角點(diǎn)檢測(cè)算法計(jì)算每個(gè)像素點(diǎn)自相關(guān)矩陣的特征值,并設(shè)置閾值t去除低于閾值的無(wú)關(guān)特征點(diǎn),閾值由下式?jīng)Q定:
式中,
(2)利用文獻(xiàn)1中所述的跟蹤算法對(duì)(1)中得到的運(yùn)動(dòng)特征點(diǎn)進(jìn)行跟蹤,并得到各特征點(diǎn)對(duì)應(yīng)的運(yùn)動(dòng)軌跡。
設(shè)上一步中密集采樣到的某個(gè)特征點(diǎn)的坐標(biāo)為:
pt=(xt,yt),
式中,xt,yt表示采樣點(diǎn)在t時(shí)刻的位置,則我們可以用下式來(lái)計(jì)算該特征點(diǎn)在下一幀圖像中的位置為:
式中,ωt=(ut,vt)為密集光流場(chǎng),u和v分別代表光流的水平和垂直分量。m則代表中值濾波核,尺寸為3x3像素,*為卷積操作。選用中值濾波核,是由于其相比于其他的雙線性插值操作具有魯棒性,求得的軌跡更加平滑。
通過(guò)求出特征點(diǎn)在每一幀中圖像的位置,最終得到該特征點(diǎn)在視頻中的軌跡為:
t=(δpt,δpt+1,…,δpt+l-1),
式中,位移矢量δpt=pt+1-pt=(xt+1-xt,yt+1-yt)。
經(jīng)過(guò)歸一化后,得到長(zhǎng)度為2l的特征向量(l為一條軌跡的長(zhǎng)度),一個(gè)向量對(duì)應(yīng)一條軌跡。
實(shí)施例中,設(shè)置l=15,每條軌跡特征為15*2=30維向量,實(shí)例視頻v得到3095條軌跡。
需要說(shuō)明的是,文獻(xiàn)1是指wangh,
(1)訓(xùn)練空間流的卷積神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)是公開(kāi)的暴力視頻數(shù)據(jù)集(國(guó)際冰球比賽),網(wǎng)絡(luò)的輸入是靜態(tài)的視頻幀(224x224x3),在vgg19的模型上進(jìn)行參數(shù)調(diào)優(yōu),初始學(xué)習(xí)率設(shè)置為0.001,訓(xùn)練在500次迭代后停止,正確率達(dá)到91.5%。
(2)利用空間流網(wǎng)絡(luò)模型作為特征提取器,提取視頻v的空間特征層。本發(fā)明在暴力視頻數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比了不同特征層得到的實(shí)驗(yàn)結(jié)果,如圖2所示,結(jié)果顯示第四個(gè)空間特征層的正確率最高。因此,提取輸入視頻v的第四個(gè)空間特征層。
空間特征層為:
式中,m是第m個(gè)特征層,hm是特征層高度,wm是特征層寬度,l是視頻的長(zhǎng)度,nm是特征層通道數(shù),s表示空間。
(3)訓(xùn)練時(shí)間流的卷積神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)和模型結(jié)構(gòu)同空間網(wǎng)絡(luò)的相同,輸入是視頻的光流場(chǎng)(224x224x2l,l為輸入光流場(chǎng)的長(zhǎng)度),設(shè)置l=10。初始學(xué)習(xí)率設(shè)置為0.005,訓(xùn)練在100次迭代后停止,正確率達(dá)到87%。
(4)利用時(shí)間流網(wǎng)絡(luò)模型作為特征提取器,提取視頻v的時(shí)間特征層。與空間流提取過(guò)程相同,本發(fā)明在暴力視頻數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比了不同特征層得到的實(shí)驗(yàn)結(jié)果如圖2所示,結(jié)果顯示第四個(gè)時(shí)間特征層的正確率最高。因此,提取輸入視頻v的第四個(gè)時(shí)間特征層。
時(shí)間特征層為:
式中,m是第m個(gè)特征層,hm是特征層高度,wm是特征層寬度,l是視頻的長(zhǎng)度,nm是特征層通道數(shù),t表示時(shí)間。
第三部分:特征提取
利用第一部分提取到的軌跡在第二部分得到的神經(jīng)網(wǎng)絡(luò)特征層上進(jìn)行池化,計(jì)算得到基于軌跡和深度特征融合的三維特征
式中,n∈(s,t),m是第m個(gè)卷積層(即特征層),k表示第k條軌跡,tk表示第k條軌跡,
輸入視頻v經(jīng)過(guò)上述公式計(jì)算后,最終得到一個(gè)空間流的512x3095維的特征向量fs和一個(gè)時(shí)間流的512x3095維的特征向量ft。
第四部分:特征分類
(1)經(jīng)過(guò)步驟三得到的特征向量fs和ft,由于特征向量的維數(shù)比較高,因此,在進(jìn)行編碼前可采用pca算法進(jìn)行降維。
選擇該算法進(jìn)行特征降維,其一是因?yàn)樗惴ê?jiǎn)單易于實(shí)現(xiàn);其二是因?yàn)樵撍惴茉诰S數(shù)降低的同時(shí)還很大程度上保留了原數(shù)據(jù)的重要信息,適用于本發(fā)明中高維的暴力特征數(shù)據(jù)。
經(jīng)過(guò)實(shí)驗(yàn)分析得到維度為d的特征。結(jié)果如圖3所示,最終設(shè)置d=256。
(2)為了提高最終的分類效果,對(duì)降維后的特征向量fs和ft進(jìn)行編碼。
由于fisher向量編碼方式在行為識(shí)別以及圖像分類的工作中均有效地提升了識(shí)別效果,因此,本發(fā)明選擇該方法進(jìn)行編碼。fisher向量編碼是將原始特征向量用gmms(混合高斯模型)表達(dá)后重新編碼。本發(fā)明中設(shè)置gmms個(gè)數(shù)k=256,對(duì)向量進(jìn)行編碼得到2kd維的編碼向量f′s和f′t。
(3)將得到的兩個(gè)特征向量f′s和f′t進(jìn)行特征融合得到最終的特征向量f‘,即為該實(shí)例視頻的特征描述子。最后,通過(guò)一個(gè)線性的svm(支持向量機(jī))進(jìn)行分類(類別c=2,即暴力和非暴力)。
通過(guò)本方法可以看出,采用軌跡跟蹤和特征層相結(jié)合的方法,很好的利用了二者在空間和時(shí)間上學(xué)習(xí)視頻特征的不同能力,提升了暴力檢測(cè)行為的準(zhǔn)確率;并且該方法的魯棒性高,不同場(chǎng)景的視頻檢測(cè)都能取得很好的效果。
盡管以上結(jié)合附圖對(duì)本發(fā)明的實(shí)施方案進(jìn)行了描述,但本發(fā)明并不局限于上述的具體實(shí)施方案和應(yīng)用領(lǐng)域,上述的具體實(shí)施方案僅僅是示意性的、指導(dǎo)性的,而不是限制性的。本領(lǐng)域的普通技術(shù)人員在本說(shuō)明書(shū)的啟示下,在不脫離本發(fā)明權(quán)利要求所保護(hù)的范圍的情況下,還可以做出很多種的形式,這些均屬于本發(fā)明保護(hù)之列。