本發(fā)明涉及計算機視頻處理技術領域,特別是一種視頻監(jiān)控場景中的行為分析方法。
背景技術:
復雜監(jiān)控場景是指一些人流大、車流大、密度高的公共場所,如地鐵、廣場、公共交通路口等,這些場所包含多種并發(fā)的行為,且易發(fā)生群體性事件如果不能及時處理,會產生嚴重的影響。智能監(jiān)控系統(tǒng)希望監(jiān)控探頭可以像人眼和大腦一樣對監(jiān)控場景中的行為進行分析。識別場景中的行為模式,包括行為之間的時空交互,是智能視頻監(jiān)控中的一個重要問題。目的是盡可能的采用無監(jiān)督的方法檢測出多個行為,并建立它們之間的時間依賴關系。通常,行為時空交互關系的識別可以用于更高層次的語義分析,比如,識別交通監(jiān)控場景中不同的交通流,以及交通狀態(tài)之間的轉換,從而可以檢測和阻止可能出現(xiàn)的交通混亂。然而在復雜視頻監(jiān)控場景中,檢測并量化行為之間的相關性并不是一件易事。
基于概率主題模型的復雜監(jiān)控場景行為分析方法,直接基于底層視頻特征,無需進行目標檢測和跟蹤,具有較好的魯棒性(參見:wangx,max,grimsonwel.unsupervisedactivityperceptionincrowdedandcomplicatedscenesusinghierarchicalbayesianmodels[j].ieeetransactionsonpatternanalysisandmachineintelligence,2009,31(3):539-555.)。概率主題模型是基于詞袋表示方法的,根據(jù)詞袋內視覺單詞的共生來捕捉行為,完全忽略視覺單詞的時間信息,且不對詞袋之間的相關性建模。因此這類方法雖然對噪聲魯棒,但是以舍棄了行為之間的動態(tài)信息為代價,無法檢測出行為之間的時間依賴關系。經(jīng)對現(xiàn)有技術的檢索發(fā)現(xiàn),為了解決概率主題模型缺少時間信息的問題,一般有兩類方法:一種是直接通過給單詞添加時間戳來檢測行為的時間模式(參見:emonetr,varadarajanj,odobezjm.extractingandlocatingtemporalmotifsinvideoscenesusingahierarchicalnonparametricbayesianmodel[c]//computervisionandpatternrecognition(cvpr),2011ieeeconferenceon.ieee,2011:3233-3240.)。但是這一類方法對時間過于敏感,造成檢測出的一些類似的行為序列,因此存在語義混淆,此外這類方法無法檢出全局交互行為。另一類方法是在概率主題模型中引入hmm模型,為行為在時域上的動態(tài)變化建立一個馬爾科夫鏈,比如mctm(參見:hospedalest,gongs,xiangt.amarkovclusteringtopicmodelforminingbehaviourinvideo[c]//computervision,2009ieee12thinternationalconferenceon.ieee,2009:1165-1172.)、hdp-hmm(參見:kuetteld,breitensteinmd,vangooll,etal.what'sgoingon?discoveringspatio-temporaldependenciesindynamicscenes[c]//computervisionandpatternrecognition(cvpr),2010ieeeconferenceon.ieee,2010:1951-1958.)。但是這類方法一般是建立全局行為之間的狀態(tài)轉移,原子行為之間的時間關系模糊不清,限制了模型在時間關系方面的表現(xiàn)力。
技術實現(xiàn)要素:
本發(fā)明所要解決的技術問題是克服現(xiàn)有技術的不足而提供一種視頻監(jiān)控場景中的行為分析方法,本發(fā)明結合了概率主題模型,基于noisy-or假設,提出一種動態(tài)因果主題模型,利用非參格蘭杰方法計算因果關系矩陣,在統(tǒng)一結構下實現(xiàn)原子行為的識別及它們之間因果關系的度量。從因果影響角度對行為進行排序,以期實現(xiàn)常態(tài)化監(jiān)控和“高影響力”行為的識別。
本發(fā)明為解決上述技術問題采用以下技術方案:
根據(jù)本發(fā)明提出的一種視頻監(jiān)控場景中的行為分析方法,包括以下步驟:
第一步、利用tv-l1光流算法計算視頻序列中相鄰幀之間的光流特征,并對光流特征進行幅度去噪;
第二步、對去噪后的光流特征進行位置和方向的量化,每個光流特征根據(jù)其所在的位置和方向映射成一個視覺單詞,將視頻序列分割成不重疊的若干個視頻片段,累積每個視頻片段內包含的視覺單詞,從而構建成每個視頻片段所對應的視頻文檔;
第三步、利用動態(tài)因果主題模型對視頻文檔建模;
第四步、根據(jù)動態(tài)因果主題模型的模型參數(shù),計算行為的因果影響力;
第五步、根據(jù)行為的因果影響力,對行為進行排序。
作為本發(fā)明所述的一種視頻監(jiān)控場景中的行為分析方法進一步優(yōu)化方案,所述第一步中對光流特征進行幅度去噪具體如下:若光流特征的幅度值小于閾值thra,則將該光流去除。
作為本發(fā)明所述的一種視頻監(jiān)控場景中的行為分析方法進一步優(yōu)化方案,第三步中所述動態(tài)因果主題模型,具體包括:
1.定義主題數(shù)k;
2.初始化模型參數(shù)α0、β、θt、φk和w;其中,α0=[α0,k]∈rk表示初始先驗參數(shù),其中α0,k表示第k個主題對應的參數(shù);
θt~dir(αt)表示狄利克雷文檔-主題分布,其中,dir(αt)表示狄利克雷分布,αt表示狄利克雷分布的超參數(shù),θt=[θt,k]∈rk,θt,k表示t時刻第k個主題的混合概率,rk表示維數(shù)為k的實向量;
φk~dir(β)表示狄利克雷主題-單詞分布,其中,dir(β)表示狄利克雷分布,β表示狄利克雷分布的超參數(shù),φk=[φk,v]∈rv,φk,v表示對于第k個主題第v個單詞的混合概率,rv表示維數(shù)為v的實向量;初始化θt和φk,使得
3.對于時刻t的視頻文檔dt,估計當前時刻的先驗參數(shù)αt=[αt,k]∈rk
αt=pt+α0
其中,αt,k表示第k主題對應的超參數(shù),pt=[pt,k]∈rk表示t時刻的先驗主題分布,其中
4.采用吉布斯采樣算法進行主題的后驗概率估計,在條件概率中,將參數(shù)θt和φk積分掉,具體如下:
其中,zt,i表示單詞xt,i對應的主題,p(zt,i=k|z-t,i,d,αt,β)表示zt,i是第k個主題的概率,d表示訓練數(shù)據(jù)集;z-t,i表示除過zt,i的所有的主題,
5.更新狄利克雷文檔-主題分布θt:
其中:nt,k表示文檔dt中第k個主題的數(shù)目;
6.重復步驟3-5,直到遍歷完所有的視頻文檔;更新狄利克雷主題-單詞分布φk:
其中,nk,v表示整個視頻序列中與第k個主題相關的第v個單詞的數(shù)目;
7.更新因果矩陣w:
并對w進行歸一化使得其值位于0和1之間;
其中,
8.重復步驟3-7直到采樣結束。
作為本發(fā)明所述的一種視頻監(jiān)控場景中的行為分析方法進一步優(yōu)化方案,所述第四步中計算行為的因果影響力,具體如下:
基于因果矩陣w,計算第m個主題的影響力tm,該tm即為行為的因果影響力:
作為本發(fā)明所述的一種視頻監(jiān)控場景中的行為分析方法進一步優(yōu)化方案,所述第五步中,基于影響力對行為進行排序。
本發(fā)明采用以上技術方案與現(xiàn)有技術相比,具有以下技術效果:
(1)本發(fā)明提出了一種新的動態(tài)因果主題模型;
(2)在主題推理過程中將高層因果反饋作為底層的先驗信息,即利用上層計算出的主題間因果關系來改善下層的主題的檢測性能;
(3)基于學習到的因果矩陣,可以實現(xiàn)主題的因果排序,從而識別出場景中的高影響力行為。
附圖說明
圖1是復雜視頻監(jiān)控場景行為分析總流程框圖。
圖2是動態(tài)因果主題模型。
圖3是復雜視頻監(jiān)控場景的行為。
圖4是行為排序。
具體實施方式
下面結合附圖對本發(fā)明的技術方案做進一步的詳細說明:
實施例
本實施采用的視頻序列來自數(shù)據(jù)庫qmul(thequeenmaryuniversityoflondon)交通數(shù)據(jù)庫,幀率為25pfs,分辨率為360×288。qmul數(shù)據(jù)庫來自于倫敦大學瑪麗皇后學院,是專門用于復雜視頻監(jiān)控場景分析的數(shù)據(jù)庫。圖1是復雜視頻監(jiān)控場景行為分析總流程框圖,本實施例中行為的建模是通過本發(fā)明的動態(tài)因果主題模型實現(xiàn)的,技術方案包括以下步驟:
本實施例涉及的視頻底層時空特征提取方法,包括如下具體步驟:
本發(fā)明是通過以下技術方案實現(xiàn)的,包括以下步驟:
第一步:利用tv-l1光流算法計算視頻序列中相鄰幀之間的光流特征,并對光流進行幅度去噪,即若光流特征的幅度值小于閾值thra,則將該光流去除。
本實施例thra=0.8。
第二步:對去噪后的光流特征進行位置和方向的量化,將視頻序列表示成詞袋模式。具體措施包括,
1)構建視覺詞典。每個運動像素都包含兩個特征:位置和方向。為了對位置進行量化,整個場景被分割成36×29的網(wǎng)格,每個網(wǎng)格單元大小10×10。然后運動方向均勻量化為8個。因此,可以構建出一個規(guī)模為v=8352(36×29×8)的視覺詞典。每個光流特征根據(jù)其所在的位置和方向映射成一個視覺單詞。
2)構建視覺文檔。
將視頻序列分割成時長dt=3s的不重疊的nt=1199個視頻片段,每個視頻文檔dt由其所包含的視覺單詞累積而成。
第三步:利用動態(tài)因果主題模型對場景中的行為進行建模。
具體步驟為:
1.定義主題數(shù),本實施例中k=21。
2.初始化模型參數(shù)α0、β、θt、φk和w;其中,α0=[α0,k]∈rk表示初始先驗參數(shù),其中α0,k表示第k個主題對應的參數(shù),本實施例中α0,k=0.5;
θt~dir(αt)表示狄利克雷文檔-主題分布,其中,dir(αt)表示狄利克雷分布,αt表示狄利克雷分布的超參數(shù),θt=[θt,k]∈rk,θt,k表示t時刻第k個主題的混合概率,rk表示維數(shù)為k的實向量;
φk~dir(β)表示狄利克雷主題-單詞分布,其中,dir(β)表示狄利克雷分布;β表示狄利克雷分布的超參數(shù),本實施例中β=0.02;φk=[φk,v]∈rv,φk,v表示對于第k個主題第v個單詞的混合概率,rv表示維數(shù)為v的實向量;初始化θt和φk,使得
3.對于時刻t的視頻文檔dt,估計當前時刻的先驗參數(shù)αt=[αt,k]∈rk
αt=pt+α0
其中,αt,k表示第k主題對應的超參數(shù),pt=[pt,k]∈rk表示t時刻的先驗主題分布,其中
4.采用吉布斯采樣算法進行主題的后驗概率估計,在條件概率中,將參數(shù)θt和φk積分
掉,具體如下:
其中,zt,i表示單詞xt,i對應的主題,p(zt,i=k|z-t,i,d,αt,β)表示zt,i是第k個主題的概率,
d表示訓練數(shù)據(jù)集;z-t,i表示除過zt,i的所有的主題,
的數(shù)目,
dt中主題zt,i的數(shù)目,
5.更新狄利克雷文檔-主題分布θt:
其中:nt,k表示文檔dt中第k個主題的數(shù)目;
6.重復步驟3-5,直到遍歷完1199個視頻文檔;更新狄利克雷主題-單詞分布φk:
其中,nk,v表示整個視頻序列中與第k個主題相關的第v個單詞的數(shù)目;
7.更新因果矩陣w:
并對w進行歸一化使得其值位于0和1之間;
其中,
8.重復步驟3-7直到采樣迭代結束。在本實施例中采樣迭代2500次。
第四步:基于因果矩陣w,計算第m個主題的影響力tm,該tm即為行為的因果影響力:
第五步:按照影響力測度對行為進行排序,本實施例子中行為排序為:
最低t15,1≤t3,2≤t5,2≤...≤t6,22最高。
通過實驗證明,本實施例較之以前方法能很好的復雜監(jiān)控場景行為建模,并能對場景中的行為按照影響力排序。圖2是動態(tài)因果主題模型;圖3是復雜監(jiān)控場景中的行為;圖4是對圖3中行為按照影響力進行排序結果。由圖4所示可以看出,按照影響力進行排序與按照比例進行排序的結果并不一致,這意味著行為所占的時空比例大并不意味著影響力大,因此本發(fā)明結果蘊含豐富的語義信息便于后續(xù)的進一步處理。
以上內容是結合具體的優(yōu)選實施方式對本發(fā)明所作的進一步詳細說明,不能認定本發(fā)明的具體實施只局限于這些說明。對于本發(fā)明所屬技術領域的普通技術人員來說,在不脫離本發(fā)明構思的前提下,還可以做出若干簡單推演或替代,都應當視為屬于本發(fā)明的保護范圍。