本發(fā)明屬于智能視頻監(jiān)控技術領域,具體涉及一種零訓練樣本行為識別方法。
背景技術:
行為識別在視頻監(jiān)控中扮演著重要的角色,它可以識別出視頻中人體的行為動作,為危險行為報警、特定行為識別做出貢獻。行為識別中最簡單最有效的方法當屬基于詞包模型(bag-of-words,BOW)的方法,此方法先對視頻進行特征提取,然后將所有的特征聚類,然后根據每個視頻特征在聚類中心出現的頻率進行直方圖化。但是此方法的一個缺點是沒有考慮到時空特征。Zhang等人利用基于語義的線性編碼方式不僅考慮了特征之間的時空關系而且減少了重構誤差。Ryoo等人提出一種“特征×特征×關系”直方圖去同時獲取特征點之間表象的關系。Kovashaka等人利用近鄰時空興趣點設計一種層級直方圖來彌補詞包模型的不足?;谠~包模型的方法均是直接將底層特征和類別標簽相連,然而,豐富的時空信息很難被單一的類別標簽表示。所以近期的一些研究工作提出用屬性描述動作的相關信息,屬性特征可以被視為高層語義特征。Lampert等人提出直接屬性預測模型(directattributeprediction,DAP)。劉等人把每個動作屬性當成潛變量去預測行為類別。在這些模型中,均是把屬性當做一個二值變量,表示該屬性是否存在于某個動作。但是在現實生活中,二值屬性并不能準確的描述行為動作。因此,Parikh等人提出相對屬性的概念,其通過描述屬性之間的相對關系來表示行為。
技術實現要素:
本發(fā)明的目的是要解決上述現有技術中存在的技術問題,進而提供一種零訓練樣本行為識別方法。為了實現所述目的,本發(fā)明基于零訓練樣本行為識別方法包括以下步驟:一種零訓練樣本行為識別方法,其特征在于,該方法包括以下步驟:步驟S1,提取視頻樣本庫中每個動作視頻樣本的特征向量;步驟S2,設定對應于多種人體行為的多個人體運動屬性,以及在每個人體運動屬性下,每兩個代表人體行為的動作視頻,即動作視頻對之間的關系;步驟S3,將所述動作視頻對之間的關系作為輸入,利用排序支持向量機進行訓練,得到訓練模型;步驟S4,利用所述排序支持向量機輸出的排序分數,對每一類具有訓練樣本的人體行為進行擬合得到一個混合高斯模型;步驟S5,根據所述步驟S4得到的混合高斯模型,利用遷移學習,獲得零訓練樣本人體行為類別的混合高斯模型;步驟S6,按照步驟S1的描述,提取得到測試視頻樣本的特征向量;步驟S7,根據所述測試視頻樣本的特征向量以及所述步驟S5得到的零訓練樣本人體行為類別的混合高斯模型,利用最大后驗概率原則,判斷所述測試視頻樣本中零訓練樣本人體行為所屬的類別。本發(fā)明的有益效果為:通過利用混合高斯模型擬合排序分數,達到行為識別的目的,通過最大后驗判斷所屬類別,從而提高行為識別的魯棒性。附圖說明圖1是本發(fā)明提出的零訓練樣本行為識別方法的流程圖。具體實施方式為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,以下結合具體實施例,并參照附圖,對本發(fā)明進一步詳細說明。圖1是本發(fā)明提出的零訓練樣本行為識別方法的流程圖,如圖1所示,所述方法包括以下步驟:步驟S1,提取視頻樣本庫中每個動作視頻樣本的特征向量;所述步驟S1進一步包括以下步驟:步驟S11,對所述視頻樣本庫中的每個動作視頻樣本利用三維角點特征(Harris3D)提取多個時空興趣點;步驟S12,在每個提取到的時空興趣點周圍(比如20*20像素點的范圍)提取梯度直方圖(histogramoforientedgradients,HOG)和光流直方圖(histogramofopticalflow,HOF),并將提取得到的這兩個特征直接連成一個特征向量;步驟S13,利用聚類方法將所有得到的特征向量聚集為多個聚類中心(比如2000個);所述聚類方法可以使用現有技術中常用的k-means聚類方法或其他聚類方法。步驟S14,利用詞包模型(bag-of-words,BOW)將每個動作視頻樣本表示成一個維數與所述聚類中心的個數相同的直方圖,作為相應動作視頻樣本的特征向量,該直方圖的每一維表示該動作視頻樣本的特征向量在相應聚類中心出現的頻率。步驟S2,設定對應于多種人體行為的多個人體運動屬性,以及在每個人體運動屬性下,每兩個代表人體行為的動作視頻,即動作視頻對之間的關系;在本發(fā)明一實施例中定義了六種人體行為,分別為:拳擊,鼓掌,揮手,慢跑,跑和走,并定義了5種人體運動屬性以及它們之間的關系,如表1所示,表1中,左欄表示六種人體行為的5種人體運動屬性,右欄表示這5種人體運動屬性之間的相對關系,其中,1表示拳擊,2表示鼓掌,3表示揮手,4表示慢跑,5表示跑,6表示走,“>”表示人體運動屬性的大于(強于)關系,比如對于跑這種人體行為來說,其腿部運動要大于或者說強于慢跑這種人體行為的腿部運動,這樣的話,對于人體運動屬性“腿的運動”,跑和慢跑這兩種人體行為存在關系:5>4,“~”表示人體運動屬性的相似關系:表1屬性關系腿的運動5>4>6>1~2~3手臂的運動3>2>1>5>4~6手臂的張合2>3>1~4~5~6手臂形狀的筆直情況2~3>6>1>4~5過胸的手臂運動3>1~2>4~5>6步驟S3,將所述動作視頻對之間的關系作為輸入,利用排序支持向量機(RankSVM)進行訓練,得到訓練模型;所述排序支持向量機采用Sigmoid和Gaussian函數作為損失函數,所述排序支持向量機的目標函數可以寫為:其中,λ是用來平衡排序支持向量機參數的稀疏度和損失之間的關系的平衡因子;w是待求的排序支持向量機參數向量;xi和xj表示兩個人體運動屬性為大于關系的樣本,即xi>xj;xm和xn表示兩個人體運動屬性為相似關系的樣本,即xm~xn;L1為Sigmoid損失函數,L2為Gaussian損失函數,分別定義如下:這里,t是損失值,α用于控制Sigmoid函數的形狀,e是自然對數;這里,t是損失值,β用于控制Gaussian函數的形狀,e是自然對數;步驟S4,利用所述排序支持向量機輸出的排序分數,對每一類具有訓練樣本的人體行為進行擬合得到一個混合高斯模型:其中,為訓練樣本x的排序分數,角標q代表有訓練樣本的人體行為的類別,i為Q類有訓練樣本的人體行為中的第i類人體行為,Z表示所需要的高斯函數的數量,為第z個高斯函數的權重,為第z個高斯函數的均值,為第z個高斯函數的協方差矩陣,為高斯密度函數,公式如下:步驟S5,根據所述步驟S4得到的混合高斯模型,利用遷移學習,獲得零訓練樣本人體行為類別的混合高斯模型;所述步驟S5中按照以下規(guī)則獲得零訓練樣本人體行為類別的混合高斯模型:1)對于上文中定義的某一人體運動屬性ad,當存在人體行為時,所述零訓練樣本人體行為類別的混合高斯模型中的第z個高斯函數的第d維的均值為:其中,和代表有訓練樣本的第i個和第k個人體行為類別,代表無訓練樣本的第j個人體行為類別;2)當存在人體行為時,第z個高斯函數的第d維的均值為:其中,gz為人體運動屬性ad對應的所有有訓練樣本的人體行為的排序分數的平均權重;3)相似地,當存在人體行為時,第z個高斯函數的第d維的均值為:4)當存在人體行為時,第z個高斯函數的第d維的均值為:第z個高斯函數的協方差矩陣也設為相等,即:5)如果在人體運動屬性ad中,沒有相應的與人體行為相關的描述,則令第z個高斯函數的第d維的均值為:以上除了第4種情況外,第z個高斯函數的協方差矩陣都設為:根據以上準則就可以求得零訓練樣本人體行為類別的混合高斯模型。步驟S6,按照步驟S1的描述,提取得到測試視頻樣本的特征向量;步驟S7,根據所述測試視頻樣本的特征向量以及所述步驟S5得到的零訓練樣本人體行為類別的混合高斯模型,利用最大后驗概率原則,判斷所述測試視頻樣本中零訓練樣本人體行為所屬的類別。該步驟中,首先將提取得到的測試視頻樣本的特征向量輸入至零訓練樣本人體行為類別的混合高斯模型中,取得概率值最大的類別即認為是所述測試視頻樣本的類別,即:其中,c*表示概率最大的類別標簽,表示樣本在第k個類別下的概率,R表示類別數量。以網上公開的數據庫作為測試對象,比如在KTH數據庫上,當零訓練樣本為1類時本發(fā)明方法的人體行為識別正確率為86.8%,當零訓練樣本為2類時本發(fā)明方法的人體行為識別正確率為83.07%,當零訓練樣本為3類時本發(fā)明方法的人體行為識別正確率為72.7%,由此可見本發(fā)明方法的有效性。以上所述的具體實施例,對本發(fā)明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發(fā)明的具體實施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。