本發(fā)明屬于計算機視覺和模式識別技術領域,涉及一種基于深度與RGB信息和多尺度多方向等級層次特征的行為識別方法,解決利用可見光圖像進行行為識別的困難,并提高行為識別的準確性和魯棒性,可以用于對監(jiān)控視頻中人體目標的行為識別,實現對監(jiān)控視頻的智能化管理。
背景技術:隨著計算機技術和信息技術的發(fā)展,對基于視頻的人體行為分析的需求越來越迫切,在諸如智能監(jiān)控、家居安全、智能機器人、運動員輔助訓練等系統(tǒng)中,行為分析起到了越來越重要的作用。然而早期的人體行為識別大多是利用普通的RGB圖像序列進行行為分析,這樣會受到光照、陰影、色度、環(huán)境變化等因素的干擾。利用深度圖像進行人體行為識別是近年來興起的技術。這主要得益于深度圖攝像機的成本降低,特別是微軟推出Kinect設備。與可見光圖像不同,深度圖像像素值僅與物體空間位置有關,不會受光照、陰影、色度、環(huán)境變化等因素的干擾,能夠有效地突破可見光圖像識別遇到的問題和瓶頸。在一定的空間范圍內,深度圖像可以用來進行3D空間中的行為識別,代替可見光攝像機的雙目視覺。因為人體運動分析在高級人機交互、視頻會議、安全監(jiān)控、醫(yī)療診斷、基于內容的圖像存儲和檢索等方面,具有潛在的經濟價值和廣泛的應用前景,因此利用深度圖像進行行為分析得到國內外廣大機器視覺研究者們的關注。在計算機視覺和模式識別相關研究領域中,提高人體行為識別的準確性和穩(wěn)定性一直是最活躍的研究問題之一,并且能夠設計出一種魯棒的行為描述法也是一個重點和難點。由于利用可見光圖像會受到光照、陰影、色度、環(huán)境變化等因素的干擾,在識別目標的行為時,基于可見光的方法常常失敗,當光線發(fā)生較大變化時,例如,夜晚,其性能將急劇下降。因此,近些年利用深度圖像進行行為識別成為該領域主流方法,但是由于目標差異較大,同時,即使相同目標的行為也存在差異,這給人體行為識別帶來了很大困難。
技術實現要素:本發(fā)明的目的是解決基于可見光的行為識別方法識別性能不穩(wěn)定,當光線發(fā)生較大變化時,例如,夜晚,其性能將急劇下降的問題,提出了一種基于深度與RGB信息和多尺度多方向等級層次特征的行為識別方法,用于對視頻監(jiān)控中目標行為進行識別,以實現對監(jiān)控視頻的智能分析。本發(fā)明提供的基于深度與RGB信息和多尺度多方向等級層次特征的行為識別方法,克服了現有技術的不足并提高了行為識別的準確性,能夠很好的應用于現實生活中。該方法具體包含以下步驟:第1、視頻預處理預處理包括對輸入的深度和RGB圖像序列濾波去噪,同時,根據目標距離信息設置閾值,當某像素的深度值大于該閾值時,將該像素標記為0,否則標記為1,這樣,可以移除背景對目標的干擾;第2、運動變化過程描述(1)捕獲深度視頻序列人體變化過程,獲得深度差值運動歷史圖像;(2)捕獲RGB視頻序列人體運動變化過程,獲得深度限制RGB圖差值運動歷史圖像;第3、多尺度多方向等級層次特征提取在第2步獲得的深度差值運動歷史圖像和深度限制RGB圖差值運動歷史圖像的基礎上,分別尋找圖像中非零像素,從而獲得對應的人體歷史運動的矩形區(qū)域,并在該區(qū)域內,提取多尺度多方向的等級層次特征描述對應的人體行為;第4、不同模型構建在公共行為數據集DHA上(每個樣本都包括RGB和深度圖像序列,同時,該數據集被劃分為訓練數據集和測試數據集),按照第3步的方法,為訓練數據集中的每個樣本分別提取深度圖像序列和RGB圖像序列上的多尺度多方向的等級層次特征,然后,在訓練數據集上分別訓練基于深度的多尺度多方向的等級層次特征和基于深度、RGB融合的多尺度多方向的等級層次特征的支持向量機模型;第5、模型選擇和推斷在公共行為數據集DHA中測試數據集上,按照第3步的方法,提取深度和RGB運動歷史圖像上的多尺度多方向的等級層次特征,同時,計算RGB矩形區(qū)域內平均亮度,根據其光線的亮暗情況,選擇不同的、已訓練好的模型,當光線較暗時,采用基于深度的多尺度多方向的等級層次特征的支持向量機模型,反之,則采用深度、RGB融合的多尺度多方向的等級層次特征的支持向量機模型,將測試樣本中提取的特征輸入到選擇的模型中,模型將自動地對樣本的行為類別進行判斷。本發(fā)明第3步所述的人體行為包括17個行為類別,具體為(1)彎腰鞠躬,(2)原地起跳且手抬起,(3)跳遠,(4)單手揮手,(5)原地跳起手不動,(6)跑步,(7)側移,(8)單腳走路,(9)雙手揮手,(10)雙腳走路,(11)鼓掌,(12)甩胳膊,(13)踢腿,(14)網球、羽毛球等發(fā)球,(15)高爾夫搖桿擊球,(16)拳擊,(17)太極云手。本發(fā)明方法通過利用深度圖解決由于光照變化、陰影、物體遮擋以及環(huán)境變化因素帶來的難題,同時提出的深度差值運動歷史圖像和深度限制RGB圖差值運動歷史圖像能夠很好地捕獲運動變化過程,對后續(xù)的識別工作有很大幫助,其次多尺度多方向等級層次特征提高了行為識別率,最后,根據光線的亮暗,能夠自主的選擇模型,進一步提高了行為識別方法的適應性。本發(fā)明的優(yōu)點和有益效果:1)通過在深度圖像上提取運動特征進行行為識別解決由于光照、陰影、色度、環(huán)境變化等因素帶來的影響;2)在深度圖中根據目標距離比較容易將前景與背景分開,將深度圖與RGB圖相與能夠獲得人體剪影的大概區(qū)域,這也解決了利用RGB圖像進行識別時難以將人體分割出來的困難;3)本發(fā)明公開的多尺度多方向的等級層次特征既具有空間分辨能力也具有細節(jié)描述能力,且具有很好的魯棒性和區(qū)分性,很大程度上提高行為識別的準確性。4)根據光線的亮暗,可以自主的選擇模型,進一步提高了行為識別算法的適應性。附圖說明圖1為本發(fā)明的流程圖。圖2從左至右分別為“單手揮手”行為的RGB圖像(a)、深度圖像(b)和深度差值運動歷史圖像(c)。圖3從左至右分別為“高爾夫搖桿擊球”行為的RGB圖像(a)、RGB圖人體剪影圖像(b)和深度限制RGB圖差值運動歷史圖像(c)。圖4為DDMHI_MSMD_HBM特征提取過程。圖5為DLRDMHI_MSMD_HBM特征提取過程。具體實施方式下面結合附圖對本發(fā)明作進一步的描述。實施例1如圖1所示,為本發(fā)明基于深度與RGB信息和多尺度多方向等級層次特征的行為識別方法的操作流程圖,該方法的操作步驟包括:步驟01視頻預處理對輸入的深度和RGB圖像序列濾波去噪,同時,通過Kinect設備的紅外裝置,可以測出目標與攝像頭的大概距離,根據該距離值,加上0.5獲得大閾值,減去1獲得小閾值,例如,在實時例中,目標與攝像頭的距離大約為2米,則大閾值為2.5米,小閾值為1米。當某像素的深度值大于大閾值或小于小閾值時,將該像素標記為0,否則標記為1,這樣,可以移除背景對目標的干擾;其結果如圖2(a)和(b)所示。具體定義為:(1)其中代表深度圖像中像素的深度值,代表兩個不同的閾值,且,實施例中,=2.5,=1。其中圖像去噪采用均值濾波方法。步驟02運動歷史變化過程描述(1)深度圖運動過程描述:針對任意長度的N幀視頻,例如N=23、31、41、54,為了描述連續(xù)運動序列的深度變化過程,針對每個非零像素,計算N幀中該像素位置的最大值和最小值,并將最大值和最小值做差,獲得的圖像被命名為深度差值運動歷史圖像(DepthDifferenceMotionHistoryImage,簡稱DDMHI)。如圖2(c),展示了N幀“單手揮手”行為的深度差值運動歷史圖像。具體定義如下所示:(2)(3)(4)其中表示幀在像素位置的深度值,代表N幀中每個非零像素位置的最大值,代表N幀中每個非零像素位置的最小值,代表N幀的深度差值運動歷史圖像。(2)RGB圖像運動過程描述:正如步驟01所述,在深度圖中根據距離比較容易將前景與背景分開,因此,首先,在捕獲RGB圖像運動變化過程之前,使用去除背景的深度圖對RGB圖像進行過濾,從而獲得RGB圖像中人體的大致區(qū)域(如圖3(b)所示),這樣就去除了RGB圖像的背景,防止了差值運動歷史圖受背景的干擾;其次,針對每個非零像素,計算N幀中該像素位置的最大值和最小值,并將最大值和最小值做差,獲得的圖像被命名為深度限制RGB圖差值運動歷史圖像(DepthLimitRGBDifferenceMotionHistoryImage,簡稱DLRDMHI)。如圖3(c)展示了N幀“高爾夫搖桿擊球”行為的深度限制RGB圖差值運動歷史圖像。具體定義如下:(5)(6)(7)(8)其中代表t幀RGB圖像在像素位置為的亮度值,表示幀在像素位置的深度值,I代表人體剪影RGB圖像,代表N幀人體剪影RGB圖像中每個非零像素位置的最大值,代表N幀人體剪影RGB圖像中每個非零像素位置的最小值,代表N幀的深度限制RGB圖差值運動歷史圖像。步驟03多尺度多方向等級層次特征提取在步驟02中獲得的DDMHI和DLRDMHI運動歷史圖像的基礎上,首先遍歷搜索非零像素,從而找到包含人體剪影的矩形框;其次分別針對DDMHI和DLRDMHI運動歷史圖像提取多尺度多方向的等級層次特征,它們分別被命名為DDMHI_MSMD_HBM特征和DLRDMHI_MSMD_HBM特征。提取DDMHI_MSMD_HBM特征,具體包括以下步驟:1)首先利用不同方向和空間分辨率的Gabor濾波器(式9)對DDMHI進行濾波,得到濾波后的圖像(式11),本發(fā)明使用4個尺度8個方向的濾波器對圖像進行濾波,共得到4*8=32幅圖像,具體如圖4所示,其具體定義如下所示:(9)(10)(11)其中,為濾波器的尺度,K為正常數,為高斯函數的標準差,,i=1,2…,為尺度下的方向總數,為尺度,方向下的濾波器,為DDMHI,為圖像在經過尺度,方向的濾波器濾波后的結果。具體見參考文獻J.Daugman,“Two-dimensionalspectralanalysisofcorticalreceptivefieldprofiles”,VisionResearch,20:847-856,1980.2)在濾波后的圖像上通過等級層次方法將圖像依次等比例劃分為不同大小的塊,分別是8*8塊、4*4塊、2*2塊、1*2塊、2*1塊,總共是88塊(具體劃分方法如圖4所示),將每一小塊的像素平均值作為特征,所有塊的特征聯合在一起構成一個濾波圖像的特征向量;3)最后,將4個尺度8個方向的濾波圖像,共32幅圖像的特征向量級聯起來作為最終的特征描述,一共是4*8*88=2816維;4)對于DLRDMHI_MSMD_HBM特征提取算法和DDMHI_MSMD_HBM特征提取算法一樣,重復以上過程,具體如圖5所示;5)考慮到深度特征和RGB特征的互補特性,將特征DLRDMHI_MSMD_HBM和特征DDMHI_MSMD_HBM串聯,構建區(qū)分性更好的特征;步驟04不同模型構建SVM是Vapnik等人提出的以結構風險最小化理論(StructuralRiskMinimization,SRM)為核心的一種統(tǒng)計學習算法,它是對傳統(tǒng)的基于經驗風險最小化準則(EmpiricalRiskMinimization,ERM)的學習算法的改進,后者雖然可以使訓練誤差最小化,但并不能最小化學習過程的推廣誤差。所謂結構風險最小化,即在保證分類精度(經驗風險)的同時,通過最小化推廣誤差的上確界,使學習機在整個樣本集上的期望風險得到控制。SVM的基本思想是:通過某種非線性映射,即滿足Mercer定理的核函數,將輸入的有限樣本集X映射到一個高維線性特征空間,在這個空間中構造一個最優(yōu)分類超平面,盡可能地將兩類樣本正確分開,同時使正負樣本集的分類間隔最大,最終獲得最佳推廣性能。本發(fā)明在DHA行為訓練數據集上,分別訓練基于深度的多尺度多方向的等級層次特征的支持向量機模型、基于深度與RGB融合的多尺度多方向的等級層次特征的支持向量機模型,在訓練模型的過程中,使用LIBSVM工具箱來訓練模型,并找到最優(yōu)的模型參數,其具體方法見參考文獻:LIBSVM:www.csie.ntu.edu.tw/~cjlin/Lib-svm/。步驟05模型選擇和模型推斷由于實際情況中環(huán)境光線常常發(fā)生變化,當光線暗淡時,RGB圖像將非常暗,對應的目標非常模糊,這將導致算法的性能急劇下降,因此,在本發(fā)明中,根據RGB圖像中矩形區(qū)域中的亮度平均值,確定所需的模型,當平均亮度值過小時,則直接采用基于深度的多尺度多方向的等級層次特征的支持向量機模型,否則采用基于深度與RGB融合的多尺度多方向的等級層次特征的支持向量機模型,其具體定義如下:(12)(13)其中,代表RGB的亮度圖像,分別代表圖像的寬度和高度,表示當前RGB圖像的平均亮度,表示模型選擇的閾值,表示基于深度特征的模型,表示基于深度和RGB融合特征的模型,在實施例中,=80。當圖像平均亮度較小時,RGB圖像中目標非常模糊,其對應的運動歷史直方圖也較模糊,因此,此時選擇基于深度特征的模型。同時,由于RGB信息和深度數據之間存在一定的互補特性,當它們融合時,能夠進一步的提高算法的性能,因此,當光線比較亮時,選擇基于深度和RGB融合特征的模型。在測試過程中,針對每個測試樣本,首先按照步驟03特征提取過程,提取DLRDMHI_MSMD_HBM和DDMHI_MSMD_HBM特征,并將對應的特征輸入到已經選擇的模型中,支持向量機模型將自動對樣本的行為(在DHA數據集上,包括17個行為類別,每個行為由21個不同的人錄制(12個男的9個女的),每個人做一次,總共是357*2個視頻序列,行為類別具體為(1)彎腰鞠躬,(2)原地起跳且手抬起,(3)跳遠,(4)單手揮手,(5)原地跳起手不動,(6)跑步,(7)側移,(8)單腳走路,(9)雙手揮手,(10)雙腳走路,(11)鼓掌,(12)甩胳膊,(13)踢腿,(14)網球、羽毛球等發(fā)球,(15)高爾夫搖桿擊球,(16)拳擊,(17)太極云手)進行分類,給出對應的行為類別標簽。為了進一步的說明本發(fā)明的有效性,在公共的、具有挑戰(zhàn)性的行為識別DHA數據集上進行了評測,同時,由于等分法存在一定的巧合性,因此,本發(fā)明使用留一法進行模型性能評估。具體過程為:將全部樣本按人(例如:共21個人)分成21份,首先取出其中一份,用剩下的20份作為訓練集來生成預測模型,并采用該預留的樣本評測模型性能,緊接著再把取出的那份樣本放回原來的樣本集中,取出另一份作為測試集,剩下樣本構成訓練集,構建預測模型,并用預留的這份樣本驗證模型的性能……,重復21次以上實驗,計算21次的平均性能,并以此結果作為本發(fā)明的性能評價。通過在DHA數據集的試驗結果表明,當僅使用深度數據時,SVM線性核和RBF核的準確率都達到88%以上,而基于本發(fā)明提出的DLRDMHI_MSMD_HBM特征時,SVM線性核和RBF核的性能則都達到91%,而當深度和RGB特征融合時,此時算法性能達到93.5%,進一步提高了算法的性能,其性能比當前的the-state-of-the-art算法的準確率提高了6.5%。DHA數據集具體見參考文獻Yan-ChingLin,Min-ChunHua,Wen-HuangCheng,Yung-HuanHsieh,Hong-MingChen,HumanActionRecognitionandRetrievalUsingSoleDepthInformation,ACMMM2012。