一種基于rgb-d視頻的人體行為識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種人體行為識(shí)別方法,尤其涉及一種基于RGB-D視頻的人體行為識(shí) 別方法,屬于計(jì)算機(jī)視覺的行為識(shí)別技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 人體行為識(shí)別可以在很多方面應(yīng)用,比如智能監(jiān)控、人機(jī)交互和體育視頻處理?;?于輸入的視頻數(shù)據(jù),人體行為識(shí)別方法可以分為三類,包括:基于RGB視頻數(shù)據(jù)的方法、基 于深度視頻數(shù)據(jù)的方法以及基于兩種數(shù)據(jù)相結(jié)合的方法。
[0003] 由于深度傳感器能夠獲取更加豐富的外觀和結(jié)構(gòu)信息,所以深度攝像機(jī)在計(jì)算機(jī) 視覺領(lǐng)域越來越受到廣泛的關(guān)注。近年來,越來越多的公司開發(fā)出了 RGB-D攝像機(jī),該類設(shè) 備的特點(diǎn)是能夠?qū)崟r(shí)的提供RGB圖像和深度圖像,比如2010年微軟發(fā)布了能夠?qū)崟r(shí)采集 RGB-D圖像的攝像頭(即Kinect) ;2011年華碩發(fā)布了 Xtion PRO ;2013年體感控制器制造 公司Leap發(fā)布的Leap Motion。
[0004] RGB-D視頻相比于RGB視頻具有幾個(gè)優(yōu)點(diǎn)。首先,他們提供了額外的身體外形和結(jié) 構(gòu)信息,這些信息已經(jīng)成功的應(yīng)用在從單幅深度圖中獲取骨架節(jié)點(diǎn)信息和稠密點(diǎn)云結(jié)構(gòu)信 息;其次,在深度圖中去除掉了色彩和紋理信息,這使得人體檢測和分割更容易;第三,深 度傳感器對(duì)光照變化不敏感,這使得在黑暗環(huán)境下的監(jiān)視設(shè)備帶來了好處。
[0005] 設(shè)計(jì)基于RGB-D視頻的有效特征在很多計(jì)算機(jī)視覺問題中仍然是很重要的 研究問題。很多現(xiàn)有的人體行為識(shí)別技術(shù)[Cheng, Qin, Ye, Huang, Tian. Human daiIy action analysis with multi-view and color-depth data. Computer Vision - ECCV 2012. Workshops and Demonstrations,52-61: Springer,2012.]將深度序列以和彩色 視頻相同的方法來處理,采用基于色彩的識(shí)別方法。然而,雖然這些方法適用于彩色視 頻序列,將它們簡單地推廣到深度視頻序列可能不會(huì)產(chǎn)生最優(yōu)的結(jié)果[Oreifej, Liu. Hon4d:Histogram of oriented 4d normals for activity recognition from depth sequences.Computer Vision and Pattern Recognition (CVPR),2013IEEE Conference on,716-723: IEEE,2013.]。由深度攝像機(jī)獲得的信息也可以采用幾何特 征來提取更豐富的特征描述子。例如,[Tang et al. Histogram of oriented normal vectors for object recognition with a depth sensor.Computer Vision -ACCV2012,525-538:Springer,2013.]采用法線向量直方圖用于深度圖像的目標(biāo)檢測。給 定一個(gè)深度圖像,他們計(jì)算相對(duì)應(yīng)的空間導(dǎo)數(shù),將其轉(zhuǎn)換到極坐標(biāo),并且采用它們的2D直 方圖作為目標(biāo)描述子。最近,[Oreifej, Liu. Hon4d:Histogram of oriented 4d normals for activity recognition from depth sequences. Computer Vision and Pattern Recognition(CVPR), 2013IEEE Conference on, 716-723:IEEE, 2013·]通過增加時(shí)間導(dǎo)數(shù) 將相同的技術(shù)擴(kuò)展到時(shí)間維度。將深度視頻序列以這種方式進(jìn)行處理的缺點(diǎn)是深度圖像中 的噪聲在這種微分操作過程中被過于放大。
[0006] 基于深度圖的行為識(shí)別方法可以分為基于全局的方法[Yang, Zhang, Tian. Recognizing actions using depth motion maps-based histograms of oriented gradients.Proceedings of the 20th ACM international conference on Multimedia,1057_1060:ACM,2012·];和局部方法[Xia,Aggarwal.Spatio_temporal depth cuboid similarity feature for activity recognition using depth camera. Computer Vision and Pattern Recognition(CVPR),2013IEEE Conference on,2834-2841: IEEE,2013.]。全局方法采用全局特征,例如輪廓和空-時(shí)volume信息。例 如,[Li et al. Action recognition based on a bag of 3d points. Computer Vision and Pattern Recognition Workshops (CVPRW),2010IEEE Computer Society Conference on,9-14: IEEE,2010·]從2D輪廓中采樣邊界像素點(diǎn)作為特征。[Yang et al. Recognizing actions using depth motion maps-based histograms of oriented gradients. Proceedings of the 20th ACM international conference on Multimedia, 1057-1060:A CM,2012. ]2D投影的時(shí)間導(dǎo)數(shù)來獲取深度運(yùn)動(dòng)圖(DMM)。[Vieira et al.Stop:Space-time occupancy patterns for 3d action recognition from depth map sequences. Progress in Pattern Recognition,Image Analysis, Computer Vision, and Applications, 252 -259:Springer,2012.]采用空-時(shí)占用模式計(jì)算3D中的輪廓。最近,[Oreifej,Liu. Hon4d:Histogram of oriented4d normals for activity recognition from depth sequences. Computer Vision and Pattern Recognition (CVPR),2013IEEE Conference on,716_723:IEEE,2013·]通過添加時(shí)間導(dǎo)數(shù)擴(kuò)展了3D法線直方圖[Tang et al. Histogram of oriented normal vectors for object recognition with a depth sensor. Computer Vision-ACCV 2012, 525-538:Springer,2013.]到4D。標(biāo)準(zhǔn)化梯度向量到單位幅值,并且 投影到一個(gè)優(yōu)化的具有600個(gè)cell的多面體來獲取直方圖。
[0007] 基于運(yùn)動(dòng)軌跡的行為識(shí)別方法[H. Wang,Klaser,Schmid,Liu. Acti