亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種多視角動(dòng)作識別方法

文檔序號:6630727閱讀:289來源:國知局
一種多視角動(dòng)作識別方法
【專利摘要】本發(fā)明公開了一種多視角動(dòng)作識別方法,包括動(dòng)作訓(xùn)練和動(dòng)作識別兩個(gè)過程。動(dòng)作訓(xùn)練時(shí),通過二維條件隨機(jī)場的方法訓(xùn)練分類器;動(dòng)作識別過程包括如下步驟:提取時(shí)空興趣點(diǎn);計(jì)算特征描述子;特征描述子降維;特征描述子聚類,獲得預(yù)處理文件;將預(yù)處理文件送入訓(xùn)練過程中得到的分類器。本發(fā)明充分利用了時(shí)空興趣點(diǎn)之間的時(shí)空關(guān)系,有效地描述了不同動(dòng)作之間的特征;采用K-means聚類將不同動(dòng)作聚集到不同的類別,增加了動(dòng)作識別的區(qū)分度;通過引入二維條件隨機(jī)場,對單個(gè)攝像頭下的時(shí)間動(dòng)作序列及多個(gè)攝像頭之間的空間動(dòng)作序列進(jìn)行有效的建模,使得訓(xùn)練模型更加準(zhǔn)確,從而實(shí)現(xiàn)了對人體動(dòng)作的有效識別。
【專利說明】一種多視角動(dòng)作識別方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計(jì)算機(jī)視覺【技術(shù)領(lǐng)域】,特別涉及一種多視角動(dòng)作識別方法。

【背景技術(shù)】
[0002] 使用攝像機(jī)和計(jì)算機(jī)代替人眼"看",也就是計(jì)算機(jī)視覺技術(shù),開始得到了越來越 多的關(guān)注。該技術(shù)通過攝像機(jī)攝像以及使用計(jì)算機(jī)內(nèi)的預(yù)設(shè)算法進(jìn)行運(yùn)算,可以對圖像、視 頻識別,并做進(jìn)一步的處理,該種技術(shù)試圖建立一種從圖像或者視頻中獲取信息并處理的 人工智能系統(tǒng)。
[0003] 而且,隨著視頻監(jiān)控技術(shù)的日益成熟和監(jiān)控設(shè)備的普及,攝像機(jī)等監(jiān)控設(shè)備的成 本的日益降低,視頻信息的獲得變得更加的容易和方便,同時(shí)視頻信息的質(zhì)量也越來越高。 基于此,人體動(dòng)作識別得到越來越多的關(guān)注。特別對于火車站、機(jī)場、地鐵、銀行、監(jiān)獄等一 些對安全要求較高的公共場所,一旦有危險(xiǎn)可疑行為發(fā)生時(shí),若計(jì)算機(jī)能夠準(zhǔn)確地識別并 發(fā)出警報(bào),對于安保甚至反恐工作有著重要的意義。
[0004] 人體動(dòng)作識別往往既需要提取特征來合理的描述人體動(dòng)作,又需要設(shè)計(jì)分類器來 準(zhǔn)確的區(qū)分不同的動(dòng)作。
[0005] 目前,動(dòng)作描述方法大致分為三類:基于全局特征的方法、基于局部特征的方法以 及多特征融合的方法?;谌痔卣鞯姆椒?,如光流、運(yùn)動(dòng)能量圖、運(yùn)動(dòng)歷史圖、方向梯度直 方圖、時(shí)空體等;基于局部特征的方法,如時(shí)空興趣點(diǎn)、Harris興趣點(diǎn)、三維尺度不變特征 轉(zhuǎn)換等。
[0006] 動(dòng)作識別方法大致分為模板匹配、生成模型、判別模型三類。
[0007] 模板匹配就是通過計(jì)算待識別模板與已知模板的相似度,把相似度最大的已知模 板所對應(yīng)的類別作為識別結(jié)果。生成模型基于一個(gè)聯(lián)合概率函數(shù)建立觀察值與類別間的關(guān) 系,通過訓(xùn)練得到每個(gè)類別的模型參數(shù),然后分別計(jì)算待識別動(dòng)作與每個(gè)模型的匹配程度, 將最匹配的類別作為識別結(jié)果。生成模型主要包括隱馬爾科夫模型、潛在狄利克雷分配模 型、概率潛在語義分析模型等。判別模型主要包括支持向量機(jī)、條件隨機(jī)場等。
[0008] 模板匹配的優(yōu)點(diǎn)是算法簡單易實(shí)現(xiàn),時(shí)間開銷少,對相差比較大的行為識別效果 較好,但對細(xì)微差別的行為識別效果較差,對運(yùn)動(dòng)持續(xù)時(shí)間的變化及噪聲比較敏感。
[0009] 生成模型中,隱馬爾科夫模型被廣泛使用。隱馬爾科夫模型基于兩個(gè)假設(shè):輸出獨(dú) 立性假設(shè)和馬爾科夫性假設(shè)。由于其輸出獨(dú)立性假設(shè)要求觀察值序列嚴(yán)格相互獨(dú)立才能保 證推導(dǎo)的正確性,導(dǎo)致其不能考慮上下文的特征,即不能適應(yīng)存在依賴關(guān)系的觀察值序列。 而且傳統(tǒng)隱馬爾科夫模型的鏈狀結(jié)構(gòu)能夠?yàn)楹唵蔚膭?dòng)作,如走、跑等,進(jìn)行較好的建模,但 對于較為復(fù)雜的運(yùn)動(dòng),如交互行為、場景事件等,不能得到很好的結(jié)果,所以也無法實(shí)現(xiàn)多 視角的人體動(dòng)作識別。
[0010] 判別模型中,條件隨機(jī)場被廣泛使用。條件隨機(jī)場對整個(gè)觀察值序列進(jìn)行建模,它 使用了一種概率圖模型,具有表達(dá)長距離依賴性和交疊性特征的能力,并不在每一個(gè)節(jié)點(diǎn) 進(jìn)行歸一化,而是所有特征進(jìn)行全局歸一化,因此可以求得全局的最優(yōu)值。然而,對于多視 角的人體動(dòng)作存在兩種觀察值序列,一種是單個(gè)攝像頭下的時(shí)間動(dòng)作序列,另一種是多個(gè) 攝像頭之間的空間動(dòng)作序列,顯然,一維的線性條件隨機(jī)場已不能表達(dá)多視角的人體動(dòng)作。 [0011] 綜上所述,模型匹配對細(xì)微差別的行為識別效果差、對運(yùn)動(dòng)持續(xù)時(shí)間的變化及噪 聲比較敏感,生成模型不能適應(yīng)存在依賴關(guān)系的觀察值序列且對于較復(fù)雜的運(yùn)動(dòng)不能得到 很好的效果,判別模型只能使用一維的線性條件隨機(jī)場,由于上述方法都存在較大的缺陷, 所以提供一種對細(xì)微差別的行為識別效果強(qiáng)、對運(yùn)動(dòng)持續(xù)時(shí)間的變化及噪聲不敏感、適應(yīng) 存在依賴關(guān)系的觀察值序列、對復(fù)雜動(dòng)作識別能力強(qiáng)且能表達(dá)多視角的人體動(dòng)作的方法成 為了本領(lǐng)域技術(shù)人員一直追求的目標(biāo)。


【發(fā)明內(nèi)容】

[0012] 由于現(xiàn)有技術(shù)存在對細(xì)微差別的行為識別效果差、對運(yùn)動(dòng)持續(xù)時(shí)間的變化及噪聲 比較敏感、適應(yīng)存在依賴關(guān)系的觀察值序列、對于較復(fù)雜的運(yùn)動(dòng)不能得到很好的效果、只能 使用一維的線性條件隨機(jī)場的問題,本發(fā)明提出了一種多視角動(dòng)作識別方法。
[0013] 為實(shí)現(xiàn)上述技術(shù)目的,本發(fā)明具體提供了如下的技術(shù)方案:
[0014] 一種多視角動(dòng)作識別方法,該方法包括如下步驟:(1)動(dòng)作訓(xùn)練過程,通過二維條 件隨機(jī)場的方法訓(xùn)練并獲得分類器;(2)動(dòng)作識別過程,利用步驟(1)獲得的分類器識別動(dòng) 作;
[0015] 動(dòng)作識別過程包括如下步驟:
[0016] S1 :對待識別視頻文件提取時(shí)空興趣點(diǎn);
[0017] S2 :計(jì)算時(shí)空興趣點(diǎn)所在區(qū)域的特征描述子;
[0018] S3 :對S2中所有的特征描述子降維;
[0019] S4 :將S3中降維后的特征描述子聚類,獲得預(yù)處理文件;
[0020] S5 :將S4所得預(yù)處理文件送入訓(xùn)練過程中得到的分類器。
[0021] 通過使用二維條件隨機(jī)場的方法訓(xùn)練分類器,實(shí)現(xiàn)了在時(shí)間序列和空間序列的有 效的二維建模,使得訓(xùn)練模型的準(zhǔn)確度更高,為后續(xù)的多視角的人體動(dòng)作的識別提供了基 礎(chǔ),能夠有效地識別人體動(dòng)作。
[0022] 進(jìn)一步地,動(dòng)作訓(xùn)練過程包括如下步驟:
[0023] XI :對訓(xùn)練視頻文件進(jìn)行人工標(biāo)注;
[0024] X2 :對訓(xùn)練視頻文件提取時(shí)空興趣點(diǎn);
[0025] X3 :計(jì)算時(shí)空興趣點(diǎn)所在區(qū)域的特征描述子;
[0026] X4 :對步驟X3中的特征描述子構(gòu)成的集合抽樣,得到子集;
[0027] X5 :對步驟X4得到的子集中所有的特征描述子降維;
[0028] X6 :對步驟X5中降維后的特征描述子進(jìn)行聚類,獲得訓(xùn)練文件;
[0029] X7 :通過二維條件隨機(jī)場的方法,使用步驟X6所得的訓(xùn)練文件訓(xùn)練分類器。
[0030] 進(jìn)一步地,時(shí)空興趣點(diǎn)的提取方法為高斯濾波和Gabor濾波。
[0031] 通過在二維圖像平面進(jìn)行高斯濾波和在時(shí)間軸上一維Gabor濾波,可以檢測得到 稠密的時(shí)空興趣點(diǎn)。
[0032] 進(jìn)一步地,特征描述子包括方向梯度直方圖、光流直方圖。采用多種特征描述子, 增強(qiáng)特征描述的準(zhǔn)確性和全面性,為動(dòng)作識別的有效性做好鋪墊。
[0033] 進(jìn)一步地,采用主成分分析的方法進(jìn)行降維。主成分分析能夠消除特征描述子之 間的相關(guān)影響,減少降維時(shí)特征描述子選擇的工作量,且這種方法便于在計(jì)算機(jī)上實(shí)現(xiàn),可 操作性強(qiáng)。
[0034] 進(jìn)一步地,對特征描述子進(jìn)行聚類的方法為K-mesns。對于大數(shù)據(jù)集時(shí),這種算法 是相對可非常高效的。
[0035] 進(jìn)一步地,對步驟X3中的特征描述子構(gòu)成的集合進(jìn)行抽樣的方法是隨機(jī)抽樣。通 過概率的方式客觀地選取抽樣,保證了每個(gè)特征描述子被選取的概率相同,保證得到合適 的子集。
[0036] 本發(fā)明的有益效果為:本發(fā)明充分利用了時(shí)空興趣點(diǎn)之間的時(shí)空關(guān)系,有效地描 述了不同動(dòng)作之間的特征;采用K-means聚類將不同動(dòng)作聚集到不同的類別,增加了動(dòng)作 識別的區(qū)分度;通過引入二維條件隨機(jī)場,對單個(gè)攝像頭下的時(shí)間動(dòng)作序列及多個(gè)攝像頭 之間的空間動(dòng)作序列進(jìn)行有效的建模,使得訓(xùn)練模型更加準(zhǔn)確,從而實(shí)現(xiàn)了對人體動(dòng)作的 有效識別。

【專利附圖】

【附圖說明】
[0037] 圖1為動(dòng)作訓(xùn)練過程流程圖。
[0038] 圖2為動(dòng)作識別過程流程圖。
[0039] 圖3為二維條件隨機(jī)場的狀態(tài)序列圖。

【具體實(shí)施方式】
[0040] 下面結(jié)合附圖對本發(fā)明的結(jié)構(gòu)進(jìn)行詳細(xì)解釋說明。
[0041] 一種多視角動(dòng)作識別方法,包括動(dòng)作訓(xùn)練和動(dòng)作識別兩個(gè)過程。
[0042] 如圖1所示,動(dòng)作訓(xùn)練過程包括如下步驟:
[0043] XI :對訓(xùn)練視頻文件進(jìn)行人工標(biāo)注,共計(jì)4個(gè)視角,10類動(dòng)作;
[0044] X2 :對訓(xùn)練視頻文件提取時(shí)空興趣點(diǎn),本發(fā)明采用的是高斯濾波及Gabor濾波等 方法;
[0045] X3:計(jì)算時(shí)空興趣點(diǎn)所在區(qū)域的特征描述子,本發(fā)明的特征描述子包括方向梯度 直方圖、光流直方圖;
[0046] X4 :對步驟X3中的特征描述子構(gòu)成的集合通過隨機(jī)抽樣的方式,得到子集;
[0047] X5 :對步驟X4得到的子集中所有的特征描述子通過主成分分析的方式降維;
[0048] X6 :對步驟X5中降維后的特征描述子通過K-means進(jìn)行聚類,獲得訓(xùn)練文件;
[0049] X7 :通過二維條件隨機(jī)場的方法,使用步驟X6所得的訓(xùn)練文件訓(xùn)練分類器。
[0050] 如圖2所示,動(dòng)作識別過程包括如下步驟:
[0051] S1 :對待識別視頻文件提取時(shí)空興趣點(diǎn),本發(fā)明采用的是高斯濾波及Gabor濾波 等方法;
[0052] S2:計(jì)算時(shí)空興趣點(diǎn)所在區(qū)域的特征描述子,本發(fā)明的特征描述子包括方向梯度 直方圖、光流直方圖;
[0053] S3 :對S2中所有的特征描述子通過主成分分析的方式降維;
[0054] S4 :將S3中降維后的特征描述子通過K-means進(jìn)行聚類,獲得預(yù)處理文件;
[0055] S5 :將S4所得預(yù)處理文件送入訓(xùn)練過程中得到的分類器,實(shí)現(xiàn)多視角動(dòng)作的識 別。
[0056] 需要說明的是,時(shí)空興趣點(diǎn)是典型的局部時(shí)空特征,分布在濾波器響應(yīng)局部較大 的區(qū)域,反映了該區(qū)域的圖像灰度值變化比較顯著,具有很好的特征描述和類別區(qū)分能力, 所以將響應(yīng)函數(shù)的局部極大值定義為時(shí)空興趣點(diǎn)。
[0057] 本發(fā)明中采用的聚類方法是K-means,主要原理是以特征空間中k個(gè)特征點(diǎn)為中 心進(jìn)行聚類,將最靠近某一特征點(diǎn)的特征集合歸為一類,并在不斷添加特征點(diǎn)的過程中更 新特征點(diǎn)中心的位置。具體的K-means算法步驟如下:算法之前先確定特征聚類的中心點(diǎn) 的個(gè)數(shù)k :
[0058] J1、隨機(jī)選擇k個(gè)訓(xùn)練樣本的特征值直接作為k個(gè)中心點(diǎn);
[0059] J2、對每個(gè)新特征值計(jì)算離它最近的中心點(diǎn),即確定其聚類中心點(diǎn);
[0060] J3、添加進(jìn)去之后,計(jì)算此類特征值的新的中心點(diǎn),即更新中心點(diǎn)的值;滿足收斂 需求則停止,不滿足則返回到J2。
[0061] 訓(xùn)練過程中,對十類兩人交互動(dòng)作進(jìn)行訓(xùn)練,包括握手、揮手、擁抱、鞠躬、拳擊、推 開、頭擊、掌摑、鎖喉及單腿踢。每個(gè)動(dòng)作由10組共14個(gè)演員表演三遍,每組由兩個(gè)演員組 成,所有動(dòng)作都沒有具體的規(guī)范,由演員自由完成。所有視頻由四個(gè)角度不同的攝像機(jī)進(jìn)行 拍攝,視頻的幀率為每秒25幀,大小為400*320。該數(shù)據(jù)集共包含1200段視頻,每段視頻長 度約為150幀。
[0062] 如圖3所示,用二維條件隨機(jī)場的狀態(tài)序列圖表示多視角人體動(dòng)作的時(shí)間序列和 空間序列,每行T代表單個(gè)攝像頭下的時(shí)間動(dòng)作序列,每列C代表某個(gè)時(shí)間下多個(gè)攝像頭的 空間動(dòng)作序列。
[0063] 傳統(tǒng)的一維條件隨機(jī)場只能表達(dá)一種觀察值序列,而本發(fā)明可以多視角地從時(shí)間 和空間的角度觀察、識別人體動(dòng)作。
[0064] 為了方便說明,我們做了如下設(shè)定:
[0065] 圖3中,X = {Χ\Χ2, "·,Γ}為多視角動(dòng)作序列,其中Γ = {χ?2,…,χ\}是第 c個(gè)視角的視頻序列,對應(yīng)于圖3的每一行;每個(gè)節(jié)點(diǎn)代表著一個(gè)隨機(jī)變量,對應(yīng)的狀態(tài)標(biāo) 簽為7^匕=匕,1,7\ 2,?,7\。}表示第《行的狀態(tài)序列,即視角《下所有時(shí)刻的狀 態(tài)序列;Tm= {71,"1,72,"1,一,7。," 1}表示第111列的狀態(tài)序列,即時(shí)刻111下所有視角的狀態(tài)序列; Arow(i,j)表示隨機(jī)變量yu所在行;厶。。1疆",j)表示隨機(jī)變量yu所在列;
[0066] Ι(ω) = {(i',j' ),,j' ) = ω}表示第ω行的隨機(jī)變量集合,即第 ω個(gè)視角的觀察值序列;
[0067] J(m) = {(i〃, j〃),ΔΜ?_(;?〃,j〃)= m}表示第m列的隨機(jī)變量集合,即第m時(shí)刻 的觀察值序列;
[0068] ΕΓΟΨ(ω) = {((i/ ), (i, j)) e Erow: (i/ ) e I ( ω-1), (i, j) e I ( ω )} 表示第ω-l行與第ω行之間的邊,即兩個(gè)視角間的空間依賴關(guān)系;
[0069] Εεο1"η(ω) = {((i", j"), (i, j)) e Ecolumn(i//, j") e J(m-l), (i, j) e J(m)} 第m-1列與第m列之間的邊,即兩個(gè)時(shí)刻間的時(shí)間依賴關(guān)系。
[0070] 構(gòu)造矩陣:Mm d, Tm | X) = exp (Wm d, Tm | X))
[0071 ] 將勢函數(shù)d,Tm | x)定義為:
[0072]

【權(quán)利要求】
1. 一種多視角動(dòng)作識別方法,其特征在于:該方法包括如下步驟:(1)動(dòng)作訓(xùn)練過程, 通過二維條件隨機(jī)場的方法訓(xùn)練并獲得分類器;(2)動(dòng)作識別過程,利用步驟(1)獲得的分 類器識別動(dòng)作; 動(dòng)作識別過程包括如下步驟: 51 :提取待識別視頻文件的時(shí)空興趣點(diǎn); 52 :計(jì)算時(shí)空興趣點(diǎn)所在區(qū)域的特征描述子; 53 :對S2中所有的特征描述子降維; 54 :將S3中降維后的特征描述子聚類,獲得預(yù)處理文件; 55 :將S4所得預(yù)處理文件送入訓(xùn)練過程中得到的分類器。
2. 根據(jù)權(quán)利要求1所述的多視角動(dòng)作識別方法,其特征在于:動(dòng)作訓(xùn)練過程包括如下 步驟: XI :人工標(biāo)注訓(xùn)練視頻文件; X2 :提取訓(xùn)練視頻文件的時(shí)空興趣點(diǎn); X3 :計(jì)算時(shí)空興趣點(diǎn)所在區(qū)域的特征描述子; X4 :對步驟X3中的特征描述子構(gòu)成的集合抽樣,得到子集; X5 :對步驟X4得到的子集中所有的特征描述子降維; X6 :對步驟X5中降維后的特征描述子進(jìn)行聚類,獲得訓(xùn)練文件; X7 :通過二維條件隨機(jī)場的方法,使用步驟X6所得的訓(xùn)練文件訓(xùn)練分類器。
3. 根據(jù)權(quán)利要求1或2所述的多視角動(dòng)作識別方法,其特征在于:時(shí)空興趣點(diǎn)的提取 方法為高斯濾波和Gabor濾波。
4. 根據(jù)權(quán)利要求1或2所述的多視角動(dòng)作識別方法,其特征在于:特征描述子包括方 向梯度直方圖、光流直方圖。
5. 根據(jù)權(quán)利要求1或2所述的多視角動(dòng)作識別方法,其特征在于:采用主成分分析的 方法進(jìn)行降維。
6. 根據(jù)權(quán)利要求1或2所述的多視角動(dòng)作識別方法,其特征在于:對特征描述子進(jìn)行 聚類的方法為K-means。
7. 根據(jù)權(quán)利要求2所述的多視角動(dòng)作識別方法,其特征在于:對步驟X3中的特征描述 子構(gòu)成的集合進(jìn)行抽樣的方法是隨機(jī)抽樣。
【文檔編號】G06K9/46GK104268586SQ201410553477
【公開日】2015年1月7日 申請日期:2014年10月17日 優(yōu)先權(quán)日:2014年10月17日
【發(fā)明者】馬華東, 傅慧源, 張征 申請人:北京郵電大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1