一種基于顯著軌跡空間信息的視頻人體行為識別方法與流程

文檔序號：12064264閱讀：598來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及計算機(jī)視覺領(lǐng)域，更具體地，涉及一種基于顯著軌跡空間信息的視頻人體行為識別方法。

背景技術(shù)：

隨著社會的進(jìn)步，日常生活中產(chǎn)生的視頻信息呈現(xiàn)了爆炸式增長。人們迫切地需要對這些視頻內(nèi)容進(jìn)行分析，以獲取有價值的信息。基于視覺的人體行為識別是視頻分析領(lǐng)域的一個重點也是難點，被廣泛地應(yīng)用于智能監(jiān)控、視頻檢索以及動畫合成等方面。近年來，許多學(xué)者對此進(jìn)行了深入的研究，研究數(shù)據(jù)集已經(jīng)從單一監(jiān)控場景下拍攝的錄制視頻轉(zhuǎn)移到復(fù)雜自然場景下拍攝的生活類視頻。由于視頻中往往具有陰影和復(fù)雜的運動背景，以及會受到攝像頭抖動等因素的影響，人體行為識別還具有較大的挑戰(zhàn)性。

目前對于視頻中的人體行為識別主要采用基于視覺詞袋的框架(Bag of Visual Words)，該框架主要包括以下幾個步驟：(1)特征提取，從視頻中提取富有表達(dá)能力的底層特征，目前最常用的特征是時空興趣點；(2)特征轉(zhuǎn)化，利用視頻中的人體姿勢，與人交互的物體等中高層視覺線索，將特征提取過程中提取到的底層特征轉(zhuǎn)化為中層或者高層的特征；(3)詞典產(chǎn)生，利用產(chǎn)生的詞典可以更好的描述局部特征空間；(4)特征編碼，利用詞典將前面提取到的特征編碼成整個視頻的表示。最后將視頻的表示向量用分類器(如SVM)進(jìn)行學(xué)習(xí)分類。

目前，局部特征，如時空興趣點或者密集軌跡，具有豐富的時空信息，取得了較好的識別效果。這些局部特征通常在整個視頻中通過密集采樣得到，并且所有得到的軌跡在后續(xù)的過程中被視為同等重要。然而，密集軌跡忽略了視頻中人體運動區(qū)域的檢測，在復(fù)雜的場景中很容易提取到多余且不準(zhǔn)確的軌跡。另外，對于提取到的底層特征，如何有效地利用一直是人體行為識別的難點和熱點。因此，要想提高人體行為識別的準(zhǔn)確率，就要從研究方法的兩大方面出發(fā)，即從視頻中提取出具有強(qiáng)表現(xiàn)力的特征以及設(shè)計出有效的利用這些特征的行為分類算法。

技術(shù)實現(xiàn)要素：

本發(fā)明提供一種提高識別效果的基于顯著軌跡空間信息的視頻人體行為識別方法。

為了達(dá)到上述技術(shù)效果，本發(fā)明的技術(shù)方案如下：

一種基于顯著軌跡空間信息的視頻人體行為識別方法，包括以下步驟：

S1：提取視頻幀，構(gòu)建圖像金字塔，然后對視頻進(jìn)行超像素分割，在圖像金字塔上計算光流，然后利用幀的顏色，空間分布，以及光流的對比性來計算動態(tài)和靜態(tài)顯著性，將他們?nèi)诤蠟榭偟娘@著性；

S2：將軌跡顯著性定義為軌跡每點在組合顯著性圖像中顯著性的均值；然后計算自適應(yīng)閾值，當(dāng)軌跡顯著性小于閾值時，則認(rèn)為是背景軌跡或者非運動區(qū)域的軌跡而予以刪除，從而有效提取顯著軌跡；

S3：首先對視頻的所有顯著軌跡進(jìn)行隨機(jī)采樣，然后對采樣得到軌跡利用其空間信息進(jìn)行AP聚類，得到不定數(shù)量的聚類中心，接著用k-means將聚類中心調(diào)整為固定的數(shù)目C，最后將視頻所有的軌跡分類到距離最近的聚類中心去，從而得到了視頻的軌跡分類；

S4：對一個視頻C個類的軌跡進(jìn)行編碼，得到了C個向量，該向量就是視頻的表示。

進(jìn)一步地，所述步驟S1的過程如下：

S11：對視頻幀進(jìn)行金字塔構(gòu)建和超像素分割，對于圖像金字塔的某一層而言，得到K個超像素；

S12：計算超像素基于顏色對比的顯著性：

其中，K是超像素的數(shù)量，c_i和c_j表示兩個超像素的顏色值，p_i和p_j是超像素中心位置的坐標(biāo)，w_ij^(p)是對顏色對比值進(jìn)行校正的系數(shù)，σ_p用來控制顏色對比顯著性的范圍，設(shè)置為0.25；

S13：計算超像素基于空間分布對比的顯著性：

其中，w_ij^(c)是對空間位置對比值的校正系數(shù)，σ_c用來控制空間對比顯著性的范圍，本發(fā)明取20，是顏色c_i的平均權(quán)重位置；

S14：基于顏色對比和基于空間分布對比的顯著性融合得到超像素的靜態(tài)顯著性：其中和是基于顏色對比顯著性U_i和基于空間分布對比顯著性D_i歸一化到了[0,1]后的值；

S15：靜態(tài)顯著性能夠有效地剔除視頻中幀的背景區(qū)域，本發(fā)明利用插值得到靜態(tài)的顯著性：

其中w_ij是高斯權(quán)重，x_fi表示幀f上的第i個像素，d_i和dj是像素i和j的顏色值，q_i和q_j是像素i和j的位置，β和α均設(shè)置為30；

S16：在未做超像素分割的金字塔圖像上計算光流，然后利用某一像素點所在幀的平均光流值與該點光流值得對比，即卡方距離，得到動態(tài)顯著性：

C_d(x_fi)＝χ²(h(x_fi),h(A(x_fi)))，

其中，h(x_fi)是像素點x_fi處光流直方圖的所有bin組成的向量，h(A(x_fi))是全部h(x_fi)的bin的平均值組成的向量；

S17：結(jié)合動靜態(tài)顯著性，得到某一個像素點的顯著性：

其中,和是經(jīng)過歸一化后像素的顯著性，a和b用來控制兩種顯著性的權(quán)重，均設(shè)置為1；

進(jìn)一步地，所述步驟S2的過程如下：

S21：計算每一條軌跡的顯著性：

其中，L是軌跡的長度為15，是像素所在幀上歸一化后的顯著性；

S22：對具有較低顯著性的軌跡進(jìn)行過濾：

其中μ是過濾參數(shù)設(shè)置為1.4，E(·)表示圖像f的顯著性的平均值。

進(jìn)一步地，所述步驟S3的過程如下：

S31：首先對一個視頻的所有軌跡進(jìn)行隨機(jī)采樣；

S32：利用空間信息來表示軌跡，然后通過余弦相似度來計算采樣得到的軌跡的相似性矩陣；

S33：將相似性矩陣作為第一層AP聚類的輸入；

S34：在第二層用k-means來對第一層聚類的結(jié)果進(jìn)行調(diào)整，得到固定數(shù)目的聚類中心；

S35：對于一個視頻所有的軌跡，將他們量化到最近的聚類中心去，從而將視頻的軌跡依照軌跡之間的空間關(guān)系劃分為固定數(shù)目的類。

進(jìn)一步地，所述步驟S4的過程如下：

S41：通過k-mean算法對訓(xùn)練集中所有軌跡的整體描述符進(jìn)行聚類，構(gòu)造視覺詞典；

S42：采用硬量化的方法，分別將一個視頻的每個類的所有軌跡用量化到視覺詞典中最近的詞匯上面去；

S43：利用多核學(xué)習(xí)方法進(jìn)行學(xué)習(xí)分類就得到視頻的表示。

與現(xiàn)有技術(shù)相比，本發(fā)明技術(shù)方案的有益效果是：

本發(fā)明方法對視頻中軌跡的顯著性的進(jìn)行重新定義，能夠有效的剔除視頻中背景的軌跡和人體非運動部位的軌跡，通過篩選留下的是前景中運動顯著性高的軌跡，具有豐富的，更有表達(dá)能力的，且誤差更小的軌跡；將不同人體部位的運動部件，以及交互物體區(qū)分開來，通過多核學(xué)習(xí)來利用他們之間的空間和語義關(guān)系，提高了算法的識別效果。

附圖說明

圖1為本發(fā)明基于顯著軌跡空間信息的視頻人體行為識別方法流程示意圖；

圖2為本發(fā)明視頻幀的顯著軌跡示意圖；

圖3為本發(fā)明基于空間信息的聚類結(jié)果的示意圖；

圖4為本發(fā)明基于顯著軌跡空間信息分組的視頻表示直方圖構(gòu)建示意圖；

圖5為本發(fā)明在KTH和UCF Sports數(shù)據(jù)集上面的性能示意圖。

具體實施方式

附圖僅用于示例性說明，不能理解為對本專利的限制；

為了更好說明本實施例，附圖某些部件會有省略、放大或縮小，并不代表實際產(chǎn)品的尺寸；

對于本領(lǐng)域技術(shù)人員來說，附圖中某些公知結(jié)構(gòu)及其說明可能省略是可以理解的。

下面結(jié)合附圖和實施例對本發(fā)明的技術(shù)方案做進(jìn)一步的說明。

實施例1

如圖1所示，本發(fā)明先對視頻進(jìn)行了預(yù)處理，然后通過計算顯著性對視頻的密集軌跡特征進(jìn)行過濾得到顯著軌跡，接著利用軌跡的空間信息對視頻的顯著軌跡進(jìn)行兩層的聚類，聚類完成后利用視覺詞典得到視頻的表示，最后使用多核學(xué)習(xí)的方法進(jìn)行學(xué)習(xí)分類。

如圖2所示，包括視頻的原始幀，幀的動靜態(tài)結(jié)合的顯著性，以及原始幀和基于動靜態(tài)結(jié)合的顯著性過濾得到的顯著軌跡。本發(fā)明-設(shè)定軌跡的長度為15，對于顯著性小于軌跡所在的15幀的平均顯著性1.4倍的軌跡，對他們進(jìn)行了過濾。

本發(fā)明基于顯著軌跡空間信息的視頻人體行為識別方法的具體步驟：

1.首先對視頻進(jìn)行預(yù)處理。具體步驟如下：使用opencv讀取視頻序列中的每一幀圖像，將圖像的大小歸一化為360×240，并構(gòu)建8層的時空金字塔；然后對圖像金字塔的每一層進(jìn)行超像素分割，對于第6,7,8層，對應(yīng)的超像素的個數(shù)分別為：150,100,100，對于第1層到第5層，對應(yīng)的超像素的個數(shù)為：250×1.25×(8-i)。

2.然后計算視頻幀的靜態(tài)顯著性和動態(tài)顯著性，并同時提取密集軌跡，之后，具體包括：

a.并且對視頻幀中的時空興趣點密集采樣作為軌跡起始點；

b.將第j幀上每個特征點p_j＝(x_j，y_j)，通過中值濾波后的密集光流場跟蹤至第j+1幀；

c.采用顏色對比和空間分布對比計算單幀的靜態(tài)顯著性；計算像素點的光流直方圖和幀的光流直方圖平均值的卡方距離，得到單幀的動態(tài)顯著性；通過自適應(yīng)融合的方式計算單幀的組合顯著性；

3.將軌跡顯著性定義為軌跡每點在組合顯著性圖像中顯著性的均值；計算軌跡的靜態(tài)顯著性和動態(tài)顯著性，及其組合顯著性，當(dāng)軌跡顯著性小于閾值時，則認(rèn)為是背景軌跡而予以刪除，從而有效提取前景運動軌跡。從圖2可以看出，顯著軌跡大部分集中于前景運動區(qū)域：

a：給定一個軌跡，取軌跡在各幀的像素點的顯著值得均值作為軌跡的顯著性。

b：閾值的確定過程為：計算每一幀的平均顯著性，取各幀平均顯著性的平均值的μ倍作為自適應(yīng)閾值，并根據(jù)軌跡顯著性篩選軌跡。本發(fā)明將過濾閾值設(shè)置為1.4。通過選擇顯著性較高的軌跡，我們可以獲得我們的顯著軌跡。

c.在得到顯著軌跡后，我們采用HOG，HOF，MBH，以及軌跡形狀描述符對軌跡進(jìn)行描述，他們分別為96維,108維度，192維和30維。

4.在利用顯著軌跡的空間信息的進(jìn)行特征變化，得到中層的特征。改步驟的流程圖，如果圖3左邊所示。我們的采用一個兩層聚類的模型對軌跡進(jìn)行分組，分組的效果如圖3右邊所示：

a：首先對一個視頻的所有軌跡進(jìn)行隨機(jī)采樣，采樣的數(shù)目設(shè)置為5000；

b：利用空間信息來表示軌跡，然后通過余弦相似度來計算采樣得到的軌跡的相似性矩陣。我們采用40維的軌跡空間信息，包括軌跡的形狀(30維)，軌跡的平均位置(3維)，軌跡的金字塔層數(shù)(1維)，軌跡的位置的方差(2維)，軌跡第一個點的位置(3維)，總的偏移(1維)。

c：將相似性矩陣作為第一層AP聚類的輸入，得到大約30個左右的聚類中心；

d：在第二層用k-means來對第一層聚類的結(jié)果進(jìn)行調(diào)整，得到固定數(shù)目的聚類中心，本發(fā)明固定為3。

e：對于一個視頻所有的軌跡，本發(fā)明將他們量化到最近的聚類中心去，從而將視頻的軌跡依照估計之間的空間關(guān)系分為了3個類。

5.在多核學(xué)習(xí)的學(xué)習(xí)分類階段，我們利用HOG，HOF，MBH三種描述符的信息，嵌入不同的核函數(shù)，對視頻進(jìn)行學(xué)習(xí)分類。

a：通過k-mean算法對訓(xùn)練集中所有的軌跡的整體描述符HOF，HOG，MBH進(jìn)行聚類，構(gòu)造3個大小為4000的視覺詞典；

b：采用硬量化的方法，分別將一個視頻的每個類的所有軌跡用視覺詞典進(jìn)行編碼，從而得到9個4000維的向量；

c：利用多核學(xué)習(xí)進(jìn)行學(xué)習(xí)分類，其中核函數(shù)為：

其中，Z_m和Z_q代表兩個視頻的直方圖向量集合，t用來區(qū)分特征種類，n用來區(qū)分軌跡組，其中x表示BoF描述符向量，η是線性核函數(shù)的組合系數(shù)。

本發(fā)明基于顯著軌跡空間信息的視頻人體行為識別方法的識別效果實驗：

實驗數(shù)據(jù)集：包括KTH數(shù)據(jù)集和UCF體育運動數(shù)據(jù)集；

2、實驗環(huán)境：Matlab 2010a平臺和C++11；

3、實驗工具集：密集軌跡開源代碼、opencv開源庫，VLFeat開源庫和Liblinear工具箱；

4、實驗方法：對于KTH數(shù)據(jù)集，本實驗依據(jù)25個表演者將其分為25組，然后使用“留一法”(leave-one-out,LOO)交叉驗證，每一輪將一組作為測試數(shù)據(jù)，其他組作為訓(xùn)練數(shù)據(jù)。對于UCF sports數(shù)據(jù)集，我們將視頻翻轉(zhuǎn)得到，用于訓(xùn)練，同樣，我們采用留一法。

5、評價標(biāo)準(zhǔn)：平均準(zhǔn)確率(average accuracy,aa)

6、實驗結(jié)果：如圖5所示，本發(fā)明在過濾參數(shù)設(shè)置為1.4的時候在KTH數(shù)據(jù)集上達(dá)到了98％的識別效率，在UCF sports數(shù)據(jù)集上面達(dá)到了92.10％的識別效率。實驗結(jié)果表明，本發(fā)明識別方法取得較好的識別效果，與現(xiàn)有的方法比較，具有顯著的進(jìn)步。

相同或相似的標(biāo)號對應(yīng)相同或相似的部件；

附圖中描述位置關(guān)系的用于僅用于示例性說明，不能理解為對本專利的限制；

顯然，本發(fā)明的上述實施僅僅是為清楚地說明本發(fā)明所作的舉例，而并非是對本發(fā)明的實施方式的限定。對于所屬領(lǐng)域的普通技術(shù)人員來說，在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實施方式予以窮舉。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等，均應(yīng)包含在本發(fā)明權(quán)利要求的保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：衣楊;胡攀;鄧小康;張念旭;謝韜;鄭鎮(zhèn)賢
技術(shù)所有人：中山大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

人體行走步態(tài)軌跡圖相關(guān)技術(shù)

零之軌跡地下空間a相關(guān)技術(shù)

矩形空間軌跡理論相關(guān)技術(shù)

笛卡爾空間軌跡規(guī)劃相關(guān)技術(shù)

空間軌跡測量相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于顯著軌跡空間信息的視頻人體行為識別方法與流程