專利名稱:基于surf高效匹配核的人體運動跟蹤方法
技術領域:
本發(fā)明屬于視頻圖像處理技術領域,具體來說是一種基于Speed Up RobustFeature SURF高效匹配核的圖像特征表示和人體運動跟蹤方法,用于提取圖像特征進行視頻人體運動跟蹤和三維姿勢恢復
背景技術:
人體運動跟蹤是近二十年來計算機視覺領域的重大熱點之一,人體運動跟蹤在運動捕獲,人機交互,視頻監(jiān)控等多領域獲得了初步的應用,并具重大的應用前景。從視頻序列中準確恢復三維人體姿態(tài),實現(xiàn)人體運動跟蹤是計算機視覺領域長期存在的問題。一幀視頻圖像,人體是視頻圖像中的核心內容,反映視頻圖像的核心語義特征。對于人類來說,觀看一幀圖像的同時幾乎可以瞬間理解其中人物的姿態(tài),然而對于計算機,卻要克服重重困難必需要有一種有效的圖像特征,作為計算機識別的接口。這種圖像特征必須有效表示圖像中的人物運動狀態(tài)以及圖像紋理,輪廓等細節(jié)信息。在人體運動跟蹤過程和恢復中,需要將這種圖像特征和運動跟蹤方法結合,從而達到對人體的運動跟蹤和三維姿勢恢復。現(xiàn)有的運動跟蹤中使用的跟蹤方法大致可分為產生式和判別式。圖像特征表示方法大致可以分為基于全局特征點方法和基于局部字碼表的特征表示方法,如梯度直方圖特征、層級化特征、形狀上下文和尺度不變性特征點的方法。目前已經有很多成熟的圖像特征表示方法被運用到人體特征表示和運動跟蹤中。但是大部分描述人體的圖像特征表示是基于輪廓和邊緣信息的,在理論上不嚴謹,很難準確的刻畫圖像內部信息。這些基于邊緣的圖像特征表示方法還面臨一個主要問題視頻圖像的快速變換常沿邊緣曲線不連續(xù)性跳躍,一方面會導致封閉邊界的灰度不連續(xù)性模糊,另一方面也會導致紋理變化不沿幾何曲線聚集。最終結果是無法有效表示圖像中的幾何紋理走向,不能全面刻畫人在其中的姿態(tài)和特征信息,導致后期的運動跟蹤和姿態(tài)恢復產生了模糊性和歧義性。
發(fā)明內容
本發(fā)明的目的在于針對上述已有技術的不足,提出了一種基于SURF高效匹配核的圖像特征表示和人體運動跟蹤方法,以降低圖像特征提取的復雜度,提高特征的表征能力,并在圖像數(shù)據(jù)分布未知情況下,通過機器學習先驗概率分布進行準確的姿態(tài)恢復。本發(fā)明的技術方案通過如下步驟實現(xiàn)(I)輸入待處理訓練及測試視頻集,并將該視頻集轉換為連續(xù)的單幅序列圖像,提取出含有人體目標的圖像部分,作為之后的訓練樣本圖像;(2)將每幅訓練樣本圖像分割為8*8像素格子,每個格子分別按16、25、31像素大小的圖像尺度采樣,提取所有訓練圖像的SURF描述子特征點F ;(3)通過對所有訓練圖像的SURF描述子特征點F進行隨機采樣,獲得整個訓練樣本500維的視覺詞匯,構成視覺詞匯的初始基向量R ;
(4)將初始基向量R,利用帶約束的核奇異值分解CKSVD進行字典學習,得到最大核函數(shù)特征r;(5)通過最大化特征值提取抑制相似的最大核函數(shù)特征r,并按降序提取核函數(shù)特征值,刪除最大值一樣的元素,得到特征向量G,對每個不同圖像尺度的圖像特征G進行加權求和得到所有圖像尺度上的特征G';(6)儲存所有尺度的特征G',選擇G'中類似高斯分布的低維特征h,作為最終圖像的SURF高效匹配核特征X ;
(7)使用SURF高效匹配核特征X進行人體運動姿勢的跟蹤,對輸入視頻圖像進行三維運動姿勢估計,并將估計到的三維運動姿勢數(shù)據(jù)恢復成關節(jié)點骨架作為最終的跟蹤結果。本發(fā)明與現(xiàn)有技術相比具有以下優(yōu)點(I)本發(fā)明由于直接提取視頻圖像中運動人體的框圖,而不需要對視頻圖像中的人體運動區(qū)域進行背景剪除,因而比傳統(tǒng)的特征提取方法能更加節(jié)省計算資源和時間復雜度。(2)本發(fā)明中由于使用的SURF Speed Up Robust Feature高效匹配核的圖像特征能避免傳統(tǒng)的基于邊緣的和基于輪廓的圖像表示方法產生的表示模糊,可以得到更好的三維運動跟蹤結果。(3)本發(fā)明提取的圖像特征信息較傳統(tǒng)的圖像描述方法維度低,能有效縮減提取特征時間和數(shù)據(jù)計算量。
圖I是本發(fā)明的實現(xiàn)流程圖;圖2是未經處理的人體跑步運動序列視頻圖;圖3是本發(fā)明使用的SURF高效匹配核圖像描述子與現(xiàn)有的Bandelet2,HOG描述子的性能對比圖;圖4是用本發(fā)明對人體“跑步”視頻每隔十幀截取的一次圖像;圖5是用未經處理的單幀人體“跑步”視頻序列截圖;圖6是用本發(fā)明對圖5進行姿態(tài)恢復的結果圖。
具體實施例方式本發(fā)明是一種基于Speed Up Robust Feature SURF高效匹配核的人體運動跟蹤方法,參照圖1,本發(fā)明的具體實施步驟如下步驟一,輸入待處理人體運動視頻轉換為連續(xù)單幅視頻圖像,提取出連續(xù)單幅視頻圖中含有人體的矩形框圖,將每幅矩形框圖轉換成大小為64X192像素的圖像,作為之后的訓練樣本圖像。步驟二,將每幅訓練樣本圖像分割為8X8像素格子,每個格子分別按16、25、31像素大小的圖像尺度進行采樣,提取所有訓練樣本的SURF描述子特征點F。步驟三,獲得視覺詞匯的初始基向量。3a)對每一幅訓練樣本圖像,在8X8的圖像格子上,按照16,25,31個像素大小尺度,分別隨機抽樣15個由步驟⑵得到的SURF特征點,記為Fi',i表示第i幅訓練圖像;3b)重復步驟3a),隨機提取所有的訓練樣本的SURF特征點,記為F';利用k-means聚類方法對F'中相似的SURF特征點進行聚類,定義500個聚類中心,獲得整個訓練圖像500維的視覺詞匯,構成視覺詞匯的初始基向量R。步驟四,獲得初始基向量R的最大核函數(shù)特征r。4a)將初始基向量R使用投影系數(shù)V,投影到一個500維的空間上,獲得R的投影R'R = Rv,V = [V1, . . . Vi. . . , vN]Vi = (Rt R” (Rt r),i G [1,N],其中,是一幅圖像中提取的第i個特征點的最大核特征,Vi 一幅圖像中提取的第i個特征點的低維投影系數(shù),N是一幅圖像中隨機選取的特征點的數(shù)量;4b)在投影空間上將最大核函數(shù)特征r逼近初始基向量R的投影R',獲得逼近函數(shù) f(r)f (r) = arg min Ir-R' | ,將R' = Rv代入上式,得f (r) = arg min | | r-Rv | |,其中,11*11表示2范數(shù),arg min | | |表示求最小值;4c)將f (r) = arg min | | r-Rv | |中的v和r展開,得到最大核函數(shù)特征r對初始基向量R的2次逼近函f (V,r)
權利要求
1.一種基于Speed Up Robust Feature SURF高效匹配核的人體運動跟蹤方法,包括如下步驟 (1)輸入待處理訓練及測試視頻集,并將該視頻集轉換為連續(xù)的單幅序列圖像,提取出含有人體目標的圖像部分,作為之后的訓練樣本圖像; (2)將每幅訓練樣本圖像分割為8*8像素格子,每個格子分別按16、25、31像素大小的圖像尺度采樣,提取所有訓練圖像的SURF描述子特征點F ; (3)通過對所有訓練圖像的SURF描述子特征點F進行隨機采樣,獲得整個訓練樣本500維的視覺詞匯,構成視覺詞匯的初始基向量R ; (4)將初始基向量R,利用帶約束的核奇異值分解CKSVD進行字典學習,得到最大核函數(shù)特征r ; (5)通過最大化特征值提取抑制相似的最大核函數(shù)特征r,并按降序提取核函數(shù)特征值,刪除最大值一樣的元素,得到特征向量G,對每個不同圖像尺度的圖像特征G進行加權求和得到所有圖像尺度上的特征G,; (6)儲存所有尺度的特征G,,選擇G,中類似高斯分布的低維特征g',作為最終圖像的SURF高效匹配核特征X ; (7)使用SURF高效匹配核特征X進行人體運動姿勢的跟蹤,對輸入視頻圖像進行三維運動姿勢估計,并將估計到的三維運動姿勢數(shù)據(jù)恢復成關節(jié)點骨架作為最終的跟蹤結果。
2.根據(jù)權利要求I所述的方法,其中步驟(3)中所述的獲得整個訓練樣本500維的視覺詞匯,構成視覺詞匯的初始基向量R,按如下進行 3a)對每一幅訓練樣本圖像,在8 X 8的圖像格子上,按照16,25,31個像素大小尺度,分別隨機抽樣15個由步驟(2)得到的SURF特征點,記為Fi ',i表示第i幅訓練圖像; 3b)重復步驟3a),提取所有的訓練樣本的SURF特征點,記為F';利用k-means聚類方法對Fi中相似的SURF特征點進行聚類,定義500個聚類中心,獲得整個訓練樣本500維的視覺詞匯,構成視覺詞匯的初始基向量R。
3.根據(jù)權利要求I所述的方法,其中步驟(5)所述的對每個不同圖像尺度的圖像特征G進行加權求和得到所有圖像尺度上的特征G',按下式進行 G' =GXA1, 其中,A1為不同圖相尺度的權重,I = [1,3],
4.根據(jù)權利要求I所述方法,其中步驟(7)所述的使用SURF高效匹配核特征X進行人體運動姿勢的跟蹤,包括如下步驟 7a)使用高斯過程學習一個從SURF高效匹配核特征X到訓練圖像的三維姿勢數(shù)據(jù)Y的映射關系g( ·),使用g( ·)將第j幀的三維姿勢y」用第j幀的SURF高效匹配核特征\表示,即 Yj = s (Xj),其中,Y = Iyi7 ... Yj, ... yj , X = (X1, · · · Xj, · · · χη}, j e [I, η], n 為訓練圖像巾貞數(shù); 7b)對于新的人體運動視頻圖像序列,提取該視頻圖像序列的SURF聞效匹配核特征集V,使用步驟7a)中學習到的映射關系g( ·),以第j幀的SURF高效匹配核特征V j為輸入,則該視頻序列的第j幀的三維姿勢數(shù)據(jù)I' P通過下式得到 y' j = §(χ/ j), 其中,X' = {x,j,...x' J,j e [1,η], η為該視頻圖像巾貞數(shù); 7c)重復步驟7b),獲得全部視頻圖像三維姿態(tài)數(shù)據(jù),Y' = {y,n},j e [1,η], n為該視頻圖像巾貞數(shù); 7d)將三維人體運動姿勢數(shù)據(jù)Y' = {y' ,,y' 2,...y' n},轉換為人體骨架關節(jié)點,恢復出輸入視頻的三維運動姿勢。
5.根據(jù)權利要求I所述方法,其中步驟⑷所述的利用帶約束的奇異值分解CKSVD進行字典學習,得到最大核函數(shù)特征r,按如下步驟進行 4a)將初始基向量R映射到一個500維的空間上,使用以下函數(shù)逼近初始基向量R的最大核函數(shù)特征r:V= (RT R) (RT r), v = argmin||r-^v||, 其中,V是低維投影系數(shù),V = [V1,.. . Vi. . .,νΝ],N是一幅圖像中選取的特征點的數(shù)量,Vi,為一幅圖像中提取的第i個特征點的低維投影系數(shù),i e [I, N],[是低維投影系數(shù)的估計值,I I · I I表示2范數(shù),argmin ( ·)表示求最小值; 4b)將v = argmin||r-Av|中的v展開,得到最大核函數(shù)特征r對初始基向量R的2次逼近函 f (V, r)I(VJ) = -^YjWr-Rvl Il2, ^ i=l 中,V [V!,· · · Vp · ·,Vn]; 4c)使用隨機梯度下降法求解f (V,ιΟ得到最大核函數(shù)特征I*。
全文摘要
本發(fā)明公開了一種基于SURF高效匹配核人體運動跟蹤方法,主要解決現(xiàn)有技術中恢復人體運動姿態(tài)不準確的問題。其實現(xiàn)過程是輸入視頻圖像,提取人體部位框圖;對人體部位框圖在不同圖像尺度下提取SURF特征點;隨機采樣提取的特征點構成視覺詞匯的初始向量基;對初始向量基使用帶約束的奇異值分解獲得最大核函數(shù)特征;對不同圖像尺度下的最大核函數(shù)特征進行加權獲得所有圖像尺度下的特征;選擇類似高斯分布的特征作為SURF高效匹配核特征;學習SURF高效匹配核特征和三維姿態(tài)的映射關系,實現(xiàn)對新的視頻圖像的跟蹤。本發(fā)明跟蹤快速,結果精確,計算量小,節(jié)省特征提取時間的優(yōu)點,可用于運動捕獲,人機交互,視頻監(jiān)控,人體目標識別和三維姿勢恢復。
文檔編號G06T7/20GK102663369SQ20121011816
公開日2012年9月12日 申請日期2012年4月20日 優(yōu)先權日2012年4月20日
發(fā)明者馮光潔, 張紅蕾, 李曉君, 王瑞, 茍靖翔, 謝福強, 韓啟強, 韓紅, 顧建銀 申請人:西安電子科技大學