專利名稱:基于深度圖像序列的對象運動模式識別方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于深度圖像序列的對象運動模式識別方法和基于深度圖像序列的對象運動模式識別設(shè)備。
背景技術(shù):
隨著計算機視覺、圖像處理、人機交互技術(shù)的發(fā)展,對于基于視覺的人機交互系統(tǒng),諸如交互式投影儀、交互式顯示器、交互式電子白板、體感游戲機等等的技術(shù)需求也越來越迫切,在這些應(yīng)用領(lǐng)域中,經(jīng)常不僅僅需要對圖像中對象的識別,而且需要對對象運動模式進行識別。對此,相關(guān)技術(shù)領(lǐng)域已經(jīng)取得了一定進展。專利文件I (US 7274800 B2)提出了利用立體相機產(chǎn)生的深度視差圖并基于該深度視差圖進行手勢識別的技術(shù)。其主要針對人體上肢形態(tài)建立統(tǒng)計概論模型,并用其跟蹤人體的上肢運動,并能推斷出上肢、軀干、手的運動方向及位置。而后,將這些運動信息輸入隱馬爾科夫(HMM)模型分類器,以用于手勢識別。該技術(shù)主要基于統(tǒng)計模型推斷來進行運動識別,難以適應(yīng)復雜場景和模型失效的情況。而且,其速度不快。專利文件2(US 20110150271 Al)提出了一種基于深度圖像的運動檢測和跟蹤方法。其首先產(chǎn)生一幅代表背景的參考深度圖像,并將當前輸入的深度圖與之相比,以獲得前景運動圖像,從而完成運動對象檢測。背景參考深度圖像會依照一定時間范圍內(nèi)深度圖的背景點均值進行更新;而前景運動圖像則會聚類成幾個運動物體,并與上一幀的物體進行對應(yīng),從而完成運動對象跟蹤。該方法基于深度圖像的相鄰幀差分進行運動檢測;此外,該方法用于運動對象檢測,而無法實現(xiàn)運動模式的識別。非專利文件 I (P.Suryanarayan, A.Subramanian, and D.Mandalapu, DynamicHand Pose Recognition using Depth Data, International conference of PatternRecognition, pp.3105-3108,23_26Aug.2010.)提出了一種對尺度及旋轉(zhuǎn)不變手勢姿態(tài)的識別方法。其主要是基于對環(huán)繞整個手的柱狀區(qū)域進行3維劃分,而后計算每個子區(qū)域的前景比例,并將其作為整個手形狀的特征描述子,從而實現(xiàn)手勢識別。因為運動會導致深度圖的模糊,從而影響形狀的精確性,因此該方法僅限于形狀描述,以致不適用于運動的手勢識別。
發(fā)明內(nèi)容
鑒于現(xiàn)有技術(shù)中存在的上述問題而做出本發(fā)明,本發(fā)明實施例提出一種基于深度圖像序列的對象運動模式識別方法和基于深度圖像序列的對象運動模式識別設(shè)備,更具體地說,本發(fā)明實施例提出一種基于鄰域深度值差分時空分布的對象運動模式識別方法和設(shè)備。本發(fā)明實施例的基于深度圖像序列的對象運動模式識別方法和設(shè)備提供了可以被廣泛應(yīng)用于各類對象物體運動模式識別的技術(shù)框架。該技術(shù)手段利用對象在3維空間中的運動所引發(fā)的其深度值的變化,這種深度值變化的時空分布能夠描述該對象的運動模式。根據(jù)本發(fā)明的一個方面,提供一種基于深度圖像序列的對象運動模式識別方法,包括:前景確定步驟,在所述深度圖像序列的各幀深度圖像中確定前景對象區(qū)域;差分步驟,計算各幀深度圖像中各個像素的深度值與其相鄰幀深度圖像中鄰域像素的深度值之間的差分,以獲得鄰域深度值差分矢量;量化編碼步驟,根據(jù)各幀深度圖像及其相鄰幀深度圖像的前景對象區(qū)域確定感興趣區(qū)域,將感興趣區(qū)域中各個像素的鄰域深度值差分矢量量化編碼為鄰域深度值差分碼;區(qū)域劃分步驟,將各幀深度圖像中感興趣區(qū)域劃分為多個子區(qū)域;分布描述步驟,根據(jù)各幀深度圖像中感興趣區(qū)域的子區(qū)域中各個像素的鄰域深度值差分碼,獲得該子區(qū)域的鄰域深度值差分碼分布特征向量;識別步驟,根據(jù)各幀深度圖像中感興趣區(qū)域的子區(qū)域的鄰域深度值差分碼分布特征向量的組合,識別該感興趣區(qū)域所對應(yīng)對象的運動模式。根據(jù)本發(fā)明的另一個方面,提供一種基于深度圖像序列的對象運動模式識別設(shè)備,包括:前景確定裝置,在所述深度圖像序列的各幀深度圖像中確定前景對象區(qū)域;差分裝置,計算各幀深度圖像中各個像素的深度值與其相鄰幀深度圖像中鄰域像素的深度值之間的差分,以獲得鄰域深度值差分矢量;量化編碼裝置,根據(jù)各幀深度圖像及其相鄰幀深度圖像的前景對象區(qū)域確定感興趣區(qū)域,將感興趣區(qū)域中各個像素的鄰域深度值差分矢量量化編碼為鄰域深度值差分碼;區(qū)域劃分裝置,將各幀深度圖像中感興趣區(qū)域劃分為多個子區(qū)域;分布描述裝置,根據(jù)各幀深度圖像中感興趣區(qū)域的子區(qū)域中各個像素的鄰域深度值差分碼,獲得該子區(qū)域的鄰域深度值差分碼分布特征向量;識別裝置,根據(jù)各幀深度圖像中感興趣區(qū)域的子區(qū)域的鄰域深度值差分碼分布特征向量的組合,識別該感興趣區(qū)域所對應(yīng)對象的運動模式。鄰域深度值差分指任一像素點與其時空相鄰點的深度值之差所構(gòu)成的矢量,其提取方便,且攜帶了大量在該點鄰域的運動信息。通過量化編碼將鄰域深度值差分矢量量化到幾個典型的運動模式,即鄰域深度值差分碼,從而能夠?qū)崿F(xiàn)運動信息的壓縮以及噪聲抑制。經(jīng)過區(qū)域劃分將對象物體在時空中所經(jīng)過的區(qū)域劃分成一系列子區(qū)域以利于后續(xù)的分布描述。一方面,區(qū)域劃分能保持運動的時空結(jié)構(gòu);另一方面,每個子區(qū)域也能提供足夠的樣本來統(tǒng)計各種分布。然后進行分布描述,進一步把鄰域深度值差分碼的分布壓縮成低維特征向量,從而便于對象運動的識別分類。本發(fā)明通過對鄰域深度值差分的量化編碼、區(qū)域劃分、以及分布描述,提取了對對象運動引發(fā)深度值變化的時空分布的特征描述,從而獲得穩(wěn)定、快速、有效的運動或動作識另IJ。識別手段的快速源于鄰域深度值差分的特征提取非常簡單,只需要少量減法操作。識別方法的穩(wěn)健源于深度圖提供了非常有效的距離信息,而且整個識別算法沒有任何先驗的模型前提假設(shè)。識別方法的有效源于鄰域深度值差分的時空分布攜帶了重要的運動信息。因此,與現(xiàn)有技術(shù)相比,本發(fā)明實施例充分、有效地利用深度圖提供的距離信息、以及鄰域深度值差分的時空分布特征,能夠?qū)崿F(xiàn)速度很快而且穩(wěn)健有效的處理。通過閱讀結(jié)合附圖考慮的以下本發(fā)明的優(yōu)選實施例的詳細描述,將更好地理解本發(fā)明的以上和其他對象、特征、優(yōu)點和技術(shù)及工業(yè)重要性。
圖1是示例性地示出本發(fā)明實施例的基于深度圖像序列的對象運動模式識別方法和設(shè)備的應(yīng)用環(huán)境的示意圖。圖2是示出按照本發(fā)明實施例的基于深度圖像序列的對象運動模式識別方法的總體流程圖。圖3包括圖3A至圖3D,分別示意性地示出鄰域深度值差分矢量的實現(xiàn)方式。圖4包括圖4A和圖4B,分別示意性地說明對象運動所造成的深度值差分的量化編碼結(jié)果。圖5包括圖5A和圖5B,分別示意性地示出對深度差分值進行量化編碼的方案。圖6包括圖6A至圖6C,分別示意性地示出在某一幀深度圖像中,將XY 二維空間區(qū)域分別劃分為多個子區(qū)域的不同方式。圖7包括圖7A和圖7B,示出了采用圖6C所示的區(qū)域劃分方式來分別應(yīng)用于識別圖4A和圖4B的對象運動模式的情況。圖8示出了將圖6A所示的區(qū)域劃分方式應(yīng)用于關(guān)于手對象的示例。圖9包括圖9A至圖9D,圖9A示意性地示出感興趣區(qū)域在相鄰多幀所占的3維時空區(qū)域,圖9B至圖9D分別示出在不同的尺度下對感興趣區(qū)域在相鄰多幀所占的3維時空區(qū)域進行劃分的方式。圖10是示出按照本發(fā)明實施例的基于深度圖像序列的對象運動模式識別設(shè)備的總體框圖。圖11是示出按照本發(fā)明實施例的對象運動模式識別系統(tǒng)的總體框圖。
具體實施例方式下面結(jié)合附圖描述本發(fā)明實施例。圖1是示例性地示出本發(fā)明實施例的基于深度圖像序列的對象運動模式識別方法和設(shè)備的應(yīng)用環(huán)境的示意圖。參照圖1,本發(fā)明的實施例可應(yīng)用于人機交互,人及其手勢10由深度攝像頭11獲取并傳入計算機系統(tǒng)12以進行識別和控制,最終的識別及響應(yīng)可以在本地或遠程的屏幕上顯示。其中,該深度攝像頭11可以是紅外攝像頭,能夠獲取場景的深度圖像。計算機系統(tǒng)12可以是個人計算機(PC)或任何其它具有數(shù)據(jù)處理能力的計算機、服務(wù)器或數(shù)字信號處理器(DSP)等等,針對深度攝像頭11所獲取并導入的深度圖像序列,計算機系統(tǒng)12可以實施為按照本發(fā)明實施例的基于深度圖像序列的對象運動模式識別設(shè)備,或者也可以用來實施按照本發(fā)明實施例的基于深度圖像序列的對象運動模式識別方法。圖2是示出按照本發(fā)明實施例的基于深度圖像序列的對象運動模式識別方法的總體流程圖。如圖2所示,本發(fā)明實施例的對象運動模式識別方法可以包括:前景確定步驟S100,可以在所述深度圖像序列的各幀深度圖像中確定前景對象區(qū)域;差分步驟S200,可以計算各幀深度圖像中各個像素的深度值與其相鄰幀深度圖像中鄰域像素的深度值之間的差分,以獲得鄰域深度值差分矢量;量化編碼步驟S300,可以根據(jù)各幀深度圖像及其相鄰幀深度圖像的前景對象區(qū)域確定感興趣區(qū)域,將感興趣區(qū)域中各個像素的鄰域深度值差分矢量量化編碼為鄰域深度值差分碼;區(qū)域劃分步驟S400,可以將各幀深度圖像中感興趣區(qū)域劃分為多個子區(qū)域;分布描述步驟S500,可以根據(jù)各幀深度圖像中感興趣區(qū)域的子區(qū)域中各個像素的鄰域深度值差分碼,獲得該子區(qū)域的鄰域深度值差分碼分布特征向量;識別步驟S600,可以根據(jù)各幀深度圖像中感興趣區(qū)域的子區(qū)域的鄰域深度值差分碼分布特征向量的組合,識別該感興趣區(qū)域所對應(yīng)對象的運動模式。在前景確定步驟S100,依次針對讀入的各個深度圖像,分割出前景對象,找到感興趣前景對象在輸入深度圖像中所占的前景對象區(qū)域。換言之,每個前景區(qū)域中的像素都來自于對象。前景確定步驟Sioo可以通過本領(lǐng)域公知的現(xiàn)有技術(shù)手段實現(xiàn),下面,為了處理過程說明的完整,作為示例而描述前景確定步驟Sioo的過程。首先,通過背景初始化來對整個背景區(qū)域進行建模。一種可能的實現(xiàn)是將前景對象還沒有進入的前幾幀圖像進行平均,從而得到背景圖B(X,y),其中(X,y)是像素點空間坐標。然后,進行背景減除,將當前t時刻的圖像D((x,y) ;t)與B(x,y)相比,將顯著差異的點作為前景點。具體而言,若某像素點(x0,y0)滿足B(x0,y0)-D((x0,y0) ;t) | > T,則該像素點(x0,y0)是前景點,否則即為背景點,其中T為根據(jù)經(jīng)驗所得的閾值。然后,進行前景點聚類,將所有的前景點被依照其空間距離聚合成幾個連通的聚類。面積過小的聚類往往由噪聲引起,需要將其去除。剩余的聚類則由前景對象所引發(fā)。然后,進行聚類對象跟蹤以將每個被跟蹤的對象與當前的前景點聚類建立對應(yīng),從而更新對象在當前時刻的狀態(tài)。一種可能的實現(xiàn)是計算上一幀跟蹤對象位置與當前幀聚類的距離,取其最小值以建立對應(yīng)關(guān)系。沒有與現(xiàn)有跟蹤對象建立對應(yīng)的聚類,意味著新進入的對象;反之,沒有與現(xiàn)有聚類建立對應(yīng)的對象,意味著對象的退出。然后,進行背景更新來依照當前幀深度圖像D((x,y) ;t)修正背景深度圖像B(x,y)。一種可能的實現(xiàn)是對所有背景點(xl,yl)根據(jù)B(xl, yl) + A D((xl, yl) ;t) — B(xl,yl)來更新,其中λ是更新參數(shù)。最后,依照前景 點聚類與跟蹤對象之間的對應(yīng)關(guān)系進行對象列表更新,以更新對象列表中的對象及其狀態(tài)。通過前景確定步驟Sioo進行前景對象的提取及前景對象區(qū)域的確定,得到各幀的前景圖,F(xiàn)((x,y),t) e {0,1}為t時刻前景圖,I代表相應(yīng)像素處于前景,O代表相應(yīng)像素處于背景。上述的在深度圖像中確定對象的過程可以通過本領(lǐng)域技術(shù)人員熟知的技術(shù)手段來實現(xiàn),在本申請中為了說明的完整性而引入,因此未贅述其細節(jié)。然后,針對已經(jīng)確定對象的各幀深度圖像,由差分步驟S200通過當前像素點與其時空鄰域像素點的深度值差分來描述該像素的運動信息。其中,時空鄰域是由時間空間上與當前像素點位置相近的點組成。所有的時空鄰域點與當前像素點的深度差,構(gòu)成鄰域深度值差分(Contextual Depth Difference,CDD)。在此,CDD是矢量,其維數(shù)與時空鄰域的點數(shù)相同,也就是當前像素與一個鄰域像素的深度值之差作為該CDD矢量的一個分量。下面結(jié)合圖3說明不同的時空鄰域定義,這些不同的定義對應(yīng)CDD的不同實現(xiàn)方式。圖3包括圖3A至圖3D,分別示意性地示出鄰域深度值差分矢量的實現(xiàn)方式。一種⑶D矢量的實現(xiàn)方式可以是,在差分步驟S200中,與各幀深度圖像的各個像素位置相同的相鄰幀深度圖像中的像素是所述鄰域像素。圖3A和圖3B分別為示出此種實現(xiàn)方式下的不同實施方式的示意圖。如圖3A所示,一種可能的實現(xiàn)是后向空域差分,即D((x,y) ;t)_D((x,y)在此點(x,y)代表當前幀深度圖像的像素點,t代表當前幀的時刻,該像素點的鄰域為上一幀時刻t-Ι相同位置的像素點,D((x, y) ;t)代表當前幀各個像素點的像素值,在此深度圖像的情況下為該像素點的深度值。后向空域差分為當前幀中像素點的深度值D((x,y) ;t)減去前一幀中相同位置的像素點的深度值D ((X,y) ;t-l)。在圖3B所示的情況下,其實現(xiàn)方式為把鄰域定義為前后兩幀的相同位置點,從而計算得到 2 維 CDD 矢量[D((x,y) ;t)-D((x,y) ;t_l), D ((x, y) ;t)-D((x,y) ;t+l)],類似于關(guān)于圖3A所作的說明,點(x,y)代表當前幀深度圖像的像素點,t代表當前幀的時刻,該像素點鄰域為上一幀時刻t-Ι及下一幀時刻t+Ι相同位置的像素點,D((x,y) ;t)代表當前幀各個像素點的深度值,分別減去上一幀及下一幀相同位置的像素點的深度值作為所得2維CDD矢量的分量。以上兩種鄰域定義只用到了時間上的相鄰點,作為上述手段的替代,也可以利用空間相鄰點作為鄰域像素。也就是,另一種CDD矢量的實現(xiàn)方式可以是,在差分步驟S200中,與各幀深度圖像的各個像素位置相同的相鄰幀深度圖像中的像素及其周圍像素構(gòu)成所述鄰域像素。圖3C和圖3D分別為示出此種實現(xiàn)方式下的不同實施方式的示意圖。圖3C所示情況可以視為把圖3A中鄰域像素為后向空間相同點的情況推廣為鄰域像素為后向空間相鄰點。在此情況下所得的⑶D矢量為[D((x,y) ;t)-D((x-Ax, y-Δγ);t_l)]。在如圖3C所示的取前一幀相同位置像素點及其4鄰域點作為鄰域像素的情況下,(Δχ, Δγ)的每個坐標取{_1,0,1},從而構(gòu)成5維矢量。本領(lǐng)域技術(shù)人員能夠根據(jù)上文的描述類似地建立此5維CDD矢量。本領(lǐng)域技術(shù)人員可以認識到,也可以取前一幀相同位置像素點及其8鄰域點作為鄰域像素。類似地,也可以如圖3D所示,同時采用前后向空間鄰域點,從而其鄰域深度差分CDD為D((x,y) ;t)-D((x-Ax, y-Δγ)在如圖3D所示的取前后幀相同位置像素點及其4鄰域點作為鄰域像素的情況下,其中(ΛΧ,Δγ)的每個坐標取{_1,0,1},而At取{-1,1},構(gòu)成10維矢量。本領(lǐng)域技術(shù)人員能夠根據(jù)上文的描述類似地建立此10維⑶D矢量。本領(lǐng)域技術(shù)人員可以認識到,也可以取`前后幀相同位置像素點及其8鄰域點作為鄰域像素。本領(lǐng)域技術(shù)人員可以認識到,還有其它很多可能的時空鄰域選擇??傮w上,⑶D中選用鄰域點越多,其所包含的運動信息越豐富,但其復雜度也會增加。在通過差分步驟S200計算各幀深度圖像中各個像素的鄰域深度值差分矢量(⑶D矢量)之后,由量化編碼步驟S300將各個鄰域深度值差分矢量量化編碼為鄰域深度值差分碼(CDD碼)。在量化編碼步驟S300,可以逐像素地確定鄰域深度值差分碼,然而,由于在各幀圖像中,對象通常僅占據(jù)一部分區(qū)域,逐像素地確定鄰域深度值差分碼會造成大量的無意義的運算,因此,在此可以考慮利用前述前景確定步驟SlOO所確定的各幀深度圖像中對象所占據(jù)的前景區(qū)域,來為各巾貞深度圖像確定出感興趣區(qū)域(Region of Interest, ROI),對于各幀深度圖像來說,“量化編碼”僅針對該幀的感興趣區(qū)域,或者說感興趣區(qū)域中的像素(可以稱為感興趣像素)來進行。“量化編碼”用來將“感興趣像素”的⑶D矢量量化成一系列代表該像素領(lǐng)域中運動模式的鄰域深度值差分碼(CDD碼)。而“感興趣像素”指的是其計算鄰域深度值差分的過程中涉及的當前幀及其相鄰幀的像素點。以R(t)表示t時刻幀(當前幀)的前景對象區(qū)域,R(t-l)表示t-Ι時刻幀(前一幀)與t時刻的前景對象區(qū)域相同位置的區(qū)域,R(t+1)表示t+1時刻幀(后一幀)與t時刻的前景對象區(qū)域相同位置的區(qū)域。以采用后向差分計算鄰域深度值差分的圖3A及圖3C為例,其t時刻的“感興趣像素”區(qū)域為R(t-l) U R(t);圖3B及圖3D情況下t時刻的“感興趣像素”區(qū)域為R(t-l) U R(t) U R(t+1)。也就是,在后向差分的情況下,某當前幀深度圖像中感興趣區(qū)域為該當前幀的對象的前景區(qū)域并上前一幀深度圖像中該對象的前景區(qū)域在該當前幀中的對應(yīng)區(qū)域,在前后向差分的情況下,某當前幀深度圖像中感興趣區(qū)域為該當前幀的對象的前景區(qū)域并上前一幀深度圖像中該對象的前景區(qū)域在該當前幀中的對應(yīng)區(qū)域再并上后一幀深度圖像中該對象的前景區(qū)域在該當前幀中的對應(yīng)區(qū)域。簡言之,某當前幀深度圖像中感興趣區(qū)域為當前幀的前景對象區(qū)域并其在差分步驟S200的運算中涉及到的相鄰幀的區(qū)域在該當前幀中的對應(yīng)區(qū)域。通過量化編碼步驟S300將鄰域深度差分矢量進行量化,可以消除噪聲,壓縮信息,提高后續(xù)識別速度;而只考慮“感興趣像素”是因為只有這些區(qū)域的鄰域差分與對象有關(guān),這樣可以減小處理負擔,提高處理速度。量化編碼的方法可以有很多。一種可能的實現(xiàn)是對鄰域深度值差分矢量的每一個維度(分量)分別進行量化,而后組合成最終的量化編碼。在量化編碼步驟S300中,各幀深度圖像中感興趣區(qū)域中各個像素的鄰域深度值差分矢量至少包括代表對象在該像素點消失的分量、代表對象在該像素點出現(xiàn)的分量、及代表對象在該像素點深度變化的分量??梢酝ㄟ^考慮前景確定步驟SlOO獲得的各個時刻(各幀)的前景圖像F((x,y),t)的以下情況:(1)當前幀(t時刻)的深度圖的某個像素,其位置在前一幀(t-1時刻)屬于前景對象(即為前一幀對象區(qū)域的像素),而在當前幀不屬于該前景對象;(2)當前幀(t時刻)的深度圖的屬于前景對象的某個像素(對象區(qū)域的像素),其位置在前一幀(t-1時亥IJ)不屬于該前景對象。此情況(I)可以表示為前景消失(F-),而情況(2)可以表示為前景出現(xiàn)(F+)。由于前景確定步驟SlOO已經(jīng)獲得的各幀的前景圖像F((x,y),t),因此可以容易地判斷出當前幀深度圖像的感興趣區(qū)域中像素是否屬于這兩種情況。或者,由于在前景消失(F-)及前景出現(xiàn)(F+)這兩種情況下,像素點的深度差分值或正或負但絕對值都會比較大,因此也可以通過經(jīng)驗閾值判斷出感興趣區(qū)域中的像素是否屬于這兩種情況。在此情況下,還可以通過將背景像素的深度值一律賦為O甚至負無窮,甚至可以不設(shè)定閾值既可以判斷出像素是否屬于這兩種情況。除了前景消失(F-)及前景出現(xiàn)(F+)這兩種情況,感興趣區(qū)域的像素會有深度值發(fā)生變化的情況,因此,一種基本的量化編碼的方案是將深度量化成5個級別,分別表示為深度不變(Dtl),深度增加(D+),深度減少(D-),前景消失(F-),前景出現(xiàn)(F+)。仍然設(shè)D((x,y) ;t)代表t時刻當前幀深度圖像,其各個像素值為深度值,前景圖像F((x,y),t)表示相應(yīng)前景圖像,前景區(qū)域像素值為1,非前景區(qū)域像素值為0,對于當前中貞感興趣區(qū)域中的點((X,y),t),與其作深度值差分的鄰域點為((x+Ax,y+Ay),t+At),則上述5個級別的量化表示為以下公式(I):F+: {F ((X,y), t) = I and F ((χ+ Δ x, y+ Δ y), t+ Δ t) =0};F-: {F ((χ, y), t) = O and F ((χ+ Δ χ, y+ Δ y), t+ Δ t) =1};
D+: {D ((x, y) , t)-D ((χ+Δ χ, y+Δ y) , t+Δ t)彡 Td} Π {F ((χ, y) , t) = IandF ((χ+ Δ χ, y+ Δ y) , t+ Δ t) = 1};D-: {D ((χ, y) , t) -D ((χ+ Δ χ, y+ Δ y) , t+ Δ t) <_Td} Π {F ((χ, y) , t) = IandF ((χ+ Δ χ, y+ Δ y) , t+ Δ t) = 1};D0: {I D ((χ, y) , t) -D ((χ+ Δ χ, y+ Δ y) , t+ Δ t) ^ Tdj Π {F((x, y) , t) = IandF ((χ+ Δ χ, y+ Δ y) , t+ Δ t) = 1}.(I)其中的閾值Td可以濾除一些由噪聲引起的微小深度變化,其與攝像機性能以及對象距離有關(guān),一般對距離為I 2米的對象而言,Td可以取為I厘米以內(nèi),例如0.5厘米,其中“and”表示“并且”。量化級F+和F-包含了因物體運動帶來的形狀變化信息,而D+和D-則包含了物體區(qū)域內(nèi)部的細節(jié)變化。在D+和D-中較大的量化區(qū)域,可以保證運動識別的速度不變性,因為其只反映深度值變化的方向。F+、F-、D+和D-包含了非常重要的運動信息。下面結(jié)合圖4進行示意性地說明。圖4包括圖4A和圖4B,分別示意性地說明對象運動所造成的深度值差分的量化編
碼結(jié)果。假設(shè)一個矩形對象在Z方向移近相機,且伴有X-Y平面的右移。圖4A非常清晰地反映出其前景區(qū)域的深度變化,一些左側(cè)的前景區(qū)域伴隨著右移而消失(F-);而右側(cè)有前景區(qū)域伴隨右移而出現(xiàn)(F+),此外,重疊部分的深度則因Z方向的前移而減少(D-)。圖4B反映對象后移的情況,其量化區(qū)域可以類推。一些右側(cè)的前景區(qū)域伴隨著左移而消失(F-);而左側(cè)有前景區(qū) 域伴隨左移而出現(xiàn)(F+),此外,重疊部分的深度則因Z方向的后移而增大(D+)。本領(lǐng)域技術(shù)人員可以認識到,各種其它的對象運動,如平移,旋轉(zhuǎn)等,都會引發(fā)相應(yīng)的鄰域深度值差分圖。由于不同的運動會引發(fā)不同的深度值差分,從而可以用深度值差分的時空分布來區(qū)分不同的運動。公式(I)中的5個量化級足以描述和區(qū)分大部分運動。作為本發(fā)明實施例的進一步改進,可以考慮當深度圖噪聲較小時,采用更多的量化級來區(qū)分更加復雜的運動。在量化編碼步驟S300中,各幀深度圖像中感興趣區(qū)域中各個像素的鄰域深度值差分矢量中的深度差分值可以分別量化編碼為一個碼值。在上述公式(I)體現(xiàn)的量化編碼方案中,CDD矢量的每個深度差分值分別量化編碼為一個碼值,然而本發(fā)明不限于此,而是例如可以將D+、D-及Dtl進一步細化表示為Dn,通過以下公式(2)來進行深度差分值的量化編碼。F+: {F ((X,y), t) = I and F ((χ+ Δ χ, y+ Δ y), t+ Δ t) =0};F-: {F ((χ, y), t) = O and F ((χ+ Δ χ, y+ Δ y), t+ Δ t) =1}; Dn: {Βη 彡 D ((χ, y), t) -D ((χ+ Δ χ,y+ Δ y), t+Δ t) < Βη+1} Π {F((x, y), t) = IandF ((χ+ Δ χ, y+ Δ y) , t+ Δ t) = 1}.(2)其中各量的含義與公式⑴中相同,設(shè)差分值d = D((x,y),t)_D((x+Ax,y+Ay),Bn、Bn+1……為用于確定級別的閾值,如果d屬于(Bn,Bn+1],則量化為Dn,η = -N,...0,...N,N為自然數(shù),取決于所設(shè)定的量化級別數(shù)量。圖5包括圖5Α和圖5Β,分別示意性地示出對深度差分值進行量化編碼的方案。其中,圖5A示出在采用上述公式(2)的情況下對深度差分值d進行量化的級別確定方式,其中,數(shù)軸劃分為一系列互不重合的區(qū)域Dn,根據(jù)深度差分值d落入的由Bn所劃分的區(qū)間,來
確定其量化值Dn。在前述量化編碼方案中,每個鄰域深度值差分矢量會被量化成唯一的一個編碼,這樣的方案可以稱為“硬量化”實現(xiàn)方案。作為上述方案的替代,本發(fā)明實施例還可以采用“軟量化”的方式,即,在量化編碼步驟S300中,各幀深度圖像中感興趣區(qū)域中各個像素的鄰域深度值差分矢量中的深度差分值可以分別量化編碼為多個碼值,并賦予分別隸屬于多個碼值的權(quán)重。也就是,每個鄰域深度值差分矢量會以相應(yīng)的權(quán)重%量化到幾個編碼Dn,權(quán)重Wn彡O滿足歸一化性質(zhì),即Σ wn = 10圖5B示意性地示出對深度差分值d進行軟量化的級別確定方式,不同的量化等級Dn由量化權(quán)重函數(shù)(權(quán)函數(shù))wn(d)所唯一表示,其中wn(d) > O,且滿足歸一化條件Σ wn(d) ^ I。權(quán)函數(shù)Wn(d)體現(xiàn)了深度值差分d可以被量化到Dn的權(quán)重,而Σ wn(d) ^ 1,wn(d) ^ O則意味著量化到各個Dn的權(quán)重滿足概率分布函數(shù)的條件。圖5A所示意的“硬量化”可以視為圖5B所示意的“軟量化”的特殊情況。對任意深度值差分d而言,在“硬量化”的情況下只有一個權(quán)函數(shù)Wn(d)的值等于1,其余為零。換而言之,硬量化將每個深度值差分d量化到唯一的量化級別;而軟量化將 每個深度值差分以一定的權(quán)重wn(d)量化到多個量化級別。在圖5B所示的情況下,每個具體的d值如果落入Dn的非重疊部分,則量化為相應(yīng)的Dn,如果落入兩個Dn(例如Dn和Dn+1)的重疊部分,則量化到Dn和Dn+1,分別具有量化到Dn的權(quán)重wn(d)和量化到Dn+1的權(quán)重wn+1(d),且'((1)+¥11+1((1) = I。由于圖5B所示的情況下,至多出現(xiàn)兩個區(qū)間相重疊的情況,因此深度值差分d至多可能量化到兩個級別,并分別具有權(quán)重。然而,本發(fā)明實施例不限于此,而是也可以采用其它的軟量化方案,例如出現(xiàn)更多的區(qū)間相重疊的情況,在此情況下,深度值差分d至多可能量化到重疊數(shù)目的級別,并分別具有權(quán)重,權(quán)重之和為I。經(jīng)過量化編碼步驟S300的處理,獲得各幀深度圖像的感興趣區(qū)域中各個像素的CDD碼,在上述所謂“硬量化”的情況下,CDD碼具有與相應(yīng)的CDD矢量相同的維度。在“軟量化”的情況下,CDD矢量的分量可能以不同權(quán)重量化編碼到不同級別,均體現(xiàn)在CDD碼中。通過上文的描述,本領(lǐng)域技術(shù)人員可以認識到,盡管按順序描述了各個步驟,然而,前景確定步驟SlOO和差分步驟S200可以相互獨立地執(zhí)行,只要在量化編碼步驟S300之前。然后,在區(qū)域劃分步驟S400將各幀深度圖像中感興趣區(qū)域劃分為多個子區(qū)域。通過將對象所占的感興趣區(qū)域劃分成一系列子區(qū)域,以保證整個對象運動的時空結(jié)構(gòu)。取決于具體的應(yīng)用情景,感興趣區(qū)域劃分可以有很多不同的實現(xiàn)方案。例如,在區(qū)域劃分步驟S400,可以以各幀深度圖像相互獨立的方式,將感興趣區(qū)域在相應(yīng)的深度圖像所占據(jù)的二維空間區(qū)域分別劃分為多個子區(qū)域。圖6包括圖6A至圖6C,分別示意性地示出在某一幀深度圖像中,將XY 二維空間區(qū)域分別劃分為多個子區(qū)域的不同方式。圖6A的劃分方式可用應(yīng)用于基于徑向分布的運動。例如,手指是徑向分布在掌心周圍,因此以手臂方向為主軸的徑向區(qū)域劃分有利于手勢識別。如果離中心的距離對運動識別也很重要的話,則可以將徑向劃分與環(huán)狀劃分相結(jié)合,圖6B的劃分方式適用于此種情況。圖6C的矩形劃分也是一種劃分方式,即將感興趣區(qū)域劃分成一系列的矩形子區(qū)域。圖7包括圖7A和圖7B,示出了采用圖6C所示的區(qū)域劃分方式來分別應(yīng)用于識別圖4A和圖4B的對象運動模式的情況。圖8示出了將圖6A所示的區(qū)域劃分方式應(yīng)用于關(guān)于手對象的示例,其中箭頭代表主方向,可以通過本領(lǐng)域熟知的主成分分析獲得,以用于進行關(guān)于手勢的運動模式識別。上述感興趣區(qū)域劃分方案是在空間域上進行的劃分,本發(fā)明實施例可以采用的劃分方案不限于此。例如,在區(qū)域劃分步驟S400,可以在連續(xù)多幀深度圖像中,將感興趣區(qū)域在連續(xù)多幀深度圖像中所占據(jù)的三維時間空間區(qū)域劃分為多個子區(qū)域。也就是,可以推廣到時空域(在XY 二維空間的基礎(chǔ)上進一步考慮時間t而構(gòu)成3維時空)進行感興趣區(qū)域劃分。即將對象在相鄰幾幀所占的3維時空區(qū)域進行劃分,這種劃分可以是多尺度劃分,即對同一感興趣區(qū)域按照不同的尺度(即子區(qū)域大小)進行劃分。圖9包括圖9A至圖9D,圖9A示意性地示出感興趣區(qū)域在相鄰多幀所占的3維時空區(qū)域,圖9B至圖9D分別示出在不同的尺度下對感興趣區(qū)域在相鄰多幀所占的3維時空區(qū)域進行劃分的方式。在通過區(qū)域劃分步驟S400將各幀深度圖像的感興趣區(qū)域劃分為多個子區(qū)域之后,在分布描述步驟S500,根據(jù)各幀深度圖像中感興趣區(qū)域的子區(qū)域中各個像素的鄰域深度值差分碼,獲得該子區(qū)域的鄰域深度值差分碼分布特征向量。具體地,在分布描述步驟S500中,對于在區(qū)域劃分步驟S400所得到的各個子區(qū)域,可以利用統(tǒng)計矩描述各個鄰域深度值差分碼在該子區(qū)域中的分布,將所有鄰域深度值差分碼的統(tǒng)計矩作為該子區(qū)域的鄰域深度值差分碼分布特征向量。分布描述步驟S500針對各幀深度圖像的每個子區(qū)域中的各個感興趣像素的⑶D碼,獲得鄰域深度值差分碼分布(⑶D Distribution,⑶DD)特征,此⑶DD特征為向量,可以描述各種CDD碼在該子區(qū)域的分布。對象在現(xiàn)實中的運動將在每個子區(qū)域產(chǎn)生相應(yīng)的深度變化,該深度變化可以通過CDD碼的分布所表示,而CDD碼的分布可以通過CDDD特征來描述,因此,如果在此步驟或隨后的步驟中進一步地將每個子區(qū)域的⑶DD特征合并起來,就能夠描述對象的整體運動模式。本發(fā)明實施例的分布描述步驟S500可以選擇利用統(tǒng)計矩的方案來實現(xiàn)用CDDD特征向量Vm來描述CDD碼在子區(qū)域j的分布,其中,j為索引值,自然數(shù),代表子區(qū)域的編號,假定某個感興趣區(qū)域分成了 J個子區(qū)域,則I < j < J;i也為索引值,自然數(shù),代表CCD碼的編號,假定選定I個⑶D碼,則編號i為I彡i彡I。⑶D碼至少包括體現(xiàn)前述的F-、F+、及各個Dn的碼值,在前文中,η = -N,...0,...N,在此,所有碼值編為KiS I,包含上述各個碼值。
可以用權(quán)函數(shù)Wi,」(χ,y)表示在子區(qū)域j中的感興趣像素(X,y)被量化到CXD碼Di的權(quán)重,該權(quán)重可以是由前述量化編碼步驟S300中量化權(quán)重函數(shù)(權(quán)函數(shù))對像素點鄰域深度差分值指定的權(quán)重。根據(jù)前述量化權(quán)重函數(shù)的非負性和歸一化性,可知對于每一個i,j而言,Wq(x,y)是在子區(qū)域j中CXD HDi權(quán)重的分布函數(shù);此外,由量化權(quán)重函數(shù)的歸一化性,可知Σy) = 1,即對任一個感興趣像素點(x,y)而言,其分布在所有CXDHDi的權(quán)重之和為I。本領(lǐng)域技術(shù)人員已知的是,對于任意的k維函數(shù)f (z),z = (z1;...,Zk),如果滿足f (Z)≥O,且Σ zf (z)dz <0°,則f (z)是一個分布函數(shù)。對于k維分布函數(shù)f (z), z = (Z1,..., zk)而言,其 P 階統(tǒng)計矩 Mp = Σ Z[zp.f (z)],此處 P= (pi,…,pk),
權(quán)利要求
1.一種基于深度圖像序列的對象運動模式識別方法,包括: 前景確定步驟,在所述深度圖像序列的各幀深度圖像中確定前景對象區(qū)域; 差分步驟,計算各幀深度圖像中各個像素的深度值與其相鄰幀深度圖像中鄰域像素的深度值之間的差分,以獲得鄰域深度值差分矢量; 量化編碼步驟,根據(jù)各幀深度圖像及其相鄰幀深度圖像的前景對象區(qū)域確定感興趣區(qū)域,將感興趣區(qū)域中各個像素的鄰域深度值差分矢量量化編碼為鄰域深度值差分碼;區(qū)域劃分步驟,將各幀深度圖像中感興趣區(qū)域劃分為多個子區(qū)域; 分布描述步驟,根據(jù)各幀深度圖像中感興趣區(qū)域的子區(qū)域中各個像素的鄰域深度值差分碼,獲得該子區(qū)域的鄰域深度值差分碼分布特征向量; 識別步驟,根據(jù)各幀深度圖像中感興趣區(qū)域的子區(qū)域的鄰域深度值差分碼分布特征向量的組合,識別該感興趣區(qū)域所對應(yīng)對象的運動模式。
2.按照權(quán)利要求1所述的對象運動模式識別方法,其中,在所述差分步驟中,與各幀深度圖像的各個像素位置相同的相鄰幀深度圖像中的像素是所述鄰域像素。
3.按照權(quán)利要求1所述的對象運動模式識別方法,其中,在所述差分步驟中,與各幀深度圖像的各個像素位置相同的相鄰幀深度圖像中的像素及其周圍像素構(gòu)成所述鄰域像素。
4.按照權(quán)利要求1所述的對象運動模式識別方法,其中,在所述量化編碼步驟中,各幀深度圖像中感興趣區(qū)域中各個像素的鄰域深度值差分矢量至少包括代表對象在該像素點消失的分量、代表對象在該像素點出現(xiàn)的分量、及代表對象在該像素點深度變化的分量。
5.按照權(quán)利要求1所述的對象運動模式識別方法,其中,在所述量化編碼步驟中,各幀深度圖像中感興趣區(qū)域中各個像素的鄰域深度值差分矢量中的深度差分值分別量化編碼為一個碼值。
6.按照權(quán)利要求1所述的對象運動模式識別方法,其中,在所述量化編碼步驟中,各幀深度圖像中感興趣區(qū)域中各個像素的鄰域深度值差分矢量中的深度差分值分別量化編碼為多個碼值,并賦予分別隸屬于多個碼值的權(quán)重。
7.按照權(quán)利要求1所述的對象運動模式識別方法,其中,在所述區(qū)域劃分步驟,以各幀深度圖像相互獨立的方式,將感興趣區(qū)域在相應(yīng)的深度圖像所占據(jù)的二維空間區(qū)域分別劃分為多個子區(qū)域。
8.按照權(quán)利要求1所述的對象運動模式識別方法,其中,在所述區(qū)域劃分步驟,在連續(xù)多幀深度圖像中,將感興趣區(qū)域在連續(xù)多幀深度圖像中所占據(jù)的三維時間空間區(qū)域劃分為多個子區(qū)域。
9.按照權(quán)利要求1所述的對象運動模式識別方法,其中,在所述分布描述步驟中,對于在所述區(qū)域劃分步驟所得到的各個子區(qū)域,利用統(tǒng)計矩描述各個鄰域深度值差分碼在該子區(qū)域中的分布,將所有鄰域深度值差分碼的統(tǒng)計矩作為該子區(qū)域的鄰域深度值差分碼分布特征向量。
10.一種基于深度圖像序列的對象運動模式識別設(shè)備,包括: 前景確定裝置,在所述深度圖像序列的各幀深度圖像中確定前景對象區(qū)域; 差分裝置,計算各幀深度圖像中各個像素的深度值與其相鄰幀深度圖像中鄰域像素的深度值之間的差分,以獲得鄰域深度值差分矢量; 量化編碼裝置,根據(jù)各幀深度圖像及其相鄰幀深度圖像的前景對象區(qū)域確定感興趣區(qū)域,將感興趣區(qū)域中各個像素的鄰域深度值差分矢量量化編碼為鄰域深度值差分碼; 區(qū)域劃分裝置,將各幀深度圖像中感興趣區(qū)域劃分為多個子區(qū)域; 分布描述裝置,根據(jù)各幀深度圖像中感興趣區(qū)域的子區(qū)域中各個像素的鄰域深度值差分碼,獲得該子區(qū)域的鄰域深度值差分碼分布特征向量; 識別裝置,根據(jù)各幀深度圖像中感興趣區(qū)域的子區(qū)域的鄰域深度值差分碼分布特征向量的組合,識別該感 興趣區(qū)域所對應(yīng)對象的運動模式。
全文摘要
提出一種基于深度圖像序列的對象運動模式識別方法,包括前景確定步驟,在各幀深度圖像中確定前景對象區(qū)域;差分步驟,計算各幀深度圖像中各個像素的深度值與其鄰域像素的深度值之間的差分,以獲得鄰域深度值差分矢量;量化編碼步驟,根據(jù)前景對象區(qū)域確定感興趣區(qū)域,將感興趣區(qū)域中各個像素的鄰域深度值差分矢量量化編碼為鄰域深度值差分碼;區(qū)域劃分步驟,將感興趣區(qū)域劃分為多個子區(qū)域;分布描述步驟,根據(jù)各個像素的鄰域深度值差分碼,獲得子區(qū)域的鄰域深度值差分碼分布特征向量;識別步驟,根據(jù)鄰域深度值差分碼分布特征向量的組合,識別感興趣區(qū)域所對應(yīng)對象的運動模式。還相應(yīng)地提出一種基于深度圖像序列的對象運動模式識別設(shè)備。
文檔編號G06K9/00GK103208006SQ20121001471
公開日2013年7月17日 申請日期2012年1月17日 優(yōu)先權(quán)日2012年1月17日
發(fā)明者章鵬, 李滔, 熊懷欣 申請人:株式會社理光