亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于跨域?qū)W習的跨視角動作識別方法與流程

文檔序號:11276785閱讀:569來源:國知局
一種基于跨域?qū)W習的跨視角動作識別方法與流程

本發(fā)明涉及跨視角動作識別領(lǐng)域,尤其涉及一種基于跨域?qū)W習的跨視角動作識別方法。



背景技術(shù):

動作識別是計算機視覺領(lǐng)域的一個研究熱點,其中人體動作識別已經(jīng)吸引了越來越多的關(guān)注,它在視頻監(jiān)控,異常事件監(jiān)測和人機交互中起著重要作用。近年來已有很多優(yōu)秀的方法成功應(yīng)用在單視圖人類行為數(shù)據(jù)集[1,2,3]中,但是現(xiàn)有的動作識別方法大多基于同一視角的假設(shè),在固定的視角場景中提取動作特征并構(gòu)建識別模型。而在真實的應(yīng)用場景中,由于攝像機角度和位置的變化,同一動作的人體形態(tài)和運動軌跡均會發(fā)生顯著的變化,相應(yīng)的數(shù)據(jù)分布和所在的特征空間也會發(fā)生改變。因此,在多個視角中進行跨視角的動作識別仍然是一個具有挑戰(zhàn)性的課題。

近年來,許多研究人員開始關(guān)注跨視角人類行為識別。人類行為是一種時空模型,所以存在兩個重要的問題,分別是魯棒的時空特征和視覺模型的建模。

在特征表示方面,很多研究方法都是基于局部興趣點的。時空顯著性的流行特征是時空興趣點(spacetimeinterestpoints,stip)特征[4],它使用導向光流直方圖(histogramsoforientedopticalflow,hof)[5]和方向梯度直方圖(histogramoforientedgradient,hog)[6]的局部梯度和光流的分布;shao等人[7]提出了隱藏和嵌入動作識別不同的特征表示,用不同權(quán)重對不同特征進行編碼以實現(xiàn)低維和魯棒的特征,從而提高識別的準確性;rao等人[8]提出使用2d幀的時空結(jié)構(gòu)捕獲動作的戲劇性變化,這種方法需要可靠的身體關(guān)節(jié)檢測和跟蹤,這在計算機視覺中仍然很困難;最近,zheng等人[9]提出通過稀疏編碼提取高級特征以減少不同視圖之間的特征差異。

在模型學習方面,傳統(tǒng)的跨域?qū)W習方法是基于目標域和輔助域具有相同分布的假設(shè),然而這個假設(shè)在多視圖人類行為識別中是不現(xiàn)實的。wang等人[10]使用重新加權(quán)的方法重新定義訓練樣本進行學習,減少兩個領(lǐng)域之間的特征差距,同時應(yīng)用自學方法尋找新的特征表示,以提高目標域的學習表現(xiàn);xu等人[11]提出了一種改良的域轉(zhuǎn)移支持向量機(domaintransfersupportvectormachine,dtsvm)學習方法,它利用兩個域之間的距離矩陣作為訓練分類器的懲罰函數(shù),在網(wǎng)絡(luò)視頻概念檢測中表現(xiàn)出很好的性能;zhu等人[12]提出了一種跨域字典弱監(jiān)督學習方法,利用其他視域的弱標記數(shù)據(jù)作為輔助源數(shù)據(jù),以增強原始學習系統(tǒng),提高識別性能。

跨視角人體動作識別目前需要解決的兩個關(guān)鍵問題是:

1)采用魯棒的特征描述符來表征來自不同視角的人體動作;

2)采用優(yōu)秀的機器學習方法,減少從不同視圖提取的動作特征之間的差異。



技術(shù)實現(xiàn)要素:

本發(fā)明提供了一種基于跨域?qū)W習的跨視角動作識別方法,本發(fā)明避免了傳統(tǒng)動作識別場景中對攝像機空間位置信息的依賴,應(yīng)用兩個變換矩陣使不同的視角域映射到一個共同的特征空間,有效地提高了跨視角動作識別的準確率,詳見下文描述:

一種基于跨域?qū)W習的跨視角動作識別方法,所述方法包括以下步驟:

對目標域和源域的視頻數(shù)據(jù)分別提取視覺特征,采用視覺詞袋模型作為視覺表示,形成原始特征向量集;

通過變換矩陣將來自不同視圖的原始特征變換到公共特征空間中,將原始特征和變換特征結(jié)合,分別形成目標域和源域新的特征映射函數(shù),構(gòu)成新的特征向量集;

采用基于標準支持向量機的跨域?qū)W習方法訓練變換矩陣,并為每個人體動作生成最終分類器;利用分類器對待測視頻進行動作類別的判定,得到最終的識別結(jié)果。

其中,所述方法還包括:

采集不同視角下的人體動作視頻數(shù)據(jù),構(gòu)建多視角的人體動作數(shù)據(jù)集,從人體動作數(shù)據(jù)集中選擇一個視角作為目標域,其他數(shù)據(jù)作為源域。

其中,所述采用視覺詞袋模型作為視覺表示,形成原始特征向量集的步驟具體為:

利用k均值分別將目標域、源域的特征描述符量化為若干個視覺詞匯,形成碼本;

根據(jù)碼本生成直方圖,形成目標域原始特征向量集和源域原始特征向量集。

本發(fā)明提供的技術(shù)方案的有益效果是:

1、避免了采集動作視頻時對攝像機空間位置信息的依賴,可以用來處理跨視角人體動作數(shù)據(jù)庫的動作識別問題,具有更廣泛的適用性;

2、采用兩個變換矩陣做特征映射,減少了不同域之間的差異,同時增加了訓練樣本的大小,提高分類器的性能;

3、模型學習中使用塊加權(quán)核函數(shù)矩陣(即后續(xù)的核矩陣)來突出顯著性分量,提高了模型的判別能力。

附圖說明

圖1為一種基于跨域?qū)W習的跨視角動作識別方法的流程圖;

圖2為ixmas(洛桑聯(lián)邦理工學院運動獲取數(shù)據(jù)庫)多視角人體動作數(shù)據(jù)集的樣本示例。

具體實施方式

為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面對本發(fā)明實施方式作進一步地詳細描述。

為了解決背景技術(shù)中存在的問題,需要提供一種能夠全面、自動、準確對跨視角情況下的人體動作進行識別的方法。研究表明:將來自不同視圖的動作特征變換到一個公共特征空間中,不同視角下的人體動作就可以在這個公共空間中進行比較。

實施例1

本發(fā)明實施例提出了一種基于跨域?qū)W習的跨視角動作識別方法,參見圖1,詳見下文描述:

101:對目標域和源域的視頻數(shù)據(jù)分別提取視覺特征,采用視覺詞袋模型作為視覺表示,形成原始特征向量集;

102:通過變換矩陣將來自不同視圖的原始特征變換到公共特征空間中,將原始特征和變換特征結(jié)合,分別形成目標域和源域新的特征映射函數(shù),構(gòu)成新的特征向量集;

103:采用基于標準支持向量機的跨域?qū)W習方法訓練變換矩陣,并為每個人體動作生成最終分類器;利用分類器對待測視頻進行動作類別的判定,得到最終的識別結(jié)果。

在步驟101之前,本方法還包括:采集不同視角下的人體動作視頻數(shù)據(jù),構(gòu)建多視角的人體動作數(shù)據(jù)集,從人體動作數(shù)據(jù)集中選擇一個視角作為目標域,其他數(shù)據(jù)作為源域。

如上所述,本發(fā)明實施例避免了傳統(tǒng)動作識別場景中對攝像機空間位置信息的依賴,應(yīng)用兩個變換矩陣使不同的視角域映射到一個共同的特征空間,有效地提高了跨視角動作識別的準確率。

實施例2

下面結(jié)合具體的計算公式、附圖對實施例1中的方案進行進一步地介紹,詳見下文描述:

201:采集不同視角下的人體動作視頻數(shù)據(jù),構(gòu)建多視角的人體動作數(shù)據(jù)集,從人體動作數(shù)據(jù)集中選擇一個視角作為目標域,其他數(shù)據(jù)作為源域(即輔助域);

其中,人體動作視頻數(shù)據(jù)來自于ixmas多視角動作識別數(shù)據(jù)庫[13]。圖2給出了ixmas多視角數(shù)據(jù)集的樣本示例,每列顯示不同視角下的同一個動作。該數(shù)據(jù)集包含11個日常動作,分別是:檢查手表、交叉臂、撓頭、坐下、起床、轉(zhuǎn)身、走路、招手、出拳、踢腿和撿東西,每個動作由10個非職業(yè)演員表演3次,并且由不同位置的5個攝像機(即5個視角,分別對應(yīng)圖2中的五行)同時拍攝每個動作。

本發(fā)明實例選擇成對視圖(兩個視角)來進行測試。首先在ixmas中選擇一個視角(視角1)拍攝的數(shù)據(jù)作為目標域,另外一個視角(視角2)拍攝的數(shù)據(jù)作為源域;其次,再用視角2的數(shù)據(jù)用作目標域,視角1的數(shù)據(jù)用作輔助域,也進行相同的實驗。因此,對于ixmas,有10組實驗。

即,實驗1:視角1為目標域,2為源域;實驗2:視角2為目標域,1為源域;實驗3:視角1為目標域,3為源域;實驗4:視角3為目標域,1為源域等。

在實驗過程中,從目標域中選擇一個人(任意1人)的動作作為測試數(shù)據(jù),從目標域中隨機選擇其他人(另外9人)的動作數(shù)據(jù)與來自另一個視角的相同動作數(shù)據(jù)作為模型學習的訓練樣本。

例如:選擇圖2中的第一行的視角(作為視角1)拍攝的轉(zhuǎn)身、撿東西等動作的數(shù)據(jù)作為目標域,第二行的視角(作為視角2)拍攝的轉(zhuǎn)身、撿東西等動作的數(shù)據(jù)作為源域。在目標域中選擇一個人的轉(zhuǎn)身動作作為測試數(shù)據(jù),其余9人的所有動作(包括轉(zhuǎn)身、撿東西等)數(shù)據(jù)、與源域中的轉(zhuǎn)身動作數(shù)據(jù)作為模型學習的訓練樣本。

這個實驗設(shè)置可以保證目標域的訓練樣本的數(shù)量小于源域,同時更適合于現(xiàn)實世界。因為在現(xiàn)實世界中,很難得到目標域的視角信息,但是可以容易地獲得源域的視角信息。

202:對目標域和源域的視頻數(shù)據(jù)分別提取視覺特征,然后采用視覺詞袋模型作為視覺表示,形成原始特征向量集;

其中,視覺特征采用stip特征[9],應(yīng)用導向光流直方圖(hof)和方向梯度直方圖(hog)描述興趣點,其中hof可以表示時間信息,hog可以表示空間信息。

采用視覺詞袋模型作為視覺表示,形成原始特征向量集的步驟具體為:

利用k均值分別將目標域和源域的stip特征描述符量化為1000個視覺詞匯形成碼本,根據(jù)碼本生成直方圖,形成目標域原始特征向量集和源域原始特征向量集為目標樣本,r為實數(shù)集,dt為目標域特征維數(shù),nt為目標域樣本個數(shù),為源域樣本,ds為源域特征維數(shù),ns為源域樣本個數(shù)。

203:添加兩個變換矩陣,將來自不同視圖的原始特征變換到公共特征空間中,同時將原始特征和變換特征結(jié)合,分別形成目標域和源域新的特征映射函數(shù),構(gòu)成新的特征向量集;

其中,公共特征空間定義為dc為公共特征維數(shù)。則任何源域樣本和目標樣本可以分別通過使用兩個變換矩陣投影到公共特征空間上。

當使用p和q將來自兩個不同視圖的動作特征變換到同一個空間的過程中,可能會丟失一些有用的信息,為避免這種情況,將變換特征與原始特征結(jié)合,通過如下的增強特征映射函數(shù)φs和φt增強源域樣本和目標樣本

其中,表示所有元素均為0的d×1維列向量。

204:采用基于標準支持向量機的跨域?qū)W習方法訓練上述的兩個變換矩陣,并為每個人體動作生成最終分類器;

在本部分,將上標’表示為向量或矩陣的轉(zhuǎn)置。定義增強特征空間的特征權(quán)重向量w=[wc,ws,wt],wc, ws,wt分別為向量中的元素,特征權(quán)重向量w的取值通過對下述公式(1)的優(yōu)化問題迭代學習。

通過最小化標準支持向量機的結(jié)構(gòu)風險函數(shù)[14],提出如下的公式學習變換矩陣p和q以及權(quán)重向量w:

其中,分別是樣本的標簽,且c>0是調(diào)節(jié)訓練樣本損失的正則化參數(shù);預(yù)定義λq,λp>0用以分別控制p和q的復雜度,其中為svm訓練函數(shù)自帶的參數(shù),屬于svm基礎(chǔ)理論,本發(fā)明實施例對這幾個參數(shù)不做贅述。

其中,參數(shù)c、λq、λp的具體取值根據(jù)實際應(yīng)用中的需要進行設(shè)定,本發(fā)明實施例對此不做限制。

為解方程(1),首先導出方程(1)中關(guān)于w,b,的內(nèi)部優(yōu)化問題的對偶形式(即每一個線性規(guī)劃問題都伴隨有另一個線性規(guī)劃問題,該部分為本領(lǐng)域技術(shù)人員所公知,本發(fā)明實施例對此不做贅述)。

具體來說,為方程(2)中的約束引入雙變量

通過設(shè)置方程(1)中關(guān)于w,b,的拉格朗日導數(shù)等于零,獲得karush-kuhn-tucker(kkt)條件:

通過kkt條件,得到如下的替代優(yōu)化問題:

其中,α是對偶變量的向量,y是標簽向量,分別包括目標標簽和源標簽,kp,q為與p、q有關(guān)的矩陣,為所有元素為1的(ns+nt)×1維列向量,為所有元素為0的(ns+nt)×1維列向量。

定義in為n×n單位矩陣,in×m為所有元素為零的n×m維矩陣;定義為所有元素為0或1的n×1維列向量;不等式a≤b意味著對于i=1,...,n.有ai≤bi;此外,表示矢量a和b之間的逐元素積。

由式(2)導出的核矩陣kp,q如下所示:

其中,為ns×ns單位矩陣,為nt×nt單位矩陣。

通過觀察,可以發(fā)現(xiàn)投影矩陣p和q總是以p′p,p′q,q′p和q′q的形式出現(xiàn),所以可以通過定義中間變量h=[p,q]'[p,q],丟棄p和q,使公共子空間變成潛在的。

通過h的引入,將方程式(2)中的優(yōu)化問題轉(zhuǎn)換如下最后擬定的方法:

trace(h)≤λ,

其中,kh為與中間變量h有關(guān)的矩陣,trace(h)為kh的跡。

通過上述處理,通過迭代更新α和h來解決上述的方程(3)。

在獲得解α和h之后,可以通過使用以下決策函數(shù)作為最終的分類器來預(yù)測目標域中的任何測試樣本:

其中,和k(xi,xj)=φ(xi)'φ(xj)是兩個數(shù)據(jù)樣本xi和xj的預(yù)定義核函數(shù)。βs和βt的具體取值根據(jù)實際應(yīng)用中的需要進行設(shè)定。

205:利用訓練好的分類器對待測視頻進行動作類別的判定,得到最終的識別結(jié)果。

如上所述,本發(fā)明實施例避免了傳統(tǒng)動作識別場景中對攝像機空間位置信息的依賴,應(yīng)用兩個變換矩陣使不同的視角域映射到一個共同的特征空間,有效地提高了跨視角動作識別的準確率。

參考文獻

[1]s.gourgari,g.goudelis,k.karpouzis,s.d.kollias,thetis:threedimensionaltennisshotsahumanactiondataset,cvprworkshops,2013.pp.676–681.

[2]k.k.reddy,n.p.cuntoor,a.g.a.perera,a.hoogs,humanactionrecognitioninlarge-scaledatasetsusinghistogramofspatiotemporalgradients,avss,2012.pp.106–111.

[3]s.singh,s.a.velastin,h.ragheb,muhavi:amulticamerahumanactionvideodatasetfortheevaluationofactionrecognitionmethods,avss,2010.pp.48–55.

[4]h.wang,m.m.ullah,a.ki.laptev,c.schmid,evaluationoflocalspatio-temporalfeaturesforactionrecognition,bmvc,2009.pp.1–11.

[5]j.m.hagara,one-shot-learninggesturerecognitionusinghog-hoffeatures,corrabs/1312.4190,2013.

[6]k.onishi,t.takiguchi,y.ariki,3dhumanpostureestimationusingthehogfeaturesfrommonocularimage,icpr,2008.pp.1–4.

[7]l.shao,l.liu,m.yu,kernelizedmultiviewprojectionforrobustactionrecognition,int.j.comput.vis.(2015)http://dx.doi.org/10.1007/s11263-015-0861-6.

[8]c.rao,a.yilmaz,m.shah,view-invariantrepresentationandrecognitionofactions,int.j.comput.vis.50(2)(2002)203–226.

[9]j.zheng,z.jiang,p.j.phillips,r.chellappa,cross-viewactionrecognitionviaatransferabledictionarypair,bmvc,2012.pp.1–11.

[10]h.wang,f.nie,h.huang,robustanddiscriminativeself-taughtlearning,icml(3),2013.pp.298–306.

[11]l.duan,i.w.-h.tsang,d.xu,s.j.maybank,domaintransfersvmforvideoconceptdetection,cvpr,2009.pp.1375–1381.

[12]f.zhu,l.shao,weakly-supervisedcross-domaindictionarylearningforvisualrecognition,int.j.comput.vis.109(1-2)(2014)42–59.http://dx.doi.org/10.1007/s11263-014-0703-y.

[13]d.weinland,m.p.fua,makingactionrecognitionrobusttoocclusionsandviewpointchanges,eccv(3),2010.pp.635–648.

[14]n.cristianini,j.shawe-taylor,anintroductiontosupportvectormachines[j].2000.

本領(lǐng)域技術(shù)人員可以理解附圖只是一個優(yōu)選實施例的示意圖,上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。

以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1