專利名稱:前景動(dòng)作估計(jì)裝置和前景動(dòng)作估計(jì)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)視覺與機(jī)器學(xué)習(xí)領(lǐng)域,更具體地,涉及一種前景動(dòng)作估計(jì)裝置和前景動(dòng)作估計(jì)方法。
背景技術(shù):
從二維圖像中識(shí)別出人體的三維姿勢(shì)是計(jì)算機(jī)視覺與人工智能領(lǐng)域的一個(gè)熱點(diǎn)問題,這一技術(shù)可以應(yīng)用于人機(jī)交互、視頻監(jiān)控以及數(shù)字信息的分析與理解等領(lǐng)域。然而這也是目前具有挑戰(zhàn)性的難點(diǎn)問題,原因在于1)二維圖像中的深度信息的丟失使得從二維圖像中推斷三維信息存在不明確性,即,可能存在多個(gè)可能解;2)人體圖像存在背景的變化、光照的變化、衣服的變化、不同的視角以及不同的姿勢(shì)等因素,這些因素極大地影響了三維姿勢(shì)的推斷;3)人體姿勢(shì)是由多個(gè)關(guān)節(jié)部位連接組合而成,人體姿勢(shì)所組成的姿勢(shì)空間的維數(shù)非常龐大,因而,在姿勢(shì)空間中尋找最優(yōu)的姿勢(shì)要耗費(fèi)很大的計(jì)算量。
從單目圖像中估計(jì)人體姿勢(shì)的方法從技術(shù)原理上可以分為基于模型的方法和基于學(xué)習(xí)的方法?;谀P偷姆椒ㄊ紫冉⒁粋€(gè)由人體各部位組成的人體模型,姿勢(shì)估計(jì)的過程就是利用此模型在特征空間中搜索和匹配最接近的姿勢(shì)的過程,搜索過程通常轉(zhuǎn)化為非線性優(yōu)化問題或者概率密度估計(jì)問題,由于姿勢(shì)空間的維數(shù)非常龐大,這種方法通常需要與跟蹤相結(jié)合時(shí)才能取得較好的效果,因而姿勢(shì)估計(jì)的效果很大程度上取決于跟蹤前模型初始化的好壞,這些方法通常也需要先得到人體的各個(gè)部位的區(qū)域。基于學(xué)習(xí)的方法直接從圖像特征推斷人體的三維姿勢(shì),使用較多的圖像特征是人體輪廓信息,為了得到可靠的輪廓信息,已經(jīng)采用的方法有運(yùn)動(dòng)分析、背景建?;蛘哌@兩種方法的結(jié)合,然而這些方法在較復(fù)雜背景的情況下很難可靠的分離出人體輪廓。此外,其他已使用過的特征還有軀干檢測(cè)、膚色信息等。
由于目前大多數(shù)方法都依賴于圖像分割或者聚類,因此在復(fù)雜的背景條件下很難獲得較好的效果。A.Agarwal提出了一種從圖像特征中學(xué)習(xí)前景特征的方法,其利用非負(fù)矩陣分解對(duì)人體姿勢(shì)特征建模從而提取前景特征,由于避免了圖像分割的步驟,這種方法在應(yīng)用上具有更高的靈活性,但是這一方法由于在做背景特征抑制時(shí)沒有考慮背景特征與前景特征的相互影響,因此特征重建時(shí)會(huì)將一部分背景特征也認(rèn)為是前景特征,從而影響了背景抑制的效果。
可見,現(xiàn)有的物體識(shí)別的方法和系統(tǒng)通常要求先從背景中分離出前景物體,而在復(fù)雜背景下又很難取得好的分離效果,因而,急需一種能夠針對(duì)前景特征和背景特征建模,達(dá)到更高的背景特征抑制效果的方法。
發(fā)明內(nèi)容
鑒于現(xiàn)有技術(shù)中的問題,本發(fā)明提供了一種前景動(dòng)作估計(jì)裝置和前景動(dòng)作估計(jì)方法,其能夠直接對(duì)圖像的背景特征進(jìn)行抑制,使得抑制后的圖像中前景特征相對(duì)加強(qiáng),從而避免了使用圖像分割或者背景差分來獲得前景特征的方法,然后再基于抑制背景特征后的圖像特征估計(jì)人體的三維姿勢(shì),從而提高了姿勢(shì)估計(jì)的準(zhǔn)確性 根據(jù)本發(fā)明的一個(gè)方面,提供了一種用于估計(jì)圖片中的前景動(dòng)作的前景動(dòng)作估計(jì)裝置,其包括訓(xùn)練圖像輸入裝置,用于輸入前景圖像、背景圖像、以及具有前景和背景的圖像作為訓(xùn)練圖像;基矩陣計(jì)算裝置,用于通過從前景圖像和背景圖像中分別提取出前景特征和背景特征,分別計(jì)算出前景基矩陣和背景基矩陣,并且合并前景基矩陣和背景基矩陣以得到合并基矩陣;特征抑制裝置,用于根據(jù)由基矩陣計(jì)算裝置得到的合并基矩陣,計(jì)算所述訓(xùn)練圖像的特征系數(shù),從而得到所述訓(xùn)練圖像的抑制背景特征后的圖像特征;以及前景動(dòng)作信息獲得裝置,用于利用抑制背景特征后的圖像特征,根據(jù)圖像特征到動(dòng)作信息集的特征映射矩陣來估計(jì)前景動(dòng)作信息。
其中,前景圖像、背景圖像、和訓(xùn)練圖像的尺寸統(tǒng)一。
另外,根據(jù)本發(fā)明的前景動(dòng)作估計(jì)裝置還可以包括存儲(chǔ)單元,用于存儲(chǔ)動(dòng)作信息集,其中,前景圖像和訓(xùn)練圖像都對(duì)應(yīng)于動(dòng)作信息集中的一個(gè)動(dòng)作。
在特征抑制裝置中包括特征提取單元,用于提取訓(xùn)練圖像的圖像特征;計(jì)算單元,用于計(jì)算圖像特征在合并基矩陣下的特征系數(shù);分離單元,用于分離出特征系數(shù)中的背景基系數(shù),從而得到前景基系數(shù);以及重建單元,用于通過前景基系數(shù)與前景基矩陣,以預(yù)定算法重建得到訓(xùn)練圖像在抑制背景特征后的圖像特征。
在本發(fā)明中,在重建單元中的預(yù)定算法為通用矩陣乘法。在基矩陣計(jì)算裝置中的前景基矩陣和背景基矩陣至少是通過非負(fù)矩陣分解法得到的。前景至少包括人,動(dòng)作至少包括姿勢(shì)。
前景特征、背景特征和圖像特征為前景圖像、背景圖像和訓(xùn)練圖像的邊緣方向的統(tǒng)計(jì)特征,至少包括HoG(Histograms of OrientedGradients)特征或SIFT(Scale Invariant Feature Transform)特征。
根據(jù)本發(fā)明的另一方面,提供了一種用于估計(jì)圖片中的前景動(dòng)作的前景動(dòng)作估計(jì)方法,其包括以下步驟訓(xùn)練圖像輸入步驟,用于輸入前景圖像、背景圖像、以及具有前景和背景的圖像作為訓(xùn)練圖像;基矩陣計(jì)算步驟,用于通過從前景圖像和背景圖像中分別提取出前景特征和背景特征,分別計(jì)算出前景基矩陣和背景基矩陣,并且合并前景基矩陣和背景基矩陣以得到合并基矩陣;以及特征抑制步驟,用于根據(jù)由基矩陣計(jì)算步驟得到的合并基矩陣,計(jì)算所述訓(xùn)練圖像的特征系數(shù),從而得到所述訓(xùn)練圖像的抑制背景特征后的圖像特征;以及前景動(dòng)作信息獲得步驟,用于利用抑制背景特征后的圖像特征,根據(jù)圖像特征到動(dòng)作信息集的特征映射矩陣來估計(jì)前景動(dòng)作信息。
其中,前景圖像、背景圖像、和訓(xùn)練圖像的尺寸統(tǒng)一。
另外,該前景動(dòng)作估計(jì)方法還包括動(dòng)作信息集存儲(chǔ)步驟,其中,前景圖像和訓(xùn)練圖像都對(duì)應(yīng)于動(dòng)作信息集中的一個(gè)動(dòng)作。前景至少包括人,動(dòng)作至少包括姿勢(shì)。
在特征抑制步驟中執(zhí)行以下處理提取訓(xùn)練圖像的圖像特征;計(jì)算圖像特征在合并基矩陣下的特征系數(shù);分離出特征系數(shù)中的背景基系數(shù),從而得到前景基系數(shù);以及通過前景基系數(shù)與前景基矩陣,以預(yù)定算法重建得到訓(xùn)練圖像在抑制背景特征后的圖像特征。
在本發(fā)明中,預(yù)定算法為通用矩陣乘法。前景特征、背景特征和圖像特征為前景圖像、背景圖像和訓(xùn)練圖像的邊緣方向的統(tǒng)計(jì)特征,至少包括HoG特征或SIFT特征。
在基矩陣計(jì)算步驟中,至少通過非負(fù)矩陣分解法計(jì)算得到前景基矩陣和背景基矩陣。
因此,通過本發(fā)明,抑制了復(fù)雜背景圖像中的背景特征,從而保留并相對(duì)加強(qiáng)前景特征(人體姿勢(shì)信息),對(duì)于從二維單目圖像中估計(jì)人體的三維姿勢(shì)的準(zhǔn)確性有顯著提高。
本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實(shí)施例一起用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的限制。在附圖中 圖1是根據(jù)本發(fā)明的前景動(dòng)作估計(jì)裝置的框圖; 圖2是根據(jù)本發(fā)明的前景動(dòng)作估計(jì)方法的流程圖; 圖3是根據(jù)本發(fā)明實(shí)施例的基于背景特征抑制的人體姿勢(shì)估計(jì)方法的流程圖; 圖4是根據(jù)本發(fā)明實(shí)施例的背景特征抑制訓(xùn)練和背景特征抑制過程的流程圖; 圖5是根據(jù)本發(fā)明實(shí)施例的姿勢(shì)估計(jì)訓(xùn)練過程的流程圖,其中,(a)為輸入圖像,(b)為原始圖像特征,以及(c)為背景特征抑制后的重建圖像特征; 圖6是根據(jù)本發(fā)明實(shí)施例的計(jì)算圖像特征的方塊取法的示意圖; 圖7是通過本發(fā)明得到的背景特征抑制效果的示意圖;以及 圖8是通過本發(fā)明得到的人體姿勢(shì)估計(jì)效果的示意圖。
具體實(shí)施例方式 以下結(jié)合附圖對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行說明,應(yīng)當(dāng)理解,此處所描述的優(yōu)選實(shí)施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。
圖1是根據(jù)本發(fā)明的前景動(dòng)作估計(jì)裝置100的框圖,如圖1所示,該裝置包括訓(xùn)練圖像輸入裝置102,用于輸入前景圖像、背景圖像、以及具有前景和背景的圖像作為訓(xùn)練圖像;基矩陣計(jì)算裝置104,用于通過從前景圖像和背景圖像中分別提取出前景特征和背景特征,分別計(jì)算出前景基矩陣和背景基矩陣,并且合并前景基矩陣和背景基矩陣以得到合并基矩陣;特征抑制裝置106,用于根據(jù)由基矩陣計(jì)算裝置104得到的合并基矩陣,計(jì)算所述訓(xùn)練圖像的特征系數(shù),從而得到所述訓(xùn)練圖像的抑制背景特征后的圖像特征;以及前景動(dòng)作信息獲得裝置108,用于利用抑制背景特征后的圖像特征,根據(jù)圖像特征到動(dòng)作信息集的特征映射矩陣來估計(jì)前景動(dòng)作信息。
其中,前景圖像、背景圖像、和訓(xùn)練圖像的尺寸統(tǒng)一。
另外,根據(jù)本發(fā)明的前景動(dòng)作估計(jì)裝置還可以包括存儲(chǔ)單元,用于存儲(chǔ)動(dòng)作信息集,其中,前景圖像和訓(xùn)練圖像都對(duì)應(yīng)于動(dòng)作信息集中的一個(gè)動(dòng)作。
在特征抑制裝置106中包括特征提取單元,用于提取訓(xùn)練圖像的圖像特征;計(jì)算單元,用于計(jì)算圖像特征在合并基矩陣下的特征系數(shù);分離單元,用于分離出特征系數(shù)中的背景基系數(shù),從而得到前景基系數(shù);以及重建單元,用于通過前景基系數(shù)與前景基矩陣,以預(yù)定算法重建得到訓(xùn)練圖像在抑制背景特征后的圖像特征。
在本發(fā)明中,在重建單元中的預(yù)定算法為通用矩陣乘法。在基矩陣計(jì)算裝置中的前景基矩陣和背景基矩陣至少是通過非負(fù)矩陣分解法得到的。前景至少包括人,動(dòng)作至少包括姿勢(shì)。
前景特征、背景特征和圖像特征為前景圖像、背景圖像和訓(xùn)練圖像的邊緣方向的統(tǒng)計(jì)特征,至少包括HoG特征或SIFT特征。
圖2是根據(jù)本發(fā)明的前景動(dòng)作估計(jì)方法的框圖。如圖2所示,該方法包括以下步驟 S202,輸入前景圖像、背景圖像、以及具有前景和背景的圖像作為訓(xùn)練圖像; S204,通過從前景圖像和背景圖像中分別提取出前景特征和背景特征,分別計(jì)算出前景基矩陣和背景基矩陣,并且合并前景基矩陣和背景基矩陣以得到合并基矩陣; S206,根據(jù)由步驟S204得到的合并基矩陣,計(jì)算所輸入的圖像的特征系數(shù),從而得到所輸入的圖像在抑制背景特征后的圖像特征;以及 S208,利用抑制背景特征后的圖像特征,根據(jù)圖像特征到動(dòng)作信息集的特征映射矩陣來估計(jì)前景動(dòng)作信息。
其中,前景圖像、背景圖像、和訓(xùn)練圖像的尺寸統(tǒng)一。
另外,該前景動(dòng)作估計(jì)方法還包括動(dòng)作信息集存儲(chǔ)步驟,其中,前景圖像和訓(xùn)練圖像都對(duì)應(yīng)于動(dòng)作信息集中的一個(gè)動(dòng)作。
在S206中執(zhí)行以下處理提取訓(xùn)練圖像的圖像特征;計(jì)算圖像特征在合并基矩陣下的特征系數(shù);分離出特征系數(shù)中的背景基系數(shù),從而得到前景基系數(shù);以及通過前景基系數(shù)與前景基矩陣,以預(yù)定算法重建得到訓(xùn)練圖像在抑制背景特征后的圖像特征。
在本發(fā)明中,預(yù)定算法為通用矩陣乘法。前景特征、背景特征和圖像特征為前景圖像、背景圖像和訓(xùn)練圖像的邊緣方向的統(tǒng)計(jì)特征,至少包括HoG特征或SIFT特征。
在S204中,至少通過非負(fù)矩陣分解法計(jì)算得到前景基矩陣和背景基矩陣。
因此,通過本發(fā)明的前景動(dòng)作估計(jì)裝置或前景動(dòng)作估計(jì)方法所獲得的抑制背景特征后的圖像特征,根據(jù)圖像特征到動(dòng)作信息集的特征映射矩陣,可以估計(jì)前景的動(dòng)作。
以下將參考圖3~圖6對(duì)本發(fā)明的實(shí)施例進(jìn)行詳細(xì)描述,圖3是根據(jù)本發(fā)明實(shí)施例的基于背景特征抑制的人體姿勢(shì)估計(jì)方法的流程圖,圖4是根據(jù)本發(fā)明實(shí)施例的背景特征抑制訓(xùn)練和背景特征抑制過程的流程圖,圖5是根據(jù)本發(fā)明實(shí)施例的姿勢(shì)估計(jì)訓(xùn)練過程的流程圖,以及圖6是根據(jù)本發(fā)明實(shí)施例的計(jì)算圖像特征的方塊取法的示意圖。
如圖3所示,根據(jù)本發(fā)明實(shí)施例的基于背景特征抑制的人體姿勢(shì)估計(jì)方法包括以下步驟 步驟S302,對(duì)輸入圖片求取特征,圖像中邊緣方向的統(tǒng)計(jì)性特征是描述人體姿勢(shì)的一種可靠信息。優(yōu)選地,本發(fā)明采用SIFT特征作為圖像特征,具體的計(jì)算步驟如下。
1)分別計(jì)算圖像的每一象素點(diǎn)在水平方向和垂直方向的梯度,即, 水平梯度Ix(x,y)=d(I(x,y))/dx=I(x+1,y)-I(x-1,y) 垂直梯度Iy(x,y)=d(I(x,y))/dy=I(x,y+1)-I(x,y-1) 其中,I(x,y)表示圖像的灰度值,x,y分別表示象素點(diǎn)的水平方向和垂直方向的坐標(biāo)。
2)分別計(jì)算圖像的每一象素點(diǎn)的梯度方向和幅值,即, 梯度方向θ(x,y)=arg tg(|Iy/Ix|) 梯度幅值
其中梯度方向θ(x,y)的范圍為
。
3)在圖像中從左至右、從上至下依次取24個(gè)32×32大小的方塊,其中水平方向每行6個(gè)方塊,垂直方向每列4個(gè)方塊,每?jī)蓚€(gè)方塊之間依次重疊一半,如圖6所示。
4)將每一個(gè)32×32的方塊劃分為16個(gè)8×8的小方塊,其中水平方向每行4個(gè)小方塊,垂直方向每列4個(gè)小方塊,每?jī)蓚€(gè)小方塊之間依次排列。
5)在每一個(gè)8×8的小方塊中,計(jì)算方塊中64個(gè)象素點(diǎn)的梯度方向直方圖,將梯度方向劃分為8個(gè)方向區(qū)間,即從0到π范圍內(nèi)每
為一個(gè)區(qū)間。即在每一個(gè)8×8的小方塊中統(tǒng)計(jì)8個(gè)方向區(qū)間內(nèi)的梯度值,其中梯度方向根據(jù)各自的幅值加權(quán),從而得到一個(gè)8維向量,每一個(gè)32×32的方塊得到一個(gè)128維向量。
6)將每一方塊的向量依次連接得到圖像特征,圖像特征的維數(shù)為3072維,即128×24=3072。
步驟S304,計(jì)算輸入圖像的圖像特征在合并基矩陣下的特征系數(shù),分離特征系數(shù)中的前景部分,與前景基重建得到背景特征抑制后的圖像特征,具體的計(jì)算步驟如下。
1)對(duì)輸入圖像提取圖像的SIFT特征得到VTest,輸入圖像如圖7(a)所示,特征圖像如圖7(b)所示。
2)計(jì)算待處理圖像特征VTest在合并基WCom下的特征系數(shù)HCom;HCom根據(jù)線性方程VTest=WCom·HCom計(jì)算得到,優(yōu)選地,本發(fā)明采用Levenberg-Marquardt算法計(jì)算HCom 3)提取特征系數(shù)HCom中對(duì)應(yīng)于基WFore的前景部分HFore。
其中,因?yàn)?
所以
4)利用提取出的前景部分的特征系數(shù)HFore與前景基WFore計(jì)算得到重建后的前景圖像特征,即,V′Test=WFore·HFore,重建后的前景圖像特征如圖7(c)所示。
步驟S306,根據(jù)圖像特征到三維姿勢(shì)信息的特征映射矩陣估計(jì)抑制背景特征后的圖像特征所對(duì)應(yīng)的人體三維姿勢(shì),具體的計(jì)算步驟如下。
將特征映射矩陣Map與重建后的前景圖像特征向量V′test相乘得到姿勢(shì)特征向量Pos,即Pos=Map·V′test,然后輸出三維姿勢(shì)信息Pos。
圖4是根據(jù)本發(fā)明實(shí)施例的背景特征抑制訓(xùn)練和背景特征抑制過程的流程圖。在本發(fā)明中,訓(xùn)練圖片集由前景圖片(人體)集和背景圖片集組成,訓(xùn)練集中的圖片已經(jīng)設(shè)置為統(tǒng)一寬高(120×100)的圖片。
如圖4所示,具體包括以下步驟 計(jì)算訓(xùn)練圖片集中背景圖片的特征,采用SIFT特征作為圖像特征,其計(jì)算步驟如步驟S302; 利用非負(fù)矩陣分解訓(xùn)練得到背景特征圖像的基矩陣WBack,非負(fù)矩陣分解將一個(gè)非負(fù)矩陣Vm*n分解為兩個(gè)非負(fù)矩陣的乘積,即,Vm*n=Wm*r·Hr*n,其中W是V的基矩陣,H是對(duì)應(yīng)于W的特征系數(shù)矩陣,m是特征的維數(shù),r是特征系數(shù)的維數(shù)。由于r<m,因此非負(fù)矩陣分解也能達(dá)到特征壓縮的目的; 計(jì)算訓(xùn)練圖片集中前景圖片的特征,采用SIFT特征作為圖像特征,其計(jì)算步驟如步驟S302; 訓(xùn)練得到前景圖片的基矩陣
其計(jì)算步驟如步驟S304;以及 合并前景基和背景基得到合并基WCom,合并方法為
在本發(fā)明中,采用非負(fù)矩陣分解訓(xùn)練圖像的基矩陣,具體算法為 1)根據(jù)計(jì)算得到訓(xùn)練圖片集的特征,將Nback張圖片的每一方塊中的特征依次連接得到一個(gè)Vtrainback的矩陣,Vtrainback的每一列是訓(xùn)練圖片集中每一背景圖片的圖像特征,Vtrainback是3072×Nback維矩陣,Nback是訓(xùn)練圖片集中背景圖片的張數(shù),最后得到背景特征矩陣集合
2)利用非負(fù)矩陣分解方法將Vtrainback(i)分解為Wback(i)和Hback(i)的乘積,i=1,2,...,24。這里取r=30,實(shí)驗(yàn)結(jié)果表明r=30能達(dá)到最優(yōu)的壓縮與性能比。對(duì)每一方塊訓(xùn)練得到一個(gè)基矩陣Wback(i),i=1,2,...,24;以及 3)得到背景基矩陣的集合
圖5是根據(jù)本發(fā)明實(shí)施例的姿勢(shì)估計(jì)訓(xùn)練過程的流程圖。在本發(fā)明中,訓(xùn)練集由人體姿勢(shì)圖片集和姿勢(shì)信息集組成,其中人體姿勢(shì)圖片集中的人體姿勢(shì)圖片與姿勢(shì)信息集中的人體姿勢(shì)信息一一對(duì)應(yīng),具體的姿勢(shì)估計(jì)訓(xùn)練過程如下 步驟S502,提取人體姿勢(shì)圖片集中每一圖片的圖像特征,采用SIFT特征作為圖像特征,其計(jì)算步驟如步驟S302; 步驟S504,對(duì)訓(xùn)練圖片集中的人體姿勢(shì)圖片的圖像特征進(jìn)行背景特征抑制,其計(jì)算步驟如步驟S304;以及 步驟S506,利用訓(xùn)練集中的圖像特征集與姿勢(shì)信息集訓(xùn)練得到圖像特征到三維姿勢(shì)信息的特征映射矩陣。
步驟S506,首先,將人體姿勢(shì)圖片集中的所有圖片的圖像特征依次連接得到VtrainFeature矩陣,VtrainFeature的每一列是訓(xùn)練圖片集中每一人體姿勢(shì)圖片的圖像特征,VtrainFeature是3072×NFeature維矩陣,NFeature是訓(xùn)練圖片集中的圖片張數(shù)。然后,將姿勢(shì)信息集中的人體姿勢(shì)圖片所對(duì)應(yīng)的姿勢(shì)信息連接得到Postrain矩陣,Postrain的每一列是姿勢(shì)信息集中每一人體姿勢(shì)信息的向量pos,pos定義為人體8個(gè)部位的三位坐標(biāo),這八個(gè)部位是頭部、腰部、左手腕、左手臂、左肩、右手腕、右手臂和右肩,因此,pos=[x1,y1,z1,x2,y2,z2,...,x24,y24,z24]T,Postrain是24×NFeature維矩陣。最后,求解線性方程組
采用脊回歸方法求此方程組的最優(yōu)解。
通過本發(fā)明得到的人體姿勢(shì)估計(jì)效果如圖8所示。在圖8中,(a)為輸入的圖像,(b)為輸入圖像的特征圖像,(c)為通過本發(fā)明背景特征抑制后的特征圖像,以及(d)為通過本發(fā)明得到的姿勢(shì)估計(jì)后的姿勢(shì)圖像。
綜上所述,通過本發(fā)明,抑制了復(fù)雜背景圖像中的背景特征,從而保留并相對(duì)加強(qiáng)前景特征(人體姿勢(shì)信息),對(duì)于從二維單目圖像中估計(jì)人體的三維姿勢(shì)的準(zhǔn)確性有顯著提高。
以上僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種前景動(dòng)作估計(jì)裝置,用于估計(jì)圖片中的前景動(dòng)作,其特征在于,包括
訓(xùn)練圖像輸入裝置,用于輸入前景圖像、背景圖像、以及具有前景和背景的圖像作為訓(xùn)練圖像;
基矩陣計(jì)算裝置,用于通過從所述前景圖像和所述背景圖像中分別提取出前景特征和背景特征,分別計(jì)算出前景基矩陣和背景基矩陣,并且合并所述前景基矩陣和所述背景基矩陣以得到合并基矩陣;
特征抑制裝置,用于根據(jù)由所述基矩陣計(jì)算裝置得到的所述合并基矩陣,計(jì)算所述訓(xùn)練圖像的特征系數(shù),從而得到所述訓(xùn)練圖像的抑制背景特征后的圖像特征;以及
前景動(dòng)作信息獲得裝置,用于利用所述抑制背景特征后的圖像特征,根據(jù)圖像特征到動(dòng)作信息集的特征映射矩陣來估計(jì)前景動(dòng)作信息。
2.根據(jù)權(quán)利要求1所述的前景動(dòng)作估計(jì)裝置,其特征在于,所述前景圖像、所述背景圖像、和所述訓(xùn)練圖像的尺寸統(tǒng)一。
3.根據(jù)權(quán)利要求1所述的前景動(dòng)作估計(jì)裝置,其特征在于,還包括存儲(chǔ)單元,用于存儲(chǔ)動(dòng)作信息集,
其中,所述前景圖像和所述訓(xùn)練圖像都對(duì)應(yīng)于所述動(dòng)作信息集中的同一個(gè)動(dòng)作。
4.根據(jù)權(quán)利要求3所述的前景動(dòng)作估計(jì)裝置,其特征在于,所述特征抑制裝置包括
特征提取單元,用于提取所述訓(xùn)練圖像的圖像特征;
計(jì)算單元,用于計(jì)算所述圖像特征在所述合并基矩陣下的特征系數(shù);
分離單元,用于分離出所述特征系數(shù)中的背景基系數(shù),從而得到前景基系數(shù);以及
重建單元,用于通過所述前景基系數(shù)與所述前景基矩陣,以預(yù)定算法重建得到所述訓(xùn)練圖像在抑制背景特征后的圖像特征。
5.根據(jù)權(quán)利要求4所述的前景動(dòng)作估計(jì)裝置,其特征在于,在所述重建單元中,所述預(yù)定算法為通用矩陣乘法。
6.根據(jù)權(quán)利要求1所述的前景動(dòng)作估計(jì)裝置,其特征在于,在所述基矩陣計(jì)算裝置中的所述前景基矩陣和所述背景基矩陣至少是通過非負(fù)矩陣分解法得到的。
7.根據(jù)權(quán)利要求1所述的前景動(dòng)作估計(jì)裝置,其特征在于,所述前景至少包括人,所述動(dòng)作至少包括姿勢(shì)。
8.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的前景動(dòng)作估計(jì)裝置,其特征在于,所述前景特征、背景特征和圖像特征為所述前景圖像、背景圖像和訓(xùn)練圖像的邊緣方向的統(tǒng)計(jì)特征,至少包括HoG特征或SIFT特征。
9.一種前景動(dòng)作估計(jì)方法,用于估計(jì)圖片中的前景動(dòng)作,其特征在于,包括以下步驟
訓(xùn)練圖像輸入步驟,用于輸入前景圖像、背景圖像、以及具有前景和背景的圖像作為訓(xùn)練圖像;
基矩陣計(jì)算步驟,用于通過從所述前景圖像和所述背景圖像中分別提取出前景特征和背景特征,分別計(jì)算出前景基矩陣和背景基矩陣,并且合并所述前景基矩陣和所述背景基矩陣以得到合并基矩陣;
特征抑制步驟,用于根據(jù)由所述基矩陣計(jì)算步驟得到的所述合并基矩陣,計(jì)算所述訓(xùn)練圖像的特征系數(shù),從而得到所述訓(xùn)圖像的抑制背景特征后的圖像特征;以及
前景動(dòng)作信息獲得步驟,用于利用所述抑制背景特征后的圖像特征,根據(jù)圖像特征到動(dòng)作信息集的特征映射矩陣來估計(jì)前景動(dòng)作信息。
10.根據(jù)權(quán)利要求9所述的前景動(dòng)作估計(jì)方法,其特征在于,所述前景圖像、所述背景圖像、和所述訓(xùn)練圖像的尺寸統(tǒng)一。
11.根據(jù)權(quán)利要求9所述的前景動(dòng)作估計(jì)方法,其特征在于,還包括動(dòng)作信息集存儲(chǔ)步驟,
其中,所述前景圖像和所述訓(xùn)練圖像都對(duì)應(yīng)于所述動(dòng)作信息集中的一個(gè)動(dòng)作。
12.根據(jù)權(quán)利要求11所述的前景動(dòng)作估計(jì)方法,其特征在于,在所述特征抑制步驟中執(zhí)行以下處理
提取所述訓(xùn)練圖像的圖像特征;
計(jì)算所述圖像特征在所述合并基矩陣下的特征系數(shù);
分離出所述特征系數(shù)中的背景基系數(shù),從而得到前景基系數(shù);以及
通過所述前景基系數(shù)與所述前景基矩陣,以預(yù)定算法重建得到所述訓(xùn)練圖像在抑制背景特征后的圖像特征。
13.根據(jù)權(quán)利要求12所述的前景動(dòng)作估計(jì)方法,其特征在于,所述預(yù)定算法為通用矩陣乘法。
14.根據(jù)權(quán)利要求9所述的前景動(dòng)作估計(jì)方法,其特征在于,在所述基矩陣計(jì)算步驟中,至少通過非負(fù)矩陣分解法計(jì)算得到所述前景基矩陣和所述背景基矩陣。
15.根據(jù)權(quán)利要求9所述的前景動(dòng)作估計(jì)方法,其特征在于,所述前景至少包括人,所述動(dòng)作至少包括姿勢(shì)。
16.根據(jù)權(quán)利要求9至15中任一項(xiàng)所述的前景動(dòng)作估計(jì)方法,其特征在于,所述前景特征、背景特征和圖像特征為所述前景圖像、背景圖像和訓(xùn)練圖像的邊緣方向的統(tǒng)計(jì)特征,至少包括HoG特征或SIFT特征。
全文摘要
本發(fā)明提供了一種前景動(dòng)作估計(jì)裝置和前景動(dòng)作估計(jì)方法,其中,前景動(dòng)作估計(jì)裝置包括訓(xùn)練圖像輸入裝置,用于輸入前景圖像、背景圖像、以及具有前景和背景的圖像作為訓(xùn)練圖像;基矩陣計(jì)算裝置,用于通過從前景圖像和背景圖像中分別提取出前景特征和背景特征,分別計(jì)算出前景基矩陣和背景基矩陣,并且合并前景基矩陣和背景基矩陣以得到合并基矩陣;特征抑制裝置,用于根據(jù)由基矩陣計(jì)算裝置得到的合并基矩陣,計(jì)算所述訓(xùn)練圖像的特征系數(shù),從而得到所述訓(xùn)練圖像在抑制背景特征后的圖像特征;以及前景動(dòng)作信息獲得裝置,用于利用抑制背景特征后的圖像特征,根據(jù)圖像特征到動(dòng)作信息集的特征映射矩陣來估計(jì)前景動(dòng)作信息。
文檔編號(hào)G06K9/62GK101727568SQ20081016749
公開日2010年6月9日 申請(qǐng)日期2008年10月10日 優(yōu)先權(quán)日2008年10月10日
發(fā)明者李亮, 吳偉國(guó) 申請(qǐng)人:索尼(中國(guó))有限公司