一種用于三維圖像模型調(diào)適的方法和裝置制造方法
【專利摘要】用于調(diào)適物體的3D模型(m)的方法,所述方法包括以下步驟:–執(zhí)行所述3D模型的至少一個投影來獲取至少一個帶有關(guān)聯(lián)的深度信息(d1)的2D圖像模型投影(p1),-在所述至少一個2D圖像模型投影(p1)上執(zhí)行至少一個狀態(tài)提取操作,從而獲取至少一個狀態(tài)(s1)-根據(jù)所述至少一個狀態(tài)(s1)并根據(jù)目標狀態(tài)(s),調(diào)適所述至少一個2D圖像模型投影(p1)以及所述關(guān)聯(lián)的深度信息(d1),從而獲取至少一個被調(diào)適的2D圖像模型(p1’)以及關(guān)聯(lián)的被調(diào)適的深度(d1’)-基于所述關(guān)聯(lián)的被調(diào)適的深度(d1’),反投影所述至少一個被調(diào)適的2D圖像模型(p1’)到3D,從而獲取被調(diào)適的3D模型(m’)。
【專利說明】一種用于三維圖像模型調(diào)適的方法和裝置
【技術(shù)領域】
[0001]本發(fā)明要求在先提交的歐洲專利申請11305768的優(yōu)先權(quán)并涉及一種用于三維,其,在余下的文本中將被縮寫為3D,圖像模型的調(diào)適(adaptation)的方法。
【背景技術(shù)】
[0002]3D模型調(diào)適通常是以手動方式被完成,其一般地是不令人滿意的。另一種調(diào)適3D模型的方式利用狀態(tài)調(diào)適,其涉及3D模型的調(diào)適以符合某種狀態(tài)。該狀態(tài)影響形狀和/或外觀,比如模型的某些部分或特征的紋理,的3D位置。再一次,用于3D模型狀態(tài)調(diào)適的現(xiàn)有技術(shù)的主要問題是在3D中要被調(diào)適的特征的數(shù)量通常非常多,由于計算資源不充足,以致再一次,人工介入常常被需要。此外,最新的技術(shù)被限于使用被綁定的模型,其對于其中模型能夠被學習到,這樣在學習過程中,它們的形狀也能夠變化的動態(tài)系統(tǒng)中的使用帶來了嚴重的限制。
【發(fā)明內(nèi)容】
[0003]因此本發(fā)明的實施例的一個目標是提出一種用于3D圖像模型調(diào)適的方法和裝置,其能夠被完全自動地使用并且實現(xiàn)使用動態(tài)地自適應的模型。
[0004]根據(jù)本發(fā)明的實施例,這個目標通過一種用于調(diào)適物體的3D模型的方法來達到,所述方法包括步驟
[0005]-執(zhí)行所述3D模型的至少一個投影來獲取至少一個具有關(guān)聯(lián)的深度信息(dl)的2D圖像模型(pl),
[0006]-在所述至少一個2D圖像模型投影(pl)上執(zhí)行至少一個狀態(tài)提取操作,從而獲取至少一個狀態(tài)(Si)
[0007]-根據(jù)所述至少一個狀態(tài)(Si)并根據(jù)目標狀態(tài)(s),調(diào)適所述至少一個2D圖像模型投影(Pl)以及所述關(guān)聯(lián)的深度信息,從而獲取至少一個被調(diào)適的2D圖像模型(pl’)以及關(guān)聯(lián)的被調(diào)適的深度(dl’)
[0008]-基于所述關(guān)聯(lián)的被調(diào)適的深度(dl’),反投影所述至少一個被調(diào)適的2D圖像模型到3D,從而獲取被調(diào)適的3D模型(m’)。
[0009]通過調(diào)適3D圖像模型的至少一個2D投影的所述狀態(tài)以及它的關(guān)聯(lián)的深度信息,較少的計算資源被使用,因此避免在此過程中對人工干預的需求。反投影到3D保證了該3D模型本身是盡可能逼真地被調(diào)適的。
[0010]在一個實施例中,被調(diào)適的3D模型(m’ )是基于該初始的3D模型(m)信息來被進
一步確定的。
[0011]這實現(xiàn)了該被調(diào)適的模型的平滑變形。
[0012]在另一個實施例中,所述目標狀態(tài)(S)是通過外部施加的限制來被確定的。
[0013]這可以,如包括關(guān)于鼻子的外形,眼睛的顏色,等等的高級信息。
[0014]在另一個實施例中,所述目標狀態(tài)(s )是從外部圖像輸入(IV)的狀態(tài)(Se )來被獲取的。
[0015]這允許3D模型平滑地調(diào)適到如實時視頻上的物體的變化的特征,或使該物體類似靜態(tài)圖像上存在的物體,因為所述目標狀態(tài)將通過組合所述外部圖像輸入(IV)的狀態(tài)(se)與所述至少一個狀態(tài)(si)來被獲取。
[0016]在一個優(yōu)選的變型中,所述外部圖像輸入(IV)包括2D圖像輸入,并且所述3D模型的所述至少一個2D投影中的一個是根據(jù)從所述外部圖像輸入(IV)推導出的虛擬相機來被執(zhí)行的。
[0017]這對于獲取在所述外部圖像輸入和所述3D模型間的最優(yōu)關(guān)系是有用的。
[0018]在再一個變型中,該外部圖像輸入可以包括2D+視差(disparity)輸入,具有其意味著2D以及視差彳目息都是被外部地提供的,如被立體相機。然后深度/[目息能夠從該視差信息中用深度X視差=常量的公式來被直接地推導出。
[0019]這允許直接地使用來自該輸入的該深度數(shù)據(jù),用于更新所述關(guān)聯(lián)的深度。
[0020]本發(fā)明還涉及一種用于執(zhí)行該方法的裝置,包含這樣的裝置的圖像或視頻處理設備,并且涉及一種包括當在數(shù)據(jù)處理裝置上被執(zhí)行時,適用于執(zhí)行上述描述的或要求的方法步驟的軟件的計算機程序產(chǎn)品。
[0021]應注意術(shù)語“連接”,在權(quán)利要求書中被使用,不應被解釋為僅限于直接連接。因此,表述“設備A連接到設備B”不應被限制于,其中設備A的輸出被直接連接到設備B的輸入,的設備或系統(tǒng)。其表示在設備A的輸出和設備B的輸入間存在著路徑,其可以是包含其他設備或裝置的路徑。
[0022]應注意術(shù)語“包括”,在權(quán)利要求書中被使用,不應被解釋為局限于其后列舉的裝置。因此,表述“設備包含裝置A和B”的范圍不應被限制在僅僅由組件A和B組成的裝置。其表示就本發(fā)明而言,該設備的相關(guān)組件僅為A和B。
[0023]在整個文本中,二維將被所縮寫為2D,并且,如前文所提及,三維將被縮寫為3D。【專利附圖】
【附圖說明】
[0024]通過參考下文實施例的描述并結(jié)合附圖,本發(fā)明上述和其他的目標和特征將變得更明顯,并且本發(fā)明本身將會被最好地理解,在附圖中,
[0025]圖la-b示出本方法和裝置的第一變型,
[0026]圖2a_b示出參與本發(fā)明的實施例的幾何模型的示意圖,
[0027]圖3a_b示出本方法的第二變型,
[0028]圖4a_b分別示出本方法的第三,第四實施例,
[0029]圖5a_c闡明在附加的2D視頻輸入的情況下,圖3a的實施例所執(zhí)行的不同的步驟,
[0030]本領域技術(shù)人員應理解此處的框圖表示體現(xiàn)本發(fā)明原理的示例性電路的概念視圖。任何流程圖,流圖,狀態(tài)轉(zhuǎn)換圖,偽代碼,和類似物,表示可以在計算機可讀的介質(zhì)中被基本上表示出來并因此可以被計算機或處理器執(zhí)行的各種進程,無論這樣的計算機或處理器是否被明確地不出。
【具體實施方式】[0031]在圖1a示出被用于調(diào)適3D模型,被記作m,的方法的第一變型所執(zhí)行的步驟。
[0032]在第一步中3D模型的投影被執(zhí)行到2D。用于此投影的參數(shù),是根據(jù)眾所周知的針孔相機(pinhole模型,如在教程手冊“在計算機視覺中的多視圖幾何學”,由RichardHartley 和 Andrew Zisserman 所著,劍橋大學出版社,2003 年第二版,ISBN0521540518,中的第6章所描述的,來被使用的那些參數(shù)。
[0033]這從而涉及到在3D空間中的點通過中央的“針孔”到平面的投影。在該模型中,該平面對應于相機的投影平面,而針孔對應于相機的光圈開口(diafragma opening),也常常被表示為相機中心(camera center)。投影步驟的結(jié)果被記作pl, dl,其中pl指示2D投影本身,其能夠被包含顏色信息的像素值的2D矩陣來表示,而dl指示投影深度圖,其也可以被關(guān)聯(lián)的深度值的2D矩陣來表示。這些關(guān)聯(lián)的深度值是根據(jù)眾所周知的,在后面的段落中也將被給出的方程式來從原始的的深度值和相機位置來被計算出來的。
[0034]作為選擇地,投影和深度圖能夠在一個大的2D矩陣中被表示,其中,對于每個被投影的像素,顏色信息以及關(guān)聯(lián)的深度信息,存在于相應的矩陣行和列中。
[0035]在圖2a中說明了投影本身的示意圖,示出具有3個空間空間坐標xA,yA和zA的點A,該些坐標相對于通過定義了參考坐標系的三個坐標軸X,y, z來定義這些坐標的原點O。針孔相機被它的相對于同樣的參考原點和參考坐標系的具有坐標xC,yC和zC的相機中心位置C來被表示。點A的投影在關(guān)聯(lián)到該相機的,并被記作S的,投影屏幕上被制作。點A的通過針孔C的投影,被記作與坐標(xpA,ypA)關(guān)聯(lián)的p (A)。然而,這些坐標是相對于在該投影平面S中被定義的二維的坐標軸xp和yp來被定義的。
[0036]為了不使圖2a信息過量,這里假定相機相對于該三個參考坐標軸x,y,z是不旋轉(zhuǎn)的。然而,對于該更一般的情況,眾所周知的公式也存在,并且在根據(jù)本發(fā)明的實施例中被用于投影及關(guān)聯(lián)的深度圖的計算。該相機的旋轉(zhuǎn)被記作ΘΧ,0y,Θ z來分別表示該相機中心圍繞坐標軸X,I, Z的旋轉(zhuǎn),如圖2b中所示意性示出的,其中僅對于其中原點O與相機中心C疊合的情況中的這些旋轉(zhuǎn)被示出。
[0037]在最一般的情況下,C可以從而相對于原點O和參考坐標軸X,y, z被平移或被旋轉(zhuǎn)。
[0038]在根據(jù)本發(fā)明的實施例中,然后,3D模型的投影將由該模型的被投影的3D點的顏色或紋理信息組成,只要它們落在屏幕區(qū)域S的輪廓線內(nèi),并且只要它們沒有被該模型的另一個3D點的另一個投影遮擋。遮擋事實上幾乎固有地出現(xiàn)于所有的3D物體的2D投影,并且與該模型的多于一個3D點將被投影到投影上的同一個2D點的事實相關(guān)。
[0039]然后,對于被投影的像素點P(A)中的每一個,與該投影關(guān)聯(lián)的深度圖將由它們各自的相對于相機位置的相對深度值組成。這被表示為:
[0040]dz = cos θ χ.(cos Θ y.(az-cz) +sin Θ y.(sin Θ z.(ay_cy) +cos Θ z.(ax_cx))) -sin θ χ.(cos Θ Z.(ay-cy)-sin Θ z.(ax_cx))
[0041](I)
[0042]用ΘΧ,0y,Θ z指示如圖2b所示出的相機圍繞參考坐標軸的分別地旋轉(zhuǎn),
[0043]用ax, ay和az表示點a在參考坐標系中的坐標,
[0044]cx, cy和cz表示在該參考坐標系中的該相機中心c的坐標,以及
[0045]用dz表示點a的相對于該相機中心c的關(guān)聯(lián)深度[0046]在相對于在參考原點0中的參考坐標系X, y, z沒有相機的旋轉(zhuǎn)的情況下,這些旋轉(zhuǎn)角度為零,這樣方程式(I)將被簡化為
[0047]dz=az _ cz(2)
[0048]其,使用如圖2a中的標記,相當于
[0049]dz=zA_zc(3)
[0050]如也在圖2a中所示出的。
[0051]一般地,投影被這樣選擇,使在足夠高的分辨率下,3D模型的要被調(diào)適進3D的特征將是投影的一部分,或這樣選擇,使它們最優(yōu)地填滿投影圖像。這可以通過嘗試一組預先確定的投影位置,并選擇給出最好結(jié)果的那一個來被試探式地完成。
[0052]在另一個實施例中,通過其中模型的3D表面將用3D三角形的方式來被近似的中間步驟,這能夠被進一步確定。一般地,僅僅與要被調(diào)適的特征相關(guān)的模型的部分將然后被這樣的3D三角形來近似。對這樣的三角形中的每一個,關(guān)于垂直方向的法線被確定。對于理想的投影,該法線的方向相對于相機到該三角形的角度應該是180度的。對于每個相機位置,對所有的三角形,在各自的三角形的法線與相機到該三角形的中心的方向之間的角度的余弦值的總和,應該然后是最小的。通過對數(shù)個可能的相機位置來計算該總和,并選擇對于該總和得到最小值的位置,最優(yōu)方向能夠被計算出來。作為選擇的,比如用來確定最優(yōu)相機方向的最小化問題本身能夠被解決。
[0053]當然,如大家所知,很多其他的技術(shù)能夠被本領域技術(shù)人員使用。
[0054]在下一步驟中, 狀態(tài)從該投影中被提取。物體特征的配置被用狀態(tài)來指示,這些特征自身是被一組值所表示的。這些值從而可以描述該物體的可能的可變屬性或特征。這組值能夠被排列到矢量中,但其它的用于這樣的狀態(tài)的表示當然也是可能的。狀態(tài)提取從而指的是用于表示圖像的物體的狀態(tài),在本例中是3D模型的投影,的狀態(tài)參數(shù)被確定。這能夠通過基于3D模型信息的一些計算來被完成,如將在進一步的段落中被描述的實例中所示出的,或通過使用更一般的方法如首先包含可能地但不是必要地,通過執(zhí)行分割操作來識別/檢測在考慮中的物體的步驟,接下來是因此被識別的/被檢測到的物體的進一步的深入的分析。
[0055]然而,在絕大多數(shù)根據(jù)本發(fā)明的實施例中,3D模型本身是已知的,這樣狀態(tài)提取能夠被很大地縮小為基于3D模型的狀態(tài)的計算。假使3D狀態(tài)與某些特征的坐標相關(guān),在人的頭部的3D模型的情形下其可以是臉部特征,這些3D點的2D投影可以立即導出2D圖像的狀態(tài)參數(shù)。
[0056]假使3D模型的狀態(tài)是未知的,前文所述的識別步驟可以被跟隨著,如包括使用主動外觀模型,縮寫為AAM (Active Appearance Model)的進一步的分析。這允許,如,假使要被更新的目標模型為人的頭部,通過與2D AAM內(nèi)部成型模型的擬合來確定在2D被投影的圖像上的臉部特征的形狀和外觀。這可以從比較2D投影與2DAAM模型的初始值開始,然后AAM模型本身然后進一步逐漸地改變其來找出最好的擬合。一旦好的匹配被發(fā)現(xiàn),從而基于該AAM被調(diào)適的模型被確定的參數(shù)如face_expression_l_x, face_expression_l_y,等等,被輸出。
[0057]在圖1a中,投影圖像的狀態(tài)被記為Si,并且在目標狀態(tài)合成步驟期間其被使用。目標狀態(tài)s是從2D投影的狀態(tài)Si,以及從外部狀態(tài)信息,來被獲取的。該外部狀態(tài)信息,記做se,可以事先已經(jīng)被確定,或是離線的如從靜態(tài)圖像的輸入,或是基于另外的描述信息,如關(guān)于如鼻子形狀或眼睛顏色,臉部表情等等的高級語義信息。在這種情況下,該外部狀態(tài)信息也可以被預先存儲到存儲器中。
[0058]作為選擇的,該外部狀態(tài)信息Se能夠“在運行中”,如基于改變外部視頻圖像輸入數(shù)據(jù),其能夠因此隨時間快速地改變,來被確定。在這種情況下,外部狀態(tài)se —般地將由視頻序列的連續(xù)幀而被確定。
[0059]外部狀態(tài)信息與2D投影的狀態(tài)Si —起被使用來獲取目標狀態(tài)。
[0060]確定目標狀態(tài)的方法,如圖1a中所示,除輸入狀態(tài)Si和se之外,可以包括使用反映狀態(tài)置信度的權(quán)重,該置信度級別自身是在狀態(tài)提取期間被確定的,來執(zhí)行Si和se的值的加權(quán)組合。關(guān)于前文提及的用于確定Si參數(shù)的AAM模型的實例,識別匹配的結(jié)果的參數(shù)可以隨后如被選擇為這樣的置信度度量。
[0061]另一種用于確定目標狀態(tài)的方法可以簡單地包括選擇如Se,該選項,在如在前文實例中所說明的不同狀態(tài)的插值或加權(quán)組合的結(jié)果的檢查指示了這樣的插值的結(jié)果位于預先確定的范圍之外的情況下,是優(yōu)選的。
[0062]用于狀態(tài)的確定的具體實現(xiàn)和目標狀態(tài)將在圖4a_b的實施例的描述中被進一步描述。
[0063]目標狀態(tài)一經(jīng)確定,在圖1a中被記作s,2D投影pi以及關(guān)聯(lián)的深度圖dl將被按照目標狀態(tài)s來變換。在一個實例中,一種利用三角形來表示如臉部特征的方法可以被使用。通過對被這些三角形所定義的距離進行插值,和對在這些新位置處的像素賦予之前被賦予在其之前位置的這些像素的特征的方式,圖像變換可以產(chǎn)生。假使很多這樣的三角形被使用,這樣的方法是很有用的。
[0064]在類似的方法中,投影圖像的像素的更新的2D坐標,與特征關(guān)聯(lián),將根據(jù)新的狀態(tài)被計算。位于在原始2D投影上被定義的三角形之間的像素的顏色和紋理信息,將被賦予在更新的圖像中的位于這些新位置處的三角形之間的像素。如果這樣2D投影上的兩個點具有內(nèi)部坐標(100,100)和(200,200),并且在被變換的投影上其將被變換為坐標(50,50)和(100,100),在坐標(150,150)處的原始像素的顏色將被賦予在被變換的圖像中的在坐標(75,75)處的像素。
[0065]在描述圖4a_b時,另一個更詳細的實現(xiàn)將被進一步描述。
[0066]被調(diào)適的2D投影被記作pi’。
[0067]并行地,根據(jù)目標狀態(tài),關(guān)聯(lián)的深度圖的關(guān)聯(lián)的深度值被調(diào)適。在一些實施例中,對于投影的一些像素,目標狀態(tài)的確定直接包含被調(diào)適的深度值的計算。然后根據(jù)目標狀態(tài)的另外的深度值的調(diào)適也可以通過在已被計算出的被調(diào)適的深度間的插值,如前面的關(guān)于為被調(diào)適的被投影的像素的顏色值的調(diào)適的段落所說明的,來進行。
[0068]被調(diào)適的深度圖被記作dl’。
[0069]基于一般地包括被調(diào)適的2D圖像模型的被變換的深度圖和被變換的2D投影,使用如在3D到2D投影期間自身所使用的變換的逆變換,但現(xiàn)在為被調(diào)適的投影圖像的每個2D像素使用被調(diào)適的關(guān)聯(lián)的深度值,到3D的再投影(re-projection)或反投影(back-projection)能夠被執(zhí)行。
[0070]反投影的結(jié)果被記作p3d_l。[0071]在一些情況下,在3D中的被反投影的點對于形成更新的3D模型是足夠的。
[0072]在另一些實施例中,到3D的反投影與原始3D模型m合并,來獲取更新的或被調(diào)適的3D模型m,。
[0073]圖1b示出用于執(zhí)行本方法的一個實施例的裝置A。
[0074]圖3a示出一個變化的實施例,其中多于I個的投影被從原始3D模型m來執(zhí)行。根據(jù)模型的外形和形狀以及通過第一投影的選擇發(fā)生的遮擋的數(shù)量,或使用用于確定投影參數(shù)本身的如前文所述的方法中的一種,投影本身可以被選擇。一種可能的實現(xiàn)從而能夠基于用3D中的一組三角形來被建模的3D表面的近似。對于這些三角形的每一個,垂直方向被計算。這可以被指向3D模型主體之外的3D “法向”矢量來表示。通過計算在該3D矢量和相機投影方向間的差值,一種用于確定遮擋的簡單的方法被獲取,和對于非遮擋的表面一樣,投影方向應是相反于法向矢量。同樣地,相機投影能夠被調(diào)整,并且其結(jié)果從而也可以表明,為了獲取要被建模的所有特征的,從而具有足夠的分辨率的,足夠好的投影,幾個投影可以是被需要的。作為選擇的,缺省數(shù)目的3個預定的投影也可以被使用,減輕關(guān)于最優(yōu)的相機位置的試驗和差錯計算。
[0075]這些不同的投影被記作pl,p2到pn,具有關(guān)聯(lián)的深度圖dl,d2到dn。這些投影中的每一個從而與具有一定的位置,旋轉(zhuǎn),和相關(guān)聯(lián)的屏幕寬度和長度的虛擬相機關(guān)聯(lián),如圖2a-b中所示。
[0076]這些不同的投影pi到pn的每一個也將經(jīng)歷狀態(tài)提取或操作,導向各自的被確定的狀態(tài)sl,s2到Sn。在一些實施例中這些各自的投影的狀態(tài)能夠被計算,如前文所述,尤其是在要被調(diào)適的特征直接與在考慮中的特征的坐標或像素位置有關(guān)的情況下。
[0077]這些各自的被確定的狀態(tài)Si到sn被用來作為各自的輸入,可能的但不是必須的與外部狀態(tài)輸入se —起,用于目標狀態(tài)s的確定。目標狀態(tài)的該確定可以包括,用反映狀態(tài)的置信度的權(quán)重,執(zhí)行各種輸入狀態(tài)的加權(quán)組合,置信度級別自身是在狀態(tài)提取過程自身中被確定的。對于用于確定Si參數(shù)的AAM方法的早前的實例,識別匹配結(jié)果的參數(shù)可以隨后例如被選擇為這樣的置信測量。
[0078]用于確定目標狀態(tài)的另一種方法可以簡單地由選擇輸入狀態(tài)中的一個,或選擇不同的狀態(tài)中的,其選項能夠是優(yōu)選的外部狀態(tài)假使如前例中說明的插值或加權(quán)組合的結(jié)果的檢查指示這樣的被插值的結(jié)果位于預先確定的范圍之外,來組成。
[0079]目標狀態(tài)s形成n個各自的投影和它們各自的關(guān)聯(lián)的深度圖的被更新的標準。更新的投影被記作pl’,p2’到pn’,并且更新的深度圖被記為dl,,d2,到dn’。
[0080]基于與投影中的每個2D像素關(guān)聯(lián)的更新的深度值,這些更新的投影pl’,p2’到pn’的每一個然后被反投影到3D。這些反投影被與原始模型合并來創(chuàng)建更新的或被調(diào)適的模型。
[0081]圖3b示出一種用于執(zhí)行該變化的方法的裝置的實施例。
[0082]圖4a描述了一種用于調(diào)適人的頭部的3D模型的實施例。在該實施例中,該模型的狀態(tài)與臉部表情相關(guān),但在其它的實施例中,該狀態(tài)也可以與頭發(fā),眼睛,皮膚,等等的顏色相關(guān)。在該特定的實施例中的目標是使用被輸入2D視頻所提供的臉部特征來動畫化3D模型。
[0083]在圖3a上該輸入視頻被記作IV。對于視頻的每一幀,物體的比例和方位相對于3D模型中那些來被估計。這對于確定與3D模型到2D平面的虛擬相機視點相關(guān)的第一投影是優(yōu)選的,該投影應與捕獲2D視頻的相機中所使用的2D投影盡可能相像。第一投影的該特定的選擇不是必須是這樣的,但其對于容易的更新可以是有利的。關(guān)于該特定的投影,3D模型到2D平面的投影應該從而使用帶有關(guān)聯(lián)的投影參數(shù),其與用于已得到輸入視頻的2D圖像的相機的那些參數(shù)盡可能接近地相像。
[0084]這些投影參數(shù)的計算是根據(jù)如將在下文中被描述的技術(shù)來被完成的。
[0085]為該虛擬相機確定參數(shù)的過程的輸入是人臉的3D數(shù)據(jù)庫模型和實時2D視頻輸入。和3D數(shù)據(jù)庫模型的臉部特征的3D位置一樣,在實時視頻輸入中的臉部特征的2D位置以及網(wǎng)絡相機和虛擬相機的投影矩陣是已知的,這些數(shù)據(jù)對于計算在實時視頻輸入中的臉部的臉部特征的3D位置是足夠的。如果在實時視頻輸入中的臉部特征的3D位置從而是已知的,連同數(shù)據(jù)庫模型的相應的臉部特征的3D位置,在相應的3D位置之間的3D變換(平移和旋轉(zhuǎn))能夠被計算。作為選擇地,為了捕獲3D數(shù)據(jù)庫模型的與在實時視頻輸入中所見的相同的2D視點(viewpoint),在虛擬相機上所需的3D變換(平移和旋轉(zhuǎn)),能夠從而也被計算出來。對于所述要被應用到該虛擬相機上的變換的計算,所需特征點的最小數(shù)量是3。因為人的臉部由于變化的和不同的表情不是剛體,采用更多的臉部特征將需要解決最小化問題。所以3個穩(wěn)定點,如左眼的左邊緣,右眼的右邊緣以及嘴的上部,被使用。在數(shù)據(jù)庫模型中的這些3個臉部特征的3D位置,連同在實時視頻輸入中的相應的臉部特征的2D位置以及網(wǎng)絡相機投影矩陣,接下來被輸入給眾所周知的Grunert算法。該算法將提供這些相應的3個臉部特征的被計算出來的3D位置。這能夠依次被用于圍繞3D數(shù)據(jù)庫模型地移動該虛擬相機,以便捕獲如被在實時視頻輸入中的臉部所提供的同樣的數(shù)據(jù)庫模型的2D視圖。
[0086]在一些實施例中,如圖4a中所示,使用3D模型的另外一個投影可以是被優(yōu)選的。假使使用導致與視頻輸入的圖像的最優(yōu)投影相似的相機參數(shù)的第一投影,仍然不能導致足夠的像素數(shù)據(jù),如當在投影圖像中臉部的一部分被鼻子遮擋時,這可以是可取的。
[0087]這在圖5a中被說明,在左邊的矩形中示出被“真實的”人的“真實的”相機所捕獲的視頻,同時右邊的矩形的左邊部分示出使用第一虛擬相機,記作虛擬相機1,的3D模型的投影。如能夠被觀察到的,通過該虛擬相機的3D模型的投影與被“實時”2D相機使用的投影條件匹配。然而臉部的左邊部分的一些像素仍然被鼻子遮擋。從而另一個投影,通過另一個虛擬相機被執(zhí)行,該相機被記作“虛擬相機2 ”。它的參數(shù)基于另一個相機位置的被遮擋的像素來被確定。這能夠,如基于虛擬相機的內(nèi)在參數(shù)比如焦點和外在參數(shù),以及3D模型的知識來被確定。該信息將使得可以確定是否3D模型的要被建模的特征的兩個體素(voxels)或3D點將被投影到2D投影中的同一個像素。如果是這樣的話,顯然遮擋將會發(fā)生?;谠撔畔ⅲ硪粋€虛擬相機位置可以隨后被計算出來,至少為該體素允許不同的投影。通過對所有的被投影的像素執(zhí)行該檢查,遮擋的存在能夠被確定,并且基于此,另一個虛擬相機位置和旋轉(zhuǎn)能夠被確定。
[0088]在另一個實施例中,若干被預先確定的或從它們中選擇的虛擬相機能夠被用來得到感興趣的特征的投影。作為選擇地,用于分別地提供前視圖和在90度的兩個側(cè)視圖的虛擬相機的標準配置也可以被使用,并且依賴于哪個特征要被建模,所有的投影,或它們的子集能夠被使用。
[0089]假使僅兩個投影被使用,該第二投影的結(jié)果在圖5a的右邊的矩形的右邊部分被示出。連同投影Pl和P2,關(guān)聯(lián)的深度圖也被創(chuàng)建,記作dl和d2。對于每個2D被投影的像素,其指示相對深度,包括通過借助方程式(I)得到的關(guān)于各自的相機位置的旋轉(zhuǎn)的信息,如同從各自虛擬相機I或2的視角被觀察到的一樣。關(guān)于兩個投影的每一個的深度圖在右邊的矩形的下部圖形中被表示出來。
[0090]在接下來的步驟中,狀態(tài)既從投影pl又從p2,以及從輸入視頻的連續(xù)的幀被提取出來。如在此實施例中一樣,狀態(tài)與臉部表情有關(guān),其從而要被表征化。使用現(xiàn)有技術(shù)比如前面提及的AAM技術(shù),與這些臉部表情相關(guān)的特征既從輸入視頻的連續(xù)的幀,又從2D投影中被提取出來。如早前解釋的基于模型的3D狀態(tài)并且基于相應的體素投影來計算投影的狀態(tài)也是可能的。這在圖5b中,在指示了在實時2D幀上的嘴和眼睛的邊緣的不同的像素的位置的左邊矩形中,被示出。這些同樣的特征的這些位置從而也在投影上被確定。在圖5b的右邊的部分,這僅為投影pl示出,但明顯地這也在投影p2上發(fā)生,其在該圖形中未被示出以便不使圖的信息過量。在本特定的實施例中,各自的狀態(tài)對應于與在Pl,P2和在輸入幀上呈現(xiàn)的這些特征的相關(guān)聯(lián)的像素的位置。這些狀態(tài)被分別記作sl,s2和se。由于僅Pl在圖5b中被示出,同樣地僅sl被示出。這3個狀態(tài)被用于確定目標狀態(tài),其在本實施例中對應于狀態(tài)Se。而在本實施例中,各自的狀態(tài)Si和s2從而不被用于目標狀態(tài)的確定,雖然如此,這些各自的狀態(tài)Si和s2被在根據(jù)目標狀態(tài)的投影的變換中被使用。目標狀態(tài)是從而也被用于調(diào)適2D投影pl和p2。對于虛擬攝像機相機,相應于“真實的”視頻攝像機相機,該調(diào)適能夠通過用在視頻幀中所出現(xiàn)的這些特征的相應的像素位置替代被選擇的特征的像素位置來被容易地完成。憑借把虛擬攝像機相機I作為映射到真實的攝像機相機的選擇,這能夠被容易地完成。為了調(diào)適通過另一個虛擬攝像機相機2獲取的2D投影p2,一種可能的方法包含計算首先在3D中被確定的p2的被調(diào)適的特征的位置。這能夠基于被調(diào)適的投影pl’和被調(diào)適的深度圖dl’來被完成。對于這些在pl’中可見的特征,這允許確定,計算它們在3D中的位置。通過為第二投影使用該投影參數(shù),它們在p2’上的相應的位置能夠被確定。對于從Pl和pl’的被遮擋的特征,插值技術(shù)可以被用來計算被調(diào)適的投影和被調(diào)適的深度圖。
[0091]一旦對于pl和P2的關(guān)鍵特征的新的位置被知道,變形技術(shù)比如加權(quán)的插值能夠被用來確定非關(guān)鍵特征的像素的顏色和深度。
[0092]在圖5b上的右邊的矩形的下部圖形中示出投影pl的調(diào)適。明顯地,該投影現(xiàn)在是被調(diào)適到“帶笑的”臉部表情,如在左手邊的矩形的輸入視頻幀上所呈現(xiàn)的。這也將在投影p2上出現(xiàn)(在圖5b上未示出)。
[0093]使用被調(diào)適的深度圖,被調(diào)適的投影pl’和p2’然后都被重投影到3D并且被合并來代替或更新老的數(shù)據(jù)。用于dl’的數(shù)據(jù)可以基于被調(diào)適的深度等于初始深度的近似來被計算出來,從而與在考慮中的特征相關(guān)并具有投影坐標xpA,ypA的像素A的初始深度d(A),將被賦予具有坐標xpA’,ypA’的像素,xpA’和ypA’是該在考慮中的特征的被調(diào)適的坐標。
[0094]在這方面,應提到的是被調(diào)適的2D圖形的所有的反投影在3D域中應是一致的。這基本上意味著當反投影在多于一個2D被投影的圖像中可見的被變換的特征時,該特征應從所有投影被反投影到相同的3D位置。所以如果嘴角被變換,并且該嘴角在這些投影中的幾個中存在,所有的反投影坐標應該是相同的。
[0095]假定x_3d是關(guān)于在考慮中的3D物體的一定的特征(如,鼻尖)。x_3d是帶有信息(x,y,z,顏色)的矢量。x_2dz是在2D+Z域中的一定的特征,它是包含信息(x_2d, y_2d,深度,顏色)的矢量。
[0096]根據(jù)一定的虛擬相機Cl的3D到2D+Z的投影是用函數(shù)p來建模的:
[0097]p (cl, x_3d) =x_2dz_cl[0098]現(xiàn)在讓我們考慮狀態(tài)調(diào)適的3D模型。在狀態(tài)調(diào)適之后的被期望的3D特征被稱為x’_3d。3D狀態(tài)轉(zhuǎn)移函數(shù)是111_3(1:
[0099]X’ _3d=m_3d (x_3d)
[0100]這表示
[0101]x,_2dz_cl=p (cl, x' _3d) =p (cl, m_3d (x_3d))
[0102]由于關(guān)于狀態(tài)的調(diào)適是在投影上被執(zhí)行的,從而在2D+Z域中,m_3d函數(shù)不可用。這能夠通過使用m_2dz函數(shù)來近似:
[0103]x"_2dz_cl=m_2dz (cl, x_2dz_cl)
[0104]其能夠是3D狀態(tài)一致的,僅當
[0105]X’_2dz_cl=x"_2dz_cl
[0106]這表示函數(shù)p(cl,m_3d)和111_2(^((31)在被考慮的域中是實際上相同的。
[0107]如果是這樣的話,沒有問題并且前面提及的方法能夠被使用而沒有任何問題。如果不是,附加的步驟必須被實現(xiàn)。
[0108]把這考慮進來的投影參數(shù)的仔細的選擇,可以從一開始就解決這個問題。
[0109]然而,如果這沒有被考慮進來,可能有這樣的不一致。問題中的一個是當使用多個2D+Z源來重建3D模型時,這些源的反投影需要關(guān)于狀態(tài)轉(zhuǎn)移函數(shù)“達成一致”。當函數(shù)是3D狀態(tài)一致的,這沒有問題(由于所有2dz函數(shù)實際上實現(xiàn)3d狀態(tài)轉(zhuǎn)移函數(shù)(state transferfunction)的具體的2dz版本)。當它們不是3d狀態(tài)一致的,我們需要強制它們的一致性,或是通過“正確的”3d狀態(tài)轉(zhuǎn)移函數(shù),或是通過其近似。這能夠被完成例如通過選擇一個參照2DZ狀態(tài)轉(zhuǎn)移函數(shù),并且投影所有其他的狀態(tài)轉(zhuǎn)移函數(shù)到該參照:
[0110]x' _2dz_clref=m_2dz(clref, x_2dz_clref)
[0111]現(xiàn)在我們考慮m_2dz (clref)作為我們的參照2dz狀態(tài)轉(zhuǎn)移函數(shù)。我們能夠通過經(jīng)由3D域的移動來建立其它的函數(shù):
[0112]X’ _3d=p_inv (clref, x' _2dz_clref) =p_inv (clref, m_2dz (clref, x_2dz_clref)
[0113]m_2dz (c2, x’ _2dz_c2) =p (c2, x’ _3d) =p (c2, p_inv (clref, m_2dz (clref, x_2dz_clref)))
[0114]注意,在移動通過p (c, x_3d)之后,不是所有從3D中的物體而來的特征都將具有有效值。例如,不在虛擬相機視野中的點,或者被在物體中的其他特征遮擋的點。為了為這樣的點具有一致的轉(zhuǎn)移函數(shù),另外的參照相機將被需要。
[0115]第二實施例是第一實施例的變型,其也包含人的臉部的3D模型的狀態(tài)調(diào)適;但與前實施例截然相反的是其使用2D+Z相機而不是2D相機,如使用立體相機或飛行時間相機(time-of-flight camera)諸比如Microsoft Kinect0在這種情況下,我們能夠使用在3D坐標中的而不是2D中的臉部特征點作為外部輸入。我們再一次采用和所需的一樣多的離線模型的2D+Z投影來覆蓋被實時數(shù)據(jù)所修改的所有的點并且推斷出狀態(tài)到這些投影上的狀態(tài)。人們能夠例如通過對‘離線的’2D+Z數(shù)據(jù)使用前面的實施例的變形技術(shù)來合并數(shù)據(jù),但是現(xiàn)在為特征點也使用修改的Z數(shù)據(jù)。
[0116]在這些實施例中,我們能夠減少3D狀態(tài)調(diào)適的問題。其中我們從由一個或多個2D圖形到完全的3D模型轉(zhuǎn)移狀態(tài)開始,現(xiàn)在縮小為從2D到2D+Z轉(zhuǎn)移狀態(tài),使得這些操作對于實時應用來說是易控制的。
[0117]雖然本發(fā)明的原理與具體的裝置一起在上文中已被描述,應清楚地理解本說明書僅為用示例的方式來制作,而不是作為如在附錄的權(quán)利要求書中所定義的本發(fā)明的范圍的限制。關(guān)于此點,在權(quán)利要求書中被表達為用于執(zhí)行特定的功能的裝置的任何元件意在包含執(zhí)行該功能的任何方式。這可以包括,例如,電子或機械元件,其用于執(zhí)行該功能,或軟件,其以任何形式,包括,因此,固件,微代碼或其類似物,與用于執(zhí)行該軟件來執(zhí)行所述功能的適當?shù)碾娐?,以及連接到被該軟件所控制的電路的機械元件,如有,相結(jié)合,的組合。本發(fā)明,如被這樣的權(quán)利要求書所定義的,存在于被各種列舉的裝置所提供的功能以權(quán)利要求書要求的方式來被組合和集合起來的事實上,并且除非另被特別地定義,任何物理結(jié)構(gòu)對于本發(fā)明的新穎性具有微小的或沒有價值。 申請人:因此認為能夠提供那些功能的任何裝置與此處所示的那些是等同的。
【權(quán)利要求】
1.用于調(diào)適物體的3D模型(m)的方法,所述方法包括步驟 -執(zhí)行所述3D模型的至少一個投影來獲取至少一個帶有相關(guān)聯(lián)的深度信息(dl)的2D圖像模型投影(Pi ), -在所述至少一個2D圖像模型投影(pi)上執(zhí)行至少一個狀態(tài)提取操作,從而獲取至少一個狀態(tài)(si) -根據(jù)所述至少一個狀態(tài)(Si)并根據(jù)目標狀態(tài)(s),調(diào)適所述至少一個2D圖像模型投影(Pl)與所述相關(guān)聯(lián)的深度信息(dl),從而獲取至少一個被調(diào)適的2D圖像模型(ρ1')以及相關(guān)聯(lián)的被調(diào)適的深度(dl’) -基于所述關(guān)聯(lián)的被調(diào)適的深度(dl’),反投影所述至少一個被調(diào)適的2D圖像模型(pl,)到3D,從而獲取被調(diào)適的3D模型(m,)。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述被調(diào)適的3D模型(m’)基于所述初始的3D模型(m)信息來被進一步確定。
3.根據(jù)權(quán)利要求1或2所述的方法,其中,所述目標狀態(tài)(s)是通過外部施加的語義信息來被獲取的。
4.根據(jù)權(quán)利要求1或2所述的方法,其中,所述目標狀態(tài)(s)是通過外部圖像輸入(IV)的所述狀態(tài)(PS)來被獲取的。
5.根據(jù)權(quán)利要求4所述的方法,其中,所述目標狀態(tài)是通過組合所述外部圖像輸入(IV)的所述狀態(tài)(PS)與所述至少一個狀態(tài)(SI)來被獲取的。
6.根據(jù)權(quán)利要求4所述的方法,其中,所述3D模型的所述至少一個2D投影中的一個是根據(jù)從所述外部圖像輸入(IV)推導出的虛擬相機來被執(zhí)行的。
7.根據(jù)上述權(quán)利要求4至6中任一項所述的方法,其中,所述變換是在從外部的所述實時視頻和所述被投影的2D圖像提取出的關(guān)鍵特征上來被執(zhí)行的,并且其中,用于所述投影的所述關(guān)鍵特征的新位置是基于所述實時視頻的所述關(guān)鍵特征的所述位置來被確定的。
8.適用于執(zhí)行根據(jù)上述權(quán)利要求1至7中任一項所述的方法的裝置(Al)。
9.圖像處理裝置,包括根據(jù)權(quán)利要求8所述的裝置。
10.一種計算機程序產(chǎn)品,包括當在數(shù)據(jù)處理裝置上被執(zhí)行時,適用于執(zhí)行根據(jù)權(quán)利要求I至6中任一項所述的方法步驟的軟件。
【文檔編號】G06T7/20GK103608846SQ201280030695
【公開日】2014年2月26日 申請日期:2012年6月4日 優(yōu)先權(quán)日:2011年6月20日
【發(fā)明者】唐尼·媞加替, 薩米·利芬斯, 馬滕·阿茲 申請人:阿爾卡特朗訊