本發(fā)明涉及圖像處理,尤其是指利用圖像數(shù)據(jù)分析對采集到的視頻圖像進(jìn)行3D人臉網(wǎng)格重構(gòu)。
背景技術(shù):
基于視頻圖像的3D人臉網(wǎng)格重構(gòu)方法,可以用于罪犯監(jiān)控,在不需要罪犯指紋或者身份信息的情況下進(jìn)行人臉重構(gòu),還可以用于三維打印,另外還可以用于三維人臉建模。動畫制作等領(lǐng)域中,對各領(lǐng)域的影響重大。人臉識別的方法可以分為兩類,2D識別方法和3D識別方法。2D識別方法定位形狀和外觀的定位點很少,3D方法有較強的可區(qū)分性和魯棒性,但是匹配高分辨3D模型,計算花費大,需要人工初始化。
近些年2D識別方法和3D識別方法被廣泛使用,Blanz和Vetter建立了3D形變模型減小視頻圖片和合成結(jié)果之前的強度差異,M.Dimitrijevic曾建立了3D形變模型降低識別的光照敏感度,而2D方法隨著形狀回歸方法的使用使得該方法變得成熟,已經(jīng)有許多研究使用2級聯(lián)回歸建立臉部形狀。但是使用級聯(lián)回歸應(yīng)用在3D方法中卻一直被忽略。本發(fā)明將級聯(lián)回歸應(yīng)用于3D方法中,將2D方法和3D方法結(jié)合使用,建立線性形狀模型,估計特征點的位置和清晰度,通過匹配局部3D模型重建臉部形狀,采用3D級聯(lián)回歸,動作變化中面中標(biāo)志保持一致,通過選擇致密的3D點集,臉部被完全標(biāo)記,避免標(biāo)志的位置發(fā)生變化,解決了動作變化定位點不一致和自封閉的問題;此外,采用3D標(biāo)志進(jìn)行2D投影,使計算花費大大減小。3D網(wǎng)格不含背景,通用性強,而且實時效果好,
技術(shù)實現(xiàn)要素:
為解決上述問題,本發(fā)明提供一種基于視頻圖像的3D人臉網(wǎng)格重構(gòu)方法,其主要內(nèi)容包括:
(一)視頻中2維人臉圖像輸入;
(二)建立線性形狀模型;
(三)通過級聯(lián)回歸估算人臉特征點;
(四)通過3D模型進(jìn)行匹配;
(五)對人臉進(jìn)行3D重建。
其中,所述對于視頻中2維人臉圖像輸入(一)包括對各類視頻圖像中人臉圖像的輸入;
其中,所述建立一個密集的線性形狀模型(二)包括由一個三維網(wǎng)格和三維頂點(特征點)組成;
進(jìn)一步地,所述三維網(wǎng)格和三維頂點,把3D形狀看成3D頂點坐標(biāo)形成的網(wǎng)格結(jié)構(gòu),3D點分布模型描述形狀的線性變化:
x=[x1;y1;z1;…;xM;yM;zM]
xi(p,q)代表ith標(biāo)志的位置,p=(s,α,β,γ,t)代表了模型的剛性參數(shù),包括球形比例s,3維旋轉(zhuǎn)角度R=R1(α)R2(β)R3(γ)和變化率t;非剛性參數(shù)用q表示,代表ith標(biāo)志的平均位置,d部分的3M立體基向量用表示;向量q代表了在3M×d三維線性子空間的人臉的變形。
進(jìn)一步地,3D臉部變形可以分為兩個獨立的子集:剛性(面部的形狀)和非剛性(面部表情)部分。
其中,所述通過級聯(lián)回歸估算人臉特征點(三),主要步驟為:
1)在訓(xùn)練階段,在圖中確定b的位置區(qū)域,我們將他定義為y*,我們對訓(xùn)練圖像進(jìn)行了人臉檢測,提供了標(biāo)志的初始配置(y0)在這個框架中,使下列函數(shù)中的Δy最小化獲得臉部定位
2)給定圖像的其中一個像素點d∈Ra+1,d(y)∈Rb+1,其中指標(biāo)b定位在圖像中,令h作為特征提取函數(shù),提取長度F的特征,則h(d(y))∈RFb+1
其中β*=h(d(y*))代表圖像標(biāo)記的特征值
3)使特征提取函數(shù)(h)高度非線性,我們使用一系列線性回歸矩陣(Mi),這樣,在訓(xùn)練數(shù)據(jù)中產(chǎn)生一系列從y0到y(tǒng)*的更新
Δyi=Ri-1βi-1+bi-1
yi=y(tǒng)i-1+Δyi→y*
4)在這里,y由3D標(biāo)志的二維投影的位置和相應(yīng)的視覺信息組成,
y=[x1;y1;v1;...;xM;yM;yM]
其中,vi∈[0,1]表明3D標(biāo)志是否可見,可見(vi=1),不可見(vi=0)。
進(jìn)一步地,自動人臉定位需要大量的圖像的訓(xùn)練實例,每個圖片計算相應(yīng)的旋轉(zhuǎn)3D標(biāo)志和2D投影標(biāo)志,3D網(wǎng)格不含背景,在最后的2D圖像中可以任意選擇沒有人臉的圖像來提高多樣性,這樣產(chǎn)生被標(biāo)注的圖像用來訓(xùn)練密集級聯(lián)回歸,最后訓(xùn)練集中使用超過300000個網(wǎng)格。
其中,所述通過3D模型進(jìn)行匹配(四)主要步驟為:
1)迭代算法細(xì)化對應(yīng)關(guān)系
之前的級聯(lián)回歸提供了3D標(biāo)志的二維投影的位置,從二維形狀重建三維形狀,需要使重構(gòu)誤差最小化
這里的P代表了矩陣在二維的投影,z是目標(biāo)的二維形狀,迭代方法在2D標(biāo)志上注冊3D模型,細(xì)化了3D形狀和3D動作的結(jié)合,建立了剛性(p={s,α,β,γ,t})和非剛性(r和s)的轉(zhuǎn)換
2)通過矩陣進(jìn)行矯正
假定在2D和3D標(biāo)志之間有語義對應(yīng),采用矩陣的形式來選擇正確的3D對應(yīng)2D的標(biāo)志,這里的語義對應(yīng)在建模階段已經(jīng)建立,3D標(biāo)志的二維投影標(biāo)志通過級聯(lián)回歸獲得
3)約束可見標(biāo)志
此通過約束可見標(biāo)志的過程,級聯(lián)回歸評估了標(biāo)志的清晰度
ξ={j|vj=1}表明標(biāo)志指標(biāo)的子集是可見的
4)二維測量
進(jìn)入時間同步的二維測量(z(1),...,z(C)),所有的C測量代表相同的三維人臉,但是從不同的角度,通過對所有測量的重建的限制,將上式進(jìn)行擴(kuò)展:
上標(biāo)(k)代表kth次測量,能見度設(shè)置為ξ(k),因為我們觀察的是相同的人臉但是是從不同角度,整體剛性(r)和部分非剛性(s)的測量方法都相同
5)確定剛性、非剛性參數(shù)
假定人臉的剛性結(jié)構(gòu)變化很小(參數(shù)r),只有表情會有變化(參數(shù)s),為了解決這種情況,在時間域中進(jìn)行解決,第一步,我們計算剛性變型參數(shù):
T={z(t)|t=1,...,T}代表時間測量的設(shè)置,rт代表從т計算出的剛性變型參數(shù),這一步里的非剛性參數(shù)設(shè)置為0
第二步,在任意時間幀計算剛性變型參數(shù)t∈[1,...,T],
進(jìn)一步地,頂點數(shù)量的增加對重建錯誤率的降低效果微弱,而且頂點數(shù)量增加影響回歸模型和匹配速度,頂點數(shù)量取較低值;迭代算法次數(shù)的增加對對重建錯誤率的降低效果顯著,對模型尺寸的影響不大,所以迭代算法次數(shù)取較大值。
進(jìn)一步地,使用單目照相機圖像時,對應(yīng)公式有多個解,避免產(chǎn)生3D幻覺,在這里同時使用多個圖像幀。
其中,所述對人臉進(jìn)行3D重建(五)在一個參數(shù)向量中
q:p(q)∝N(q;0,Λ)
參數(shù)的優(yōu)先原則遵循一個平均值為0、方差為Λ的正態(tài)分布,使用主成份分析法確定3維基向量的d部分,則:
我們分別對剛性和非剛性這兩部分進(jìn)行建模,
其中3維基向量的d部分(θ=[θ1;...;θM]∈R3M×d)描述剛性變形,3維基向量的e部分(ψ=[ψ1;...;ψM]∈R3M×d)描述了非剛性變形
進(jìn)一步地,建立剛性部分,我們從每個視頻中選擇中間幀,應(yīng)用主成份分析法確定基向量(θ)和平均值提供了一個整體的線性子空間,描述了人臉形狀的變化
進(jìn)一步地,建立描述非剛性變形(ψ)的線性子空間目標(biāo)是建立一個模型,由自主訓(xùn)練并共享軟邊界的PCA模型集合組成,建立基于部分的模型,使頂點高度相關(guān),形成密集的區(qū)域,由于這些區(qū)域?qū)⒏猛ㄟ^PCA壓縮,為了找到面部表情數(shù)據(jù)驅(qū)動分割,使用了數(shù)據(jù)集中選出的6000幀,數(shù)據(jù)集D∈R6000×3072由6000幀和1024三維頂點組成;把D分為三個子集Dx,Dy,Dz∈R6000×1024每個包含頂點對應(yīng)的空間坐標(biāo),描述頂點之間的相關(guān)測量,通過Dx,Dy,Dz計算相關(guān)矩陣歸一化,然后平均成一個相關(guān)矩陣C;相同區(qū)域的頂點也應(yīng)該在人臉表面互相接近,因此,我們利用計算了模型頂點間距離形成距離矩陣G歸一化到[0,1]范圍,這兩個矩陣整合成一個矩陣。
附圖說明
圖1是本發(fā)明一種基于視頻圖像的3D人臉網(wǎng)格重構(gòu)方法的系統(tǒng)流程圖。
圖2是本發(fā)明一種基于視頻圖像的3D人臉網(wǎng)格重構(gòu)方法的級聯(lián)回歸估算人臉特征點流程圖。
圖3是本發(fā)明一種基于視頻圖像的3D人臉網(wǎng)格重構(gòu)方法的通過3D模型進(jìn)行匹配流程圖。
圖4是本發(fā)明一種基于視頻圖像的3D人臉網(wǎng)格重構(gòu)方法的迭代次數(shù)和定點數(shù)量對重建錯誤率的關(guān)系曲線圖。
圖5是本發(fā)明一種基于視頻圖像的3D人臉網(wǎng)格重構(gòu)方法的對人臉進(jìn)行3D重建流程圖。
圖6是本發(fā)明一種基于視頻圖像的3D人臉網(wǎng)格重構(gòu)方法的人臉重構(gòu)圖。
具體實施方式
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實施例對本發(fā)明作進(jìn)一步詳細(xì)說明。
圖1是本發(fā)明一種基于視頻圖像的3D人臉網(wǎng)格重構(gòu)方法和裝置的系統(tǒng)流程圖。如圖1所示,本發(fā)明提供一種基于視頻圖像的3D人臉網(wǎng)格重構(gòu)方法,其主要內(nèi)容包括:
(一)視頻中2維人臉圖像輸入;
(二)建立線性形狀模型;
(三)通過級聯(lián)回歸估算人臉特征點;
(四)通過3D模型進(jìn)行匹配;
(五)對人臉進(jìn)行3D重建。
視頻中2維人臉圖像輸入包括對各類視頻圖像中人臉圖像的輸入;
建立一個密集的線性形狀模型(二)包括由一個三維網(wǎng)格和三維頂點(特征點)組成,把3D形狀看成3D頂點坐標(biāo)形成的網(wǎng)格結(jié)構(gòu),3D點分布模型描述形狀的線性變化:
x=[x1;y1;z1;...;xM;yM;zM]
xi(p,q)代表ith標(biāo)志的位置,p=(s,α,β,γ,t)代表了模型的剛性參數(shù),包括球形比例s,3維旋轉(zhuǎn)角度R=R1(α)R2(β)R3(γ)和變化率t;非剛性參數(shù)用q表示,代表ith標(biāo)志的平均位置,d部分的3M立體基向量用表示;向量q代表了在3M×d三維線性子空間的人臉的變形。3D臉部變形可以分為兩個獨立的子集:剛性(面部的形狀)和非剛性(面部表情)部分。
圖2是本發(fā)明一種基于視頻圖像的3D人臉網(wǎng)格重構(gòu)方法的級聯(lián)回歸估算人臉特征點流程圖,主要步驟為:
1)在訓(xùn)練階段,在圖中確定b的位置區(qū)域,我們將他定義為y*,我們對訓(xùn)練圖像進(jìn)行了人臉檢測,提供了標(biāo)志的初始配置(y0)在這個框架中,使下列函數(shù)中的Δy最小化獲得臉部定位
2)給定圖像的其中一個像素點d∈Ra+1,d(y)∈Rb+1,其中指標(biāo)b定位在圖像中,令h作為特征提取函數(shù),提取長度F的特征,則h(d(y))∈RFb+1
其中β*=h(d(y*))代表圖像標(biāo)記的特征值
3)使特征提取函數(shù)(h)高度非線性,我們使用一系列線性回歸矩陣(Mi),這樣,在訓(xùn)練數(shù)據(jù)中產(chǎn)生一系列從y0到y(tǒng)*的更新
Δyi=Ri-1βi-1+bi-1
yi=y(tǒng)i-1+Δyi→y*
4)在這里,y由3D標(biāo)志的二維投影的位置和相應(yīng)的視覺信息組成,
y=[x1;y1;v1;...;xM;yM;yM]
其中,vi∈[0,1]表明3D標(biāo)志是否可見,可見(vi=1),不可見(vi=0)。
自動人臉定位需要大量的圖像的訓(xùn)練實例,每個圖片計算相應(yīng)的旋轉(zhuǎn)3D標(biāo)志和2D投影標(biāo)志,3D網(wǎng)格不含背景,在最后的2D圖像中可以任意選擇沒有人臉的圖像來提高多樣性,這樣產(chǎn)生被標(biāo)注的圖像用來訓(xùn)練密集級聯(lián)回歸,最后訓(xùn)練集中使用超過300000個網(wǎng)格。
圖3是本發(fā)明一種基于視頻圖像的3D人臉網(wǎng)格重構(gòu)方法的通過3D模型進(jìn)行匹配流程圖,主要步驟為:
1)迭代算法細(xì)化對應(yīng)關(guān)系
之前的級聯(lián)回歸提供了3D標(biāo)志的二維投影的位置,從二維形狀重建三維形狀,需要使重構(gòu)誤差最小化
這里的P代表了矩陣在二維的投影,z是目標(biāo)的二維形狀,迭代方法在2D標(biāo)志上注冊3D模型,細(xì)化了3D形狀和3D動作的結(jié)合,建立了剛性(p={s,α,β,γ,t})和非剛性(r和s)的轉(zhuǎn)換
2)通過矩陣進(jìn)行矯正
假定在2D和3D標(biāo)志之間有語義對應(yīng),采用矩陣的形式來選擇正確的3D對應(yīng)2D的標(biāo)志,這里的語義對應(yīng)在建模階段已經(jīng)建立,3D標(biāo)志的二維投影標(biāo)志通過級聯(lián)回歸獲得
3)約束可見標(biāo)志
此通過約束可見標(biāo)志的過程,級聯(lián)回歸評估了標(biāo)志的清晰度
ξ={j|vj=1}表明標(biāo)志指標(biāo)的子集是可見的
4)二維測量
進(jìn)入時間同步的二維測量(z(1),...,z(C)),所有的C測量代表相同的三維人臉,但是從不同的角度,通過對所有測量的重建的限制,將上式進(jìn)行擴(kuò)展:
上標(biāo)(k)代表kth次測量,能見度設(shè)置為ξ(k),因為我們觀察的是相同的人臉但是是從不同角度,整體剛性(r)和部分非剛性(s)的測量方法都相同
5)確定剛性、非剛性參數(shù)
假定人臉的剛性結(jié)構(gòu)變化很小(參數(shù)r),只有表情會有變化(參數(shù)s),為了解決這種情況,在時間域中進(jìn)行解決,第一步,我們計算剛性變型參數(shù):
T={z(t)|t=1,...,T}代表時間測量的設(shè)置,rт代表從т計算出的剛性變型參數(shù),這一步里的非剛性參數(shù)設(shè)置為0
第二步,在任意時間幀計算剛性變型參數(shù)t∈[1,...,T],
圖4是本發(fā)明一種基于視頻圖像的3D人臉網(wǎng)格重構(gòu)方法的迭代次數(shù)和定點數(shù)量對重建錯誤率的關(guān)系曲線圖??梢钥闯?,頂點數(shù)量的增加對重建錯誤率的降低效果微弱,而且頂點數(shù)量增加影響回歸模型和匹配速度,頂點數(shù)量取較低值;迭代算法次數(shù)的增加對對重建錯誤率的降低效果顯著,對模型尺寸的影響不大,所以迭代算法次數(shù)取較大值。使用單目照相機圖像時,對應(yīng)公式有多個解,避免產(chǎn)生3D幻覺,在這里同時使用多個圖像幀。
圖5是本發(fā)明一種基于視頻圖像的3D人臉網(wǎng)格重構(gòu)方法的對人臉進(jìn)行3D重建流程圖。
q:p(q)∝N(q;0,Λ)
參數(shù)的優(yōu)先原則遵循一個平均值為0、方差為Λ的正態(tài)分布,使用主成份分析法確定3維基向量的d部分,則:
我們分別對剛性和非剛性這兩部分進(jìn)行建模,
其中3維基向量的d部分(θ=[θ1;...;θM]∈R3M×d)描述剛性變形,3維基向量的e部分(ψ=[ψ1;...;ψM]∈R3M×d)描述了非剛性變形
進(jìn)一步地,建立剛性部分,我們從每個視頻中選擇中間幀,應(yīng)用主成份分析法確定基向量(θ)和平均值提供了一個整體的線性子空間,描述了人臉形狀的變化
進(jìn)一步地,建立描述非剛性變形(ψ)的線性子空間目標(biāo)是建立一個模型,由自主訓(xùn)練并共享軟邊界的PCA模型集合組成,建立基于部分的模型,使頂點高度相關(guān),形成密集的區(qū)域,由于這些區(qū)域?qū)⒏猛ㄟ^PCA壓縮,為了找到面部表情數(shù)據(jù)驅(qū)動分割,使用了數(shù)據(jù)集中選出的6000幀,數(shù)據(jù)集D∈R6000×3072由6000幀和1024三維頂點組成;把D分為三個子集Dx,Dy,Dz∈R6000×1024每個包含頂點對應(yīng)的空間坐標(biāo),描述頂點之間的相關(guān)測量,通過Dx,Dy,Dz計算相關(guān)矩陣歸一化,然后平均成一個相關(guān)矩陣C;相同區(qū)域的頂點也應(yīng)該在人臉表面互相接近,因此,我們利用計算了模型頂點間距離形成距離矩陣G歸一化到[0,1]范圍,這兩個矩陣整合成一個矩陣。
圖6是本發(fā)明一種基于視頻圖像的3D人臉網(wǎng)格重構(gòu)方法的人臉重構(gòu)圖??梢钥闯觯捎枚鄮曨l圖像,獲得3D網(wǎng)格頂點,3D點集將臉部完全覆蓋,動作變化定位點保持一致,并且成功完成人臉重建。
對于本領(lǐng)域技術(shù)人員,本發(fā)明不限制于上述實施例的細(xì)節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實現(xiàn)本發(fā)明。此外,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍,這些改進(jìn)和變型也應(yīng)視為本發(fā)明的保護(hù)范圍。因此,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。