專利名稱:基于視頻流的三維人臉動作檢測和跟蹤方法
技術(shù)領(lǐng)域:
本發(fā)明涉及人臉檢測和跟蹤領(lǐng)域,尤其是指一種在視頻流中對三維人 臉及人臉動作進行檢測和跟蹤的方法。
背景技術(shù):
人臉是每個人都具有的重要特征,是最自然、最常用的交互手段之一, 在計算機視覺和圖形學(xué)等領(lǐng)域具有相當(dāng)廣泛的應(yīng)用,例如人機交互,安全 監(jiān)控,游戲娛樂,計算機動畫等。對人臉和人臉動作進行實時、準確的檢 測和跟蹤,在理論上和實際中都具有重要的意義。如何建立有效的模型, 選擇最具表達能力的特征,構(gòu)造準確的分類器,實現(xiàn)高效穩(wěn)定的跟蹤算法, 都是人們關(guān)心的理論問題。如果能夠得到對人臉及人臉動作的準確的檢測 和跟蹤結(jié)果,就可以用來控制電腦中的對象或角色,或者用來輔助生成具 有真實感的人臉動畫,或者從中獲得表情信息。以往對這方面問題的研究, 主要集中在人臉檢測,人臉關(guān)鍵點定位,人臉和人臉關(guān)鍵點跟蹤這幾個方 面。
人臉檢測可以分為基于規(guī)則的檢測方法和基于統(tǒng)計的檢測方法兩類。 基于規(guī)則的檢測方法是指,首先從候選圖像中抽取幾何形狀、灰度、紋理 等特征,然后檢驗它們是否符合關(guān)于人臉的先驗知識?;诮y(tǒng)計的檢測方 法,將人臉區(qū)域看作一類模式,使用大量的"人臉"與"非人臉"樣本進 行訓(xùn)練,構(gòu)造分類器,然后使用分類器判斷候選圖像是否具有人臉模式。
因此,人臉檢測問題被轉(zhuǎn)化為統(tǒng)計模式識別的二分類問題。P. Viola等人 在2001年提出的綜合Adaboost和Cascade算法實現(xiàn)的實時人臉檢測算法, 在提高人臉檢測精度的同時也大幅度地提高了檢測速度,使得人臉檢測從 真正意義上走向?qū)嵱谩?br>
5人臉關(guān)鍵點定位即是檢測由眉毛,眼睛,鼻子,嘴巴,以及人臉輪廓 等確定的一系列關(guān)鍵點的位置。人臉關(guān)鍵點定位方法可以分為基于可變形 人臉模型的方法,基于投影直方圖分析的方法和模板匹配的方法三類???變形人臉模型的方法即首先通過訓(xùn)練的方法建立一個包含人臉關(guān)鍵點分 布的模型,使用形狀,紋理等特征,對模型參數(shù)進行調(diào)整,得到輸入人臉
上關(guān)鍵點的位置。典型的例子是Cootes等人提出的ASM方法和AAM方法。 基于投影直方圖分析的方法是早期的人臉關(guān)鍵點定位常用的方法,這種方 法基于人臉器官的灰度分布特點,對一定寬度的一個區(qū)域帶,利用灰度的 水平和垂直積分直方圖的峰谷特征,進行人臉器官和關(guān)鍵點的定位。模版 匹配的方法是指,利用人臉或器官的模板在候選窗口逐點滑動進行特征匹 配定位。例如首先使用眼睛樣本建立分類器,然后在人臉區(qū)域上部使用這 一分類器搜索最符合眼睛模式的區(qū)域,從而實現(xiàn)眼睛的定位。
人臉和人臉關(guān)鍵點跟蹤的是在已經(jīng)確定人臉和人臉關(guān)鍵點位置、姿態(tài) 等參數(shù)的條件下,在后續(xù)視頻序列保持這些參數(shù)的輸出。人臉跟蹤等價于 在連續(xù)的視頻幀間創(chuàng)建基于位置、速度、形狀、紋理、色彩等有關(guān)特征的 對應(yīng)匹配問題,常用的跟蹤算法可以分為基于模型的方法和不使用模型的 方法兩類,二者的區(qū)別在于是否使用到人臉這一特定對象的知識。
人臉檢測,關(guān)鍵點定位,以及跟蹤,常常結(jié)合在一起形成一個統(tǒng)一的 整體,以獲得對人臉位置、姿態(tài)和動作的完整表達。在對視頻序列進行處 理和分析的過程中,算法的準確性常常受到很多干擾因素的影響,例如光 照條件的變化,人臉區(qū)域受到遮擋等。另外,當(dāng)人臉位置、姿態(tài)或動作參 數(shù)變化比較劇烈時,檢測和跟蹤的結(jié)果往往也會產(chǎn)生較大的誤差。這些都 是設(shè)計人臉及人臉動作檢測和跟蹤方法需要考慮的問題。
現(xiàn)有技術(shù)在人臉及人臉動作跟蹤方面,仍然存在一些缺陷,制約著相 關(guān)應(yīng)用的實現(xiàn)。在跟蹤精度方面,現(xiàn)有技術(shù)難以達到很高的精度,表現(xiàn)在 對面部器官形狀和動作細節(jié)的刻畫能力不足。在跟蹤的穩(wěn)定性方面,當(dāng)頭 部動作變化范圍較大,或者運動速度過快,或者面部表情較大時,很多跟 蹤方法無法收斂到正確的結(jié)果。在實用性方面,現(xiàn)有技術(shù)對于檢測、定位、 跟蹤這三者的結(jié)合,仍然缺少完整有效的解決方案。本發(fā)明針對這些問題, 平衡各方面性能的需求,同時考慮到實際應(yīng)用中對計算速度的要求,給出了有效的解決方法。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于視頻流的人臉及人臉動作檢測和實 時跟蹤的方法。三維可變形人臉網(wǎng)格的位置、姿態(tài)、形狀和動作參數(shù)用來 描述人臉和人臉動作。本發(fā)明提供的方法不需要對特定的使用者進行訓(xùn) 練,不需要使用者手工參與,可以實現(xiàn)自動從視頻流的前若干幀中檢測出 人臉及人臉關(guān)鍵點的位置,然后就可以在頭部存在較大范圍的轉(zhuǎn)動,較高 速度的運動,以及在較大程度的表情變化的情況下,進行人臉位置、姿態(tài) 和動作的跟蹤。唯一的限制是用戶在視頻流的起始階段為正面姿態(tài)和中性 表情。本發(fā)明提供的方法具有檢測和跟蹤準確,動作跟蹤精細,實時性強 的優(yōu)點。
本發(fā)明提供的基于視頻的人臉及人臉動作檢測和跟蹤方法,包括以下 步驟
(1) 采用自動人臉檢測和定位算法,對輸入視頻圖像上人臉及人臉
關(guān)鍵點位置進行檢測和定位。人臉檢測方法采用了 Adaboost和Cascade 結(jié)合的人臉分類器,人臉關(guān)鍵點定位采用了 AAM算法。
(2) 使用檢測和定位的結(jié)果對三維可變形人臉網(wǎng)格模型的形狀、位 置和姿態(tài)進行初始化。包括以下步驟
(21) 使用將雙眼和嘴巴中心三個點對齊的人臉樣本,訓(xùn)練一個PCA 人臉子空間,用于對檢測和定位的結(jié)果進行評估;
(22) 根據(jù)檢測和定位的結(jié)果,采用最大化后驗概率的方法,調(diào)整三 維可變形人臉網(wǎng)格模型的形狀、位置和姿態(tài)參數(shù);
(23) 根據(jù)三維可變形人臉網(wǎng)格的形狀、位置和姿態(tài)參數(shù),采用紋理 映射的方法,計算出形狀和動作無關(guān)紋理圖像;
(24) 使用(21)中所述的PCA人臉子空間,對二維形狀和動作無關(guān) 紋理圖像進行評估;
(25) 根據(jù)評估的結(jié)果,決定如何采用本次人臉檢測和定位的結(jié)果對 三維可變形人臉網(wǎng)格模型的形狀、位置和姿態(tài)參數(shù)進行初始化。如果評估 顯示本次人臉檢測和定位準確,則將這一結(jié)果記錄下來,當(dāng)準確檢測和定
7位次數(shù)達到設(shè)定值時,使用所有已經(jīng)記錄的結(jié)果的均值對三維可變形人臉 網(wǎng)格模型的形狀、位置和姿態(tài)參數(shù)進行初始化。
(3) 在對三維可變形人臉網(wǎng)格模型的形狀、位置和姿態(tài)進行初始化 的同時,初始化人臉紋理模型。包括以下步驟
(31) 建立人臉紋理模型為每個像素都符合高斯分布的灰度圖像,并 為每個像素設(shè)置可信度指標和初始化完成度指標。
(32) 根據(jù)三維可變形人臉網(wǎng)格的形狀、位置和姿態(tài)參數(shù),采用紋理 映射的方法,計算出形狀和動作無關(guān)紋理圖像;
(33) 根據(jù)三維可變形人臉網(wǎng)格的形狀、位置和姿態(tài)參數(shù),計算出形 狀和動作無關(guān)紋理圖像上每個像素的可信度指標。
(34) 使用形狀和動作無關(guān)紋理圖像,設(shè)置人臉紋理模型中每個像素 高斯分布的均值,設(shè)置每個像素的可信度指標,并根據(jù)可信度指標計算每 個像素的初始化完成度指標。
(4) 使用三維可變形人臉網(wǎng)格模型和人臉紋理模型,采用圖像配準 的方法,在視頻圖像序列中對人臉位置、姿態(tài)和動作進行實時跟蹤。在圖 像配準過程中,使用人臉紋理模型上每個像素的可信度指標和初始化完成 度指標,參與計算三維可變形人臉網(wǎng)格模型的位置、姿態(tài)和動作參數(shù)。每 個像素的可信度指標是由對當(dāng)前幀進行跟蹤后的三維可變形人臉網(wǎng)格模 型的姿態(tài)確定的。具體來說,是由三維可變形人臉網(wǎng)格上三角形面法線方 向與圖像平面法線方向的夾角確定的。
(5) 使用人臉紋理模型和PCA人臉子空間,對實時跟蹤的結(jié)果進行 評估。進行評估時,使用人臉紋理模型上每個像素的可信度指標和初始化 完成度指標,參與計算評估結(jié)果。每個像素的可信度指標是由對當(dāng)前幀進 行跟蹤后的三維可變形人臉網(wǎng)格模型的姿態(tài)確定的。具體來說,是由三維 可變形人臉網(wǎng)格上三角形面法線方向與圖像平面法線方向的夾角確定的。
(6) 根據(jù)評估結(jié)果,確定是否更新人臉紋理模型,是否在下一幀視 頻圖像中重新進行人臉及人臉關(guān)鍵點的檢測和定位,以及是否重新初始化 人臉紋理模型。包括以下步驟
(61)如果評估結(jié)果顯示跟蹤正確,則更新人臉紋理模型,并在下一 幀中繼續(xù)跟蹤;否則,不更新人臉紋理模型,并累計跟蹤不正確的次數(shù)。
8(62) 如果評估結(jié)果顯示跟蹤不正確,并且累計跟蹤不正確的次數(shù)達 到設(shè)定值,則重新進行人臉及人臉關(guān)鍵點的檢測和定位,并在下一幀中使 用這一檢測和定位結(jié)果作為跟蹤的初始值。
(63) 如果評估結(jié)果顯示跟蹤不正確,并且累計跟蹤不正確的次數(shù)達
到另一設(shè)定值,則重新進行人臉及人臉關(guān)鍵點的檢測和定位,重新初始化 人臉紋理模型,并在下一幀中使用這一檢測和定位結(jié)果作為跟蹤的初始 值。
本發(fā)明的有益效果通過采用上述步驟,可以實現(xiàn)對視頻流中的人臉
及人臉動作的自動檢測、定位和實時跟蹤。在檢測和定位階段,使用PCA
模型進行評估,保證了檢測和定位的準確性。由于人臉紋理模型是在跟蹤 前的檢測和定位階段進行初始化的,所以不需要針對特定使用者進行提前 訓(xùn)練的過程,可以適用于任何使用者。使用三維可變形人臉網(wǎng)格進行位置、 姿態(tài)和動作的跟蹤,可以適用于頭部姿態(tài)和表情具有較大幅度變化的情
況,動作跟蹤精細。同時使用人臉紋理模型和PCA模型對每一幀跟蹤的結(jié)
果進行評估,保證了跟蹤的準確性,以及在極端情況跟蹤出現(xiàn)異常中斷的 時候能夠采用重新檢測和定位等方式重新恢復(fù)跟蹤。在跟蹤過程中實時更 新人臉紋理模型,保證了跟蹤算法對于光線變化具有一定魯棒性。由于采 用了隸屬于人臉紋理模型每個像素可信度指標,本方法具有對姿態(tài)和表情 變化的高度穩(wěn)定性。
圖1為本發(fā)明的人臉及人臉動作檢測和跟蹤方法的流程圖; 圖2為本發(fā)明使用的AAM模型示意圖3為初始化三維人臉網(wǎng)格模型的形狀、位置和姿態(tài)參數(shù)步驟的流程
圖4為三維可變形人臉網(wǎng)格模型和坐標軸方向定義的示意圖; 圖5為為了確定三維可變形人臉網(wǎng)格模型的參數(shù)^而取的34個點的 位置;
圖6 (a) 圖6 (d)為形狀和動作無關(guān)紋理圖像示意圖7 U) 圖7 (d)為形狀和動作無關(guān)紋理圖像每個像素對應(yīng)的可信度指標。的示意圖8為使用本發(fā)明提供的方法進行人臉及人臉動作跟蹤示例。
具體實施例方式
參見圖1,本發(fā)明提供了一種人臉及人臉動作檢測和跟蹤方法,按照
以下步驟實施,其中,步驟(1) (3)為檢測和定位階段,發(fā)生在輸入 視頻序列的前若干幀,步驟(4) (6)為跟蹤階段,發(fā)生在后續(xù)視頻序
列的每一幀
(1)采用自動人臉檢測和定位算法,對輸入視頻圖像上人臉及人臉 關(guān)鍵點位置進行檢測和定位。
人臉檢測方法采用了 Adaboost和Cascade結(jié)合的人臉分類器,這一 方法根據(jù)文獻(Viola P. , Rapid object detection using a Boosted cascade of simple features, In Proc IEEE Conference on Computer Vision and Pattern Recognition, pp:511—518, 2001)中提出的算法實 現(xiàn)為了方便專利審查,也為了幫助公眾更直接地理解發(fā)明,對于那些就滿 足專利法第26條第3款(說明書應(yīng)清楚、完整地描述發(fā)明)的要求而言 必不可少的內(nèi)容,不能采用引證其他文件或者本申請中其他段落的方式撰 寫,而應(yīng)當(dāng)將其具體內(nèi)容寫入說明書中。矩形Haar特征通過計算圖像中 相鄰區(qū)域像素灰度差,對人臉圖像的灰度分布進行表達。為了從大量特征 中選擇最具分類能力的有效特征,使用了基于Adaboost的統(tǒng)計學(xué)習(xí)算法 在。為了提高人臉檢測的速度,采用了層次結(jié)構(gòu),即,相對較少的弱分類 器結(jié)合形成強分類器,多個強分類器串聯(lián)進行分類,被前級強分類器判斷 為非人臉的圖像不再輸入后級分類器,只有被所有強分類器都判斷為人臉 的圖像才作為人臉檢測結(jié)果輸出。
人臉關(guān)鍵點定位采用了 AAM (Active Appearance Model)方法,這一 方法根據(jù)文獻 (I. Matthews, S. Baker, Active Appearance Models Revisited, International Journal of Computer Vision, v60, n2, ppl35-164, November, 2004)中提出的算法實現(xiàn)為了方便專利審查,也 為了幫助公眾更直接地理解發(fā)明,對于那些就滿足專利法第26條第3款 (說明書應(yīng)清楚、完整地描述發(fā)明)的要求而言必不可少的內(nèi)容,不能采用引證其他文件或者本申請中其他段落的方式撰寫,而應(yīng)當(dāng)將其具體內(nèi)容 寫入說明書中。在這種方法中,形狀模型和紋理模型用來表示人臉,每個 模型都是由平均參數(shù)加上若干變化參數(shù)組成的。參數(shù)與人臉形狀和紋理的 對應(yīng)關(guān)系由使用標定好的人臉圖像進行的訓(xùn)練過程得出。在進行關(guān)鍵點定 位時,為了提高速度,采用了反轉(zhuǎn)合成圖像對齊方法。
我們使用的AM1模型由87個關(guān)鍵點組成,見圖2,將進行關(guān)鍵點定位 后,這87個關(guān)鍵點在圖像坐標系中的坐標記為尸扁,=(^雄,,,少扁,,)7', z = o,...,86。采用320X240的彩色視頻圖像作為輸入,轉(zhuǎn)換為灰度圖像后, 使用上述方法進行人臉檢測和關(guān)鍵點定位,完成一次人臉檢測和人臉關(guān)鍵 點定位的總時間小于100ms。
(2)使用檢測和定位的結(jié)果對三維可變形人臉網(wǎng)格模型的形狀、位 置和姿態(tài)進行初始化在此處,不能采用"流程如圖3所示"這樣的表達方 式,而應(yīng)對照圖3對整個流程進行詳細的描述,以符合專利法實施細則第 18條的規(guī)定。
我們使用的三維可變形人臉網(wǎng)格模型的示意圖見圖4,這一模型根據(jù) Candide-3t莫型(J. Ahlberg, CANDIDE-3-An Updated Parametrized Face, Dept. Elect. Eng. , Link6ping Univ. , Sweden, 2001, Tech. Rep. LiTH-ISY-R-2326.)修改而來。我們使用的三維可變形人臉網(wǎng)格模型在 Candide-3模型的基礎(chǔ)上增加了人臉兩側(cè)頂點和面的數(shù)量,以增強頭部姿 態(tài)變化較大條件下的跟蹤穩(wěn)定性;并且,網(wǎng)格模型上每一個三角形的三個 頂點的編號都按照順時針的次序重新進行了排列,可以在網(wǎng)格模型的參數(shù) 變化后,計算出每個三角形面的法向方向。三維可變形人臉網(wǎng)格模型的形
狀可以用一個向量表示^(x^,^…^,;v^f ,其中"=121為網(wǎng)格頂點數(shù)量, 0c,,乂,z,f為網(wǎng)格頂點坐標,卜1,...^,網(wǎng)格頂點用尸,表示,S=0c,,y,,Z,)7'cg。
網(wǎng)格模型的形狀是可以變化的,即
g = g + Srs(1)
其中g(shù)為平均形狀,&,為形狀變化增量,A力為動作變化增量,前者描述 網(wǎng)格模型針對不同的人臉在整體形狀上的變化,如臉的高度,寬度,兩眼 的距離,鼻子、嘴的位置等,后者描述臉部動作(即表情)引起的網(wǎng)格形 狀的變化,如張嘴,鈹眉等。S和^分別為形狀變化和動作變化矩陣,矩陣的每一列都對應(yīng)一種獨立的變化模式。^和^分別為形狀變化和動作變 化系數(shù)向量,改變他們的值,就可以使網(wǎng)格形狀g產(chǎn)生變化。
在本發(fā)明提供的方法中,形狀變化系數(shù)^是在檢測和定位以后確定 的,在跟蹤過程中不再發(fā)生改變,除非跟蹤失敗,需要重新初始化網(wǎng)格模 型;動作變化系數(shù)^在跟蹤過程中根據(jù)每一幀圖像上人臉的動作進行調(diào) 整,在檢測和定位階段,假設(shè)^中的每個值都為0,即人臉為中性表情。 人臉的動作跟蹤的結(jié)果即由r,表達。另外,檢測定位和跟蹤階段都需要確 定人臉三維網(wǎng)格模型的位置和姿態(tài)參數(shù),即對人臉位置和姿態(tài)跟蹤的結(jié) 果,用六個參數(shù)表示,分別為模型繞依附于圖像的直角坐標系三個坐標 軸的旋轉(zhuǎn)角度A, ,A,模型在圖像坐標系中的平移量^, ~,以及將 網(wǎng)格模型g變化到圖像坐標系所需的尺度變換系數(shù)"綜上所述,在檢測 和定位階段,需要確定的參數(shù)記為/^(& A人AA^)、在跟蹤階段,需 要確定的參數(shù)記為"(^AHf一,、f 。
為了將網(wǎng)格模型g變換到依附于圖像的直角坐標系,即圖像坐標系上, 我們采用了弱投影變換
=MO,,x,z,,l)r (2) 其中(",^,f為網(wǎng)格模型第/個頂點在圖像上的坐標,M為2X4的投影矩陣, 由^的前6個分量確定。使用(1)和(2),就可以計算出任意位置、姿 態(tài)、形狀、動作參數(shù)下,三維可變形人臉網(wǎng)格模型的頂點在圖像坐標上的
根據(jù)圖3所示的流程,首先,我們使用了 799幅正面人臉圖像,訓(xùn)練 一個PCA人臉子空間模型。這些圖像來自799個不同的人,處于不同的光 照條件下。為了使子空間能夠用較少的維數(shù)表達盡可能多的人臉紋理和光 照變化,將所有人臉圖像的雙眼和嘴的中心的位置進行了對齊。在本發(fā)明 提出的方法中,PCA人臉子空間模型用于判斷人臉紋理是否為正常的人臉 圖像。這一判斷依賴于下面定義的相似性測度
<formula>formula see original document page 12</formula>
其中M為PCA人臉子空間的維數(shù),x為人臉紋理圖像,e是使用PCA模型
對輸入人臉紋理進行近似時產(chǎn)生的重建誤差,A,是PCA中#個最大的特征值,C是將人臉紋理投影到PCA人臉子空間時的投影系數(shù),/^是訓(xùn)練PCA
模型時,除了最大的M個特征值以外,其它特征值的算術(shù)平均值。
在使用人臉檢測和關(guān)鍵點定位算法得到AAM模型所定義的人臉上87 個關(guān)鍵點的坐標戶皿,,后,對三維可變形人臉網(wǎng)格模型的位置、姿態(tài)和形狀
參數(shù)進行初始化,即通過P^,, (/ = 0,...,86)確定向量p的值。為了實現(xiàn)這
一目的,我們從AAM模型中和三維人臉網(wǎng)格模型中選擇了 34對具有相同 定義的點對。相同定義的點對是指在兩個模型中,兩個點分別所處的相對 于人臉器官的位置是相同的,例如都是左眼外眼角的點,或者都是左側(cè)嘴 角的點,等等。三維人臉網(wǎng)格模型上的這34個點的選取見圖5,它們在圖 像平面上的坐標記為K,^y, / = 0,...,33,可以通過(1) (2)計算出來。 AAM模型上對應(yīng)的34個點在圖像平面上的坐標記為(。,G.f, y = 0,...,33。
(~,,/可以根據(jù)定義,由/^,計算出來,例如
0^25 , ^25 )
最小化(^,^y和(^G:r之間的距離,就可以求出三維人臉網(wǎng)格模型的
參數(shù)p,即最小化能量函數(shù)
^)=z
>0
2(4)
直接求使(4)最小化的p容易引起過擬合現(xiàn)象,因此,我們采取了 一種最大化后驗概率的方式,即在已知三維人臉網(wǎng)格模型上34個點的位 置分布F的條件下,尋找合適的參數(shù)p最大化后驗概率p(pl"。根據(jù)貝葉 斯公式,
M川,)i("P)iV) (5)
13其中第一項,當(dāng)p確定后其概率與A,。y的分布相關(guān),假設(shè)(^,v/'和
^,//之間的距離為高斯分布,方差為^,則/7(^ip) exp
2cr
《
;而
F 乂
第二項,假設(shè)先驗概率Ap)也為高斯分布w(A ),貝L 尸(p) exp -:^"ZO-°
L 2 ' J
要使(5)式最大化,只需要最小化a.
為了求出argmin五,使用牛頓迭代法
p = p + a(p*_p) 其中a為大于0,遠小于l的因子,//由下式求得:
g巾
、、 乂
1 5% 2
---^ +——
乂
根據(jù)檢測和定位的結(jié)果,采用上述方法求出三維可變形人臉網(wǎng)格模型 的形狀、位置和姿態(tài)參數(shù)后,就可以采用紋理映射的方法,計算出形狀和 動作無關(guān)紋理圖像。
將三維可變形人臉網(wǎng)格模型上的每個三角形面在輸入圖像上所覆蓋 的像素都映射到一幅圖像上固定的位置,就形成了形狀和動作無關(guān)紋理圖 像。稱為形狀和動作無關(guān)紋理圖像的原因是,理想情況下,不論輸入圖像 中的人臉是什么形狀,做出什么動作,只要三維可變形人臉網(wǎng)格模型的參 數(shù)^和6是準確的,則映射后的圖像上的人臉總是保持不變的,各個人臉
1420
器官只分布在固定的位置上。實際中,由于網(wǎng)格模型是一個三維模型,總 有一些三角形面與圖像平面成接近垂直的角度,在這種情況下,投影的結(jié) 果會產(chǎn)生很大的變形。另外,當(dāng)人臉網(wǎng)格模型存在較大的面外旋轉(zhuǎn)時,一 些三角形面的正方向(指向網(wǎng)格模型外的方向)與圖像平面向外的法線方 向的夾角大于90度,這些三角形面投影得到的像素也是沒有用處的。所 以,在使用形狀和動作無關(guān)紋理圖像時,需要考慮到三角形面角度變化引 起的圖像變形問題。圖6是一些網(wǎng)格參數(shù)和對應(yīng)的形狀和動作無關(guān)紋理圖
像的例子,其中圖6 (a)、圖6 (b)和圖6 (c)為參數(shù)正確的情況,圖6 (d)為參數(shù)不正確的情況。可以看出,當(dāng)參數(shù)正確時,在人臉的正面部 分,紋理圖像基本是動作無關(guān)的。
根據(jù)輸入圖像和三維可變形人臉網(wǎng)格模型的參數(shù)計算形狀和動作無
關(guān)紋理圖像的過程可以用下面的式子表示
jc =『0,rs,6) (6)
其中x為形狀和動作無關(guān)紋理圖像,y為輸入的視頻圖像。在跟蹤過程中, 由于&是固定不變的,所以映射過程可以簡化為
jc =『o,6) (7)
在計算形狀和動作無關(guān)紋理圖像時,由于圖像上每個像素點屬于哪個 三角形面,以及在三角形面中的相對位置是什么,是固定的,所以可以提 前計算出來。即保存形狀和動作無關(guān)紋理圖像上每個像素點的對應(yīng)的三角 形面編號,以及到三角形三個頂點的相對距離,在進行(6)或(7)的計 算時,直接使用這些保存的數(shù)據(jù),找到形狀和動作無關(guān)紋理圖像上每個像 素在輸入圖像上對應(yīng)的坐標位置,使用輸入圖像上這個坐標位置周圍的像 素進行插值,或者使用輸入圖像上距離這個位置最近的像素的值作為輸 出,可以顯著提高計算速度。
在計算形狀和動作無關(guān)紋理圖像時,由于圖像上每個像素點屬于哪個 三角形面是確定的,所以可以根據(jù)當(dāng)前形狀、姿態(tài)、動作參數(shù)下的人臉三 維網(wǎng)格模型形狀g,計算出每個像素點所屬的三角形面的法線方向。前面 提到,這一方向與圖像平面向外的法線方向之間的夾角越小,則投影之后 像素的值具有越高的準確性或可用性。將形狀和動作無關(guān)紋理圖像上每一
15像素都具有的這種屬性稱為可信度指標,用r,表示,則有
其中^是單調(diào)下降函數(shù),且有^0) = 1, W2) = 0,仍是這個像素所在的三 角形面的法向方向與圖像平面向外的法線方向之間的夾角。
由(8)式計算出的可信度指標r,將在后面的步驟中使用,可以起到增
強跟蹤算法對頭部姿態(tài)變化魯棒性的作用。圖7 (a) 圖7 (d)是可信
度指標c的示意圖,每組圖像右側(cè)的較小圖像表示左側(cè)圖像中網(wǎng)格狀態(tài)下 對應(yīng)的形狀和動作無關(guān)紋理圖像上每個像素的可信度指標,亮度越高表示 可信度指標越大。
得到形狀和動作無關(guān)紋理圖像后,就可以使用(3)式,對其與人臉 子空間的接近程度進行評估。如果(3)式計算的結(jié)果大于設(shè)定值,說明 形狀和動作無關(guān)紋理圖像是正常人臉,進而說明前面人臉檢測和關(guān)鍵點定 位的結(jié)果是準確的;反之,則說明前面人臉檢測和關(guān)鍵點定位的結(jié)果是不 準確的。
根據(jù)圖3的流程,需要將人臉檢測及關(guān)鍵點定位,計算三維人臉網(wǎng)格 模型參數(shù),計算形狀和動作無關(guān)紋理圖像,以及對其進行評估這樣的過程 執(zhí)行多次。每次執(zhí)行一遍后,如果評估結(jié)果顯示人臉檢測及關(guān)鍵點定位的 結(jié)果是正確的,則將這次的三維人臉網(wǎng)格模型參數(shù)保存下來。當(dāng)人臉檢測 及關(guān)鍵點定位結(jié)果正確的次數(shù)大于某個設(shè)定值,例如5次后,則認為檢測 和定位階段結(jié)束,對這5次正確檢測和定位時的三維人臉網(wǎng)格模型參數(shù)計 算平均值,作為這一步最終輸出的人臉網(wǎng)格模型的形狀、位置和姿態(tài)參數(shù)。 后面的跟蹤過程以這一組位置和姿態(tài)參數(shù)值為初值,而人臉網(wǎng)格模型的形 狀參數(shù)將保持不變。
(3)初始化人臉紋理模型。
人臉紋理模型是一幅與形狀和動作無關(guān)紋理圖像同樣尺寸的圖像,圖 像上的每個像素都符合高斯分布WU,c7,),并且?guī)в辛硗庖粋€屬性初始 化完成度指標/ ,, (^/ ,d。在本文中,人臉紋理模型有時也指p,組成的 圖像。
前面已經(jīng)提到,如果三維可變形人臉網(wǎng)格模型對人臉位置、姿態(tài)、動
16作的跟蹤是正確的,則在形狀和動作無關(guān)紋理圖像中可信度指標較高的部 分,像素亮度分布是基本保持不變的。這種相對不變性就用人臉紋理模型 來描述,即用每個像素亮度的高斯分布A^/,,a,)來描述。
人臉紋理模型在跟蹤階段發(fā)揮作用,但是要在檢測和定位階段就開始
進行初始化,并在跟蹤過程中不斷更新。在步驟(2)中,已經(jīng)使用PCA 人臉子空間對若干次人臉檢測和定位的結(jié)果進行了評估,取其中用(3)
式計算出的相似性測度最高的形狀和動作無關(guān)紋理圖像,令人臉紋理模型 的—,等于此形狀和動作無關(guān)紋理圖像,及
= x, (9)
并令
〃,=化 (10) 其中,A為大于0,小于1的常數(shù),r,為用(8)式計算出的可信度指標。
人臉紋理模型的CT,表示每幀跟蹤時獲得的形狀和動作無關(guān)紋理圖像中,每
個像素亮度變化的劇烈程度。在初始化時,可以將它們設(shè)置為一個相同的
值,例如0.02 (用0 1的浮點數(shù)表示亮度),然后在跟蹤的過程中進行更 新;也可以讓系統(tǒng)試運行一段時間,得到更新比較穩(wěn)定后的c7,,作為最終 設(shè)計完成的系統(tǒng)的a,的初始值,然后同樣在跟蹤的過程中進行更新。
經(jīng)過人臉紋理模型的初始化后,可以想象,由于檢測和定位階段發(fā)生 在視頻流的前若干幀,前面假設(shè)這時人臉處在正面姿態(tài),所以,形狀和動 作無關(guān)紋理圖像中間部分的可信度指標接近于1,兩側(cè)部分的可信度指標 接近于0。如果(10)式中的A取值為1,則初始化后的人臉紋理模型中間
部分的初始化完成度指標A接近于1,兩側(cè)部分的初始化完成度指標接近 于0。在后面的步驟(6)中可以看到,初始化完成度指標決定著人臉紋理 模型每一個像素點模型參數(shù)的更新速度,也就是說,人臉紋理模型中間部 分在跟蹤過程中的更新速度將會比較慢,而兩側(cè)部分的更新速度將在開始 的一段時間內(nèi)將會比較快,直到它們對應(yīng)的初始化完成度指標也接近1。 人臉紋理模型兩側(cè)部分的更新主要發(fā)生在頭部繞y軸發(fā)生旋轉(zhuǎn)的時候。
經(jīng)過前面步驟,檢測和定位階段結(jié)束,人臉紋理模型己經(jīng)建立起來。 在后續(xù)的每一幀中,除非發(fā)生跟蹤中斷的特殊情況,都使用三維可變形人 臉網(wǎng)格模型和人臉紋理模型,對視頻序列中的人臉的位置、姿態(tài)和動作參數(shù)6進行跟蹤,即進入了跟蹤階段。
(4)使用三維可變形人臉網(wǎng)格模型和人臉紋理模型,采用圖像配準 的方法,在視頻圖像序列中對人臉位置、姿態(tài)和動作進行實時跟蹤。
前面已經(jīng)提到,如果三維可變形人臉網(wǎng)格模型對人臉位置、姿態(tài)、動 作的跟蹤是正確的,則在形狀和動作無關(guān)紋理圖像中可信度指標較高的部 分,像素亮度分布是基本保持不變的,即符合人臉紋理模型。所以,可以 利用這種不變性,對人臉網(wǎng)格模型參數(shù)6進行跟蹤,即求使下面的損失函 數(shù)最小的參數(shù)6,,下標 表示是在當(dāng)前時刻f輸入的圖像上進行跟蹤
<formula>formula see original document page 18</formula>
其中W為形狀和動作無關(guān)紋理圖像中的像素數(shù)。暫時不考慮可信度指標的 問題,使(11)式最小的6,,可以使下式成立
<formula>formula see original document page 18</formula>
其中x(W根據(jù)(7)式計算
<formula>formula see original document page 18</formula>
考慮到6,是在V,上變化得到的,對『(XA)在^處進行一階泰勒展開,得:
<formula>formula see original document page 18</formula>
其中G,是梯度矩陣
<formula>formula see original document page 18</formula>
結(jié)合(12) (13) (14)式,可得
<formula>formula see original document page 18</formula>
所以,
<formula>formula see original document page 18</formula>其中,Gf為G,的偽逆矩陣,G,、(G,G,r1《。使用(16)式中的A6,可以 對參數(shù)6進行更新
6' = 6 + 一 (17) e' = e(6') (18)
其中P為0到1之間的實數(shù)。如果e'小于。則用(17)式更新參數(shù)"然 后繼續(xù)(16) (17) (18)的迭代過程,直到達到設(shè)定的收斂條件。如果e' 不小于"則嘗試在(17)式中使用較小的p。如果/ 取很小仍不能使誤 差減小,也認為達到了收斂條件,從而完成對參數(shù)6的更新。
在(16)式中,沒有考慮到遮擋問題。遮擋的結(jié)果是使(16)式中的 ,0;,,6,_,)-&1)項在某些像素點產(chǎn)生很大的值,這種偏差不是正常的人臉 運動和動作引起的,所以會對A6的計算產(chǎn)生不利影響。采用一個A^xW的 對角矩陣丄,對每個像素的偏差部分進行加權(quán),可以在一定程度上去除遮擋
的影響。A對角線上第f個元素的計算公式為
1 剩
射
《,'A-')'一"-'-' (19)
所以,(16)式變成
A6 = -Gfz,(Pro,A—,)-//,_,) (20)
在(20)式中,沒有考慮到形狀和動作無關(guān)紋理圖像中可信度指標的 問題。為了使可信度指標低的點不對A6的計算產(chǎn)生影響,采用一個WxiV的 對角矩陣《對每個像素的偏差部分進行加權(quán)。《對角線上第/個元素的計
算公式為
《,(,X"A (21)
其中r,根據(jù)(8)式計算,A由(10)式初始化,跟蹤過程中的更新方法將 在下面的步驟(6)中進行介紹。所以,(20)式變成
cr ......
,.,, > c
《△6 = -(『(y,, V,) - ) ( 22 )
(22)式是計算參數(shù)更新的最終公式。
在判斷迭代是否收斂時,要考察由(11)式?jīng)Q定的誤差是否減小。考 慮到形狀和動作無關(guān)紋理圖像中可信度指標的問題,同樣需要對e的計算
方法進行加權(quán)
啦)=|>,|^^| /|>, (23) '.=1 LJ / '=1
其中/t,由(21)式?jīng)Q定。
在上述迭代計算參數(shù)6的過程中,需要根據(jù)(15)式計算形狀和動作 無關(guān)紋理圖像對參數(shù)6的梯度矩陣g, 。 g,的每一列都有7V個元素,對應(yīng)6的 一個分量。將g,的第/列記為c^,則^為形狀和動作無關(guān)紋理圖像對參數(shù)
6的第y個分量的梯度向量。在實際中,使用數(shù)值差分的方法計算A:
G —,(少,A一,+c^)-『(乂,V,) (24)
其中數(shù)字5是一個適當(dāng)?shù)牟罘植介L,9,是一個長度和6相同的向量,第y個
分量為1,其它分量都為0。為了獲得更高的計算精度,采用使用多個不
同的步長計算差分再取平均的方法計算^ :
"丄g 『U,V,+化^)-pf(少,a—,) (25)
其中數(shù)字《為圍繞參數(shù)6的第y個分量計算差分時取的最小步長,《是要
取的不同步長的次數(shù),例如可取6或者8。
容易看出,在使用(25)式計算梯度矩陣g,的過程中,需要多次使用 (7)式計算形狀和動作無關(guān)紋理圖像。例如當(dāng)參數(shù)6的維數(shù)為12,《取8 時,計算一次g,就需要使用96次(7)式。在對一幀視頻圖像進行處理時, 迭代往往要進行多次才能收斂,假如使用(22)式的次數(shù)為5次,則需要 96x5 = 480次使用(7)式計算形狀和動作無關(guān)紋理圖像,這會帶來較大 的計算負擔(dān)。事實上,在一般的跟蹤過程中,使用者常常不會做出使參數(shù) 6的所有分量都發(fā)生顯著變化的動作,g,中的一些列,即一些形狀和動作 無關(guān)紋理圖像對參數(shù)6分量的梯度向量,在相鄰的幀之間變化很小,可以 利用這一特點,減少對g,中的一些列的計算。我們使用的方法是,考慮到
20動作無關(guān)紋理圖像中的部分區(qū)域產(chǎn)生影響,
在計算A時,對ffO;,D和『Ov,A-2)這兩幅圖像中會受到參數(shù)6的第y個
分量影響的部分進行比較,即計算兩幅圖像這部分區(qū)域上的均方誤差。如 果誤差小于某個設(shè)定值,則不再重新計算G,.,而是繼續(xù)使用上一幀跟蹤時 用過的A。使用這種方法,即使對于使用者不停地做出各種頭部運動和面
部動作的視頻,也能減小計算G,時的計算量30X以上。如果視頻中目標的 動作較少,還可以將計算量減少得更多。
經(jīng)過步驟(4),完成了對人臉位置、姿態(tài)和動作參數(shù)的跟蹤。
(5) 使用人臉紋理模型和PCA人臉子空間,對實時跟蹤的結(jié)果進行評估。
評估的目的是判斷對這一幀視頻圖像中的人臉及人臉動作的跟蹤是 否準確,如果準確,則更新人臉紋理模型,繼續(xù)跟蹤;如果不準確,則需 要做出相應(yīng)的處理。評估中,使用了兩個獨立的模型,即人臉紋理模型和 PCA人臉子空間模型,同時使用兩個模型可以使評估的結(jié)果更加準確。
對于人臉紋理模型,首先根據(jù)在上一步中對人臉及人臉動作跟蹤的結(jié) 果,即參數(shù)6,使用(7) (8)式計算出形狀和動作無關(guān)紋理圖像和可信度 指標,然后使用(23)式,計算形狀和動作無關(guān)紋理圖像與人臉紋理模型 的偏差。如果偏差小于設(shè)定值,則認為跟蹤成功,否則認為跟蹤失敗。
對于PCA人臉子空間模型,同樣先使用(7)式計算出形狀和動作無 關(guān)紋理圖像。為了克服頭部左右旋轉(zhuǎn)角度較大時引發(fā)的外側(cè)圖像變形,設(shè) 置當(dāng) 的絕對值大于20度時,就將圖像變形較小的一側(cè)的形狀和動作無 關(guān)紋理圖像作水平鏡像翻轉(zhuǎn),取代另一側(cè)變形較大的部分,形成修正的形 狀和動作無關(guān)紋理圖像。對形狀和動作無關(guān)紋理圖像使用(3)式計算與 PCA人臉子空間的相似性測度,如果結(jié)果大于設(shè)定值,則認為跟蹤成功, 否則認為跟蹤失敗。
當(dāng)采用兩個模型評估的結(jié)果都為跟蹤成功時,最終認定跟蹤成功,否 則認定跟蹤失敗。
(6) 根據(jù)評估結(jié)果,確定是否更新人臉紋理模型,是否在下一幀視 頻圖像中重新進行人臉及人臉關(guān)鍵點的檢測和定位,以及是否重新初始化 人臉紋理模型。
21參見圖1所示。在這一步驟中,設(shè)置了一個連續(xù)跟蹤失敗次數(shù)計數(shù)器 和兩個判斷跟蹤中斷的閾值,稱為設(shè)定值L和設(shè)定值H。設(shè)定值L和設(shè)定 值H是根據(jù)連續(xù)出現(xiàn)跟蹤失敗的次數(shù),判斷是否出現(xiàn)跟蹤中斷的閾值。設(shè)
定值H大于設(shè)定值L。如果上一步的評估結(jié)果顯示跟蹤正確,則將連續(xù)跟
蹤失敗次數(shù)計數(shù)器清0,更新人臉紋理模型,并在下一幀中繼續(xù)跟蹤;否
則,將連續(xù)跟蹤失敗次數(shù)計數(shù)器加1。如果連續(xù)跟蹤失敗次數(shù)計數(shù)器的值
達到了設(shè)定值L,則認為發(fā)生了對同一個人跟蹤過程中的跟蹤中斷。這時,
被跟蹤的對象沒有改變,也就是三維可變形人臉網(wǎng)格模型的形狀參數(shù)r,和 人臉紋理模型都不需改變,只需要重新找到人臉的位置和姿態(tài)。所以,重 新進行人臉及人臉關(guān)鍵點的檢測和定位,并在下一幀中使用這一檢測和定 位結(jié)果作為跟蹤的初始值。如果連續(xù)跟蹤失敗次數(shù)計數(shù)器的值達到了設(shè)定
值H,則認為產(chǎn)生跟蹤中斷的原因是被跟蹤的對象發(fā)生了改變,這時,三
維可變形人臉網(wǎng)格模型的形狀參數(shù)r,和人臉紋理模型都需要改變。所以, 重新進行人臉及人臉關(guān)鍵點的檢測和定位,重新初始化人臉紋理模型,并 在下一幀中使用這一檢測和定位結(jié)果作為跟蹤的初始值。
在跟蹤過程中,如果評估顯示跟蹤正確,則需要更新人臉紋理模型,
其意義是當(dāng)光照條件發(fā)生緩慢變化時,更新人臉紋理模型可以克服關(guān)照 變化帶來的影響;只有當(dāng)頭部繞y軸發(fā)生旋轉(zhuǎn)時,形狀和動作無關(guān)紋理圖
像中兩側(cè)的區(qū)域的值才有意義,通過人臉紋理模型的更新過程,可以將這 部分紋理保存下來,增強頭部姿態(tài)變化較大時跟蹤的穩(wěn)定性。當(dāng)從/時刻
過渡到^1時刻時,人臉紋理模型的更新按照下面方式進行
",=(1-A(,)+^A(,)化 (26)
=G+ ,"(,)-/",(,) )2 (28) A(,+,) = + — (29)
其中a,為更新速度系數(shù)。當(dāng)/小于等于某一設(shè)定值,例如30時,當(dāng) f大于這一設(shè)定值時,r保持不變。。為使用(8)式計算出的可信度指標。 x,為形狀和動作無關(guān)紋理圖像。/t為一個0到l之間的實數(shù),控制著初始 化完成度指標A的增長速度。A被限制在不超過l的范圍內(nèi)。在更新人臉
22紋理模型的時候,也應(yīng)該考慮到遮擋等因素,因為如果人臉紋理模型被不 正常地更新,將會對后續(xù)跟蹤過程產(chǎn)生非常不利的影響。因此需要使用類 似于(19)式的方式,先計算形狀和動作無關(guān)紋理圖像與人臉紋理模型的 差別,對于那些差別大于設(shè)定值的像素,認為是遮擋等特殊原因造成的, 不對相應(yīng)的人臉紋理模型中的像素參數(shù)進行更新。
本發(fā)明提供的人臉動作自動檢測和實時跟蹤方法,可以在視頻中自動 檢測人臉位置,并對人臉位置、姿態(tài)和動作進行實時準確的跟蹤。在對姿 態(tài)跟蹤方面,可以穩(wěn)定跟蹤頭部在面內(nèi)任意角度轉(zhuǎn)動,面外左右方向轉(zhuǎn)動
±45度以上,面外上下方向轉(zhuǎn)動土30度以上。在面部動作方面,可以準 確跟蹤嘴部動作和眉毛動作,用動作參數(shù)向量r,的形式表達出張嘴,閉嘴, 微笑,大笑,噘嘴,抿嘴,嘴角下垂,抬眉,皺眉等動作細節(jié)。圖8是對 一段視頻中的人臉動作進行跟蹤的截圖,共有9組,每組圖像右側(cè)的4幅 小圖像從上至下依次為人臉紋理模型的均值,當(dāng)前幀的形狀和動作無關(guān)紋 理圖像,人臉紋理模型的初始化完成度指標,以及當(dāng)前形狀和動作無關(guān)紋 理圖像對應(yīng)的可信度指標。本方法中的檢測、定位和跟蹤可以對任何使用 者進行,不需要針對特定使用者的訓(xùn)練過程。檢測和定位快速,跟蹤可以 滿足實時性要求,對光照和遮擋等具有一定的魯棒性。在跟蹤中斷之后, 可以自動恢復(fù)。此方法在人機交互,表情分析,游戲娛樂等領(lǐng)域具有較高 的實用價值和廣泛的應(yīng)用前景。
以上所述,僅為本發(fā)明中的具體實施方式
,但本發(fā)明的保護范圍并不 局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可輕易想 到的變換或替換,都應(yīng)涵蓋在本發(fā)明的包含范圍之內(nèi)。因此,本發(fā)明的保 護范圍應(yīng)該以權(quán)利要求書的保護范圍為準。
2權(quán)利要求
1. 一種基于視頻流的三維人臉動作檢測和跟蹤方法,其特征在于,包括以下步驟(1)采用自動人臉檢測和定位算法,對輸入視頻圖像上人臉及人臉關(guān)鍵點位置進行檢測和定位;(2)使用檢測和定位的結(jié)果對三維可變形人臉網(wǎng)格模型的形狀、位置和姿態(tài)進行初始化;(3)在對三維可變形人臉網(wǎng)格模型的形狀、位置和姿態(tài)進行初始化的同時,初始化人臉紋理模型;(4)使用三維可變形人臉網(wǎng)格模型和人臉紋理模型,采用圖像配準的方法,在視頻圖像序列中對人臉位置、姿態(tài)和動作進行實時跟蹤;(5)使用人臉紋理模型和PCA人臉子空間,對實時跟蹤的結(jié)果進行評估;(6)根據(jù)評估結(jié)果,確定是否更新人臉紋理模型,是否在下一幀視頻圖像中重新進行人臉及人臉關(guān)鍵點的檢測和定位,以及是否重新初始化人臉紋理模型。
2. 如權(quán)利要求l所述的方法,其特征在于,所述步驟(2)包括(21) 使用將雙眼和嘴巴中心三個點對齊的人臉樣本,訓(xùn)練一個PCA 人臉子空間,用于對檢測和定位的結(jié)果進行評估;(22) 根據(jù)檢測和定位的結(jié)果,采用最大化后驗概率的方法,調(diào)整三 維可變形人臉網(wǎng)格模型的形狀、位置和姿態(tài)參數(shù);(23) 根據(jù)三維可變形人臉網(wǎng)格的形狀、位置和姿態(tài)參數(shù),采用紋理 映射的方法,計算出形狀和動作無關(guān)紋理圖像;(24) 使用(21)中所述的PCA人臉子空間,對二維形狀和動作無關(guān) 紋理圖像進行評估;(25) 根據(jù)評估的結(jié)果,決定如何采用本次人臉檢測和定位的結(jié)果對 三維可變形人臉網(wǎng)格模型的形狀、位置和姿態(tài)參數(shù)進行初始化。
3. 如權(quán)利要求l所述的方法,其特征在于,所述步驟(3)包括 (31)建立人臉紋理模型為每個像素都符合高斯分布的灰度圖像,并為每個像素設(shè)置可信度指標和初始化完成度指標;(32) 根據(jù)三維可變形人臉網(wǎng)格的形狀、位置和姿態(tài)參數(shù),采用紋理 映射的方法,計算出形狀和動作無關(guān)紋理圖像;(33) 根據(jù)三維可變形人臉網(wǎng)格的形狀、位置和姿態(tài)參數(shù),計算出形 狀和動作無關(guān)紋理圖像上每個像素的可信度指標;(34) 使用形狀和動作無關(guān)紋理圖像,設(shè)置人臉紋理模型中每個像素 高斯分布的均值,設(shè)置每個像素的可信度指標,并根據(jù)可信度指標計算每 個像素的初始化完成度指標。
4. 如權(quán)利要求l所述的方法,其特征在于,所述步驟(4)在使用圖 像配準的方法時,使用人臉紋理模型上每個像素的可信度指標和初始化完 成度指標,參與計算三維可變形人臉網(wǎng)格模型的位置、姿態(tài)和動作參數(shù)。
5. 如權(quán)利要求l所述的方法,其特征在于,所述步驟(5)在對實時 跟蹤的結(jié)果進行評估時,使用人臉紋理模型上每個像素的可信度指標和初 始化完成度指標,參與計算評估結(jié)果。
6. 如權(quán)利要求l所述的方法,其特征在于,所述步驟(6)包括(61) 如果評估結(jié)果顯示跟蹤正確,則更新人臉紋理模型,并在下一 幀中繼續(xù)跟蹤;否則,不更新人臉紋理模型,并累計跟蹤不正確的次數(shù);(62) 如果評估結(jié)果顯示跟蹤不正確,并且累計跟蹤不正確的次數(shù)達 到設(shè)定值,則重新進行人臉及人臉關(guān)鍵點的檢測和定位,并在下一幀中使 用這一檢測和定位結(jié)果作為跟蹤的初始值;(63) 如果評估結(jié)果顯示跟蹤不正確,并且累計跟蹤不正確的次數(shù)達 到另一設(shè)定值,則重新進行人臉及人臉關(guān)鍵點的檢測和定位,重新初始化 人臉紋理模型,并在下一幀中使用這一檢測和定位結(jié)果作為跟蹤的初始 值。
7. 如權(quán)利要求2所述的方法,其特征在于,所述步驟(25)包括 如果評估的結(jié)果顯示本次人臉檢測和定位的結(jié)果是正確的,則記錄下這一 結(jié)果;當(dāng)正確檢測的次數(shù)達到設(shè)定值后,對所有結(jié)果進行平均,得到三維 可變形人臉網(wǎng)格的形狀、位置和姿態(tài)參數(shù)初始值。
8. 如權(quán)利要求4或5所述的方法,其特征在于,所述每個像素的可 信度指標是由對當(dāng)前幀進行跟蹤后的三維可變形人臉網(wǎng)格上三角形面的法線方向與圖像平面的法線方向的夾角確定的。
全文摘要
本發(fā)明提出了一種基于視頻流的三維人臉動作檢測和跟蹤方法。該方法首先在視頻圖像中檢測到人臉和人臉上關(guān)鍵點的位置,初始化用于跟蹤的三維可變形人臉網(wǎng)格模型和人臉紋理模型;然后使用這兩個模型,采用圖像配準的方法,對后續(xù)視頻圖像中人臉的位置、姿態(tài)和面部動作進行實時、持續(xù)的跟蹤;一個PCA人臉子空間模型用于對檢測、定位和跟蹤的結(jié)果進行評估,如果發(fā)現(xiàn)跟蹤中斷,則自動采取措施重新恢復(fù)跟蹤。本方法不需要對特定的使用者進行訓(xùn)練,頭部姿態(tài)跟蹤范圍大,面部動作細節(jié)準確,且對光照和遮擋具有一定魯棒性,在人機交互,表情分析,游戲娛樂等領(lǐng)域具有較高的實用價值和廣泛的應(yīng)用前景。
文檔編號G06K9/62GK101499128SQ20081005718
公開日2009年8月5日 申請日期2008年1月30日 優(yōu)先權(quán)日2008年1月30日
發(fā)明者賓 丁, 馮雪濤, 健 姚, 汪曉妍, 王陽生 申請人:中國科學(xué)院自動化研究所;北京盛開交互娛樂科技有限公司