一種領(lǐng)域自適應(yīng)的人臉表情分析方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計(jì)算機(jī)視覺(jué)和情感計(jì)算研宄領(lǐng)域,具體地說(shuō)是一種自動(dòng)人臉表情分析 方法。
【背景技術(shù)】
[0002] 自動(dòng)人臉表情分析是計(jì)算機(jī)視覺(jué)領(lǐng)域一個(gè)由來(lái)已久的研宄問(wèn)題。主流自動(dòng)表情 分析的目標(biāo)是從圖像或視頻中提取出一系列帶有語(yǔ)義級(jí)信息的面部動(dòng)作單元。通常采用 FACS手冊(cè)中的定義。FACS(FacialActionCodingSystem)是行為心理學(xué)家提出的一套研 宄面部表情的細(xì)分標(biāo)注系統(tǒng)。FACS系統(tǒng)將面部動(dòng)作分解為一系列的表情動(dòng)作單元(Action Unit,AU)。每一個(gè)動(dòng)作單元與一個(gè)或多個(gè)面部肌肉運(yùn)動(dòng)相關(guān)。
[0003] 當(dāng)前大部分的表情分析研宄都假定訓(xùn)練(源)數(shù)據(jù)和測(cè)試(目標(biāo))數(shù)據(jù)來(lái)自同一 個(gè)數(shù)據(jù)分布。在分析時(shí)通常采用如下步驟:首先在事先采集好的訓(xùn)練(源)數(shù)據(jù)集上訓(xùn)練 預(yù)測(cè)模型,再將預(yù)測(cè)模型應(yīng)用于測(cè)試(目標(biāo))數(shù)據(jù)集。用于訓(xùn)練的視頻數(shù)據(jù)要求帶有表情 標(biāo)簽,而表情標(biāo)簽通常由受過(guò)專(zhuān)業(yè)訓(xùn)練的標(biāo)注者人工標(biāo)注得到。
[0004] 目前可用于訓(xùn)練的視頻數(shù)據(jù)基本在實(shí)驗(yàn)室受控成像環(huán)境下采集得到。而實(shí)際應(yīng)用 則要求在真實(shí)環(huán)境下的圖像上測(cè)試。真實(shí)環(huán)境人臉圖像中的長(zhǎng)相,姿態(tài)和光照等因素的變 化往往遠(yuǎn)超出訓(xùn)練數(shù)據(jù)的范圍。此時(shí),訓(xùn)練和測(cè)試數(shù)據(jù)之間的數(shù)據(jù)領(lǐng)域(domain)差異就不 能被忽略。這種差異導(dǎo)致傳統(tǒng)算法訓(xùn)練得出的預(yù)測(cè)模型不能在測(cè)試視頻上獲得與訓(xùn)練集內(nèi) 一致的性能。
[0005] 為此,本發(fā)明提出一種具有領(lǐng)域自適應(yīng)能力的表情分析方法。該方法假設(shè)訓(xùn)練數(shù) 據(jù)與測(cè)試數(shù)據(jù)來(lái)自不同的數(shù)據(jù)領(lǐng)域,并設(shè)計(jì)相應(yīng)算法步驟,使得預(yù)測(cè)模型適應(yīng)測(cè)試數(shù)據(jù)領(lǐng) 域。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的是解決表情分析中訓(xùn)練與測(cè)試數(shù)據(jù)領(lǐng)域差異阻礙預(yù)測(cè)精度的問(wèn)題, 從而使得表情分析系統(tǒng)更適合實(shí)際應(yīng)用環(huán)境。本發(fā)明提出了一種具有領(lǐng)域自適應(yīng)能力的表 情分析方法。著眼于個(gè)人移動(dòng)終端應(yīng)用環(huán)境,我們對(duì)每一個(gè)受試對(duì)象定義一個(gè)數(shù)據(jù)領(lǐng)域。對(duì) 象數(shù)據(jù)領(lǐng)域由所有采集自該對(duì)象的視頻數(shù)據(jù)組成。本方法首先通過(guò)一種構(gòu)建輔助預(yù)測(cè)問(wèn)題 的方式來(lái)定義對(duì)象領(lǐng)域之間的距離。這種距離定義反映了對(duì)象領(lǐng)域中幾何特征和表觀特征 之間的相關(guān)性。基于對(duì)象領(lǐng)域之間距離,我們?cè)谠磾?shù)據(jù)集中選取與測(cè)試對(duì)象數(shù)據(jù)性質(zhì)相近 的對(duì)象,組成訓(xùn)練集。在訓(xùn)練集上,我們采用加權(quán)協(xié)同訓(xùn)練的方式,將部分測(cè)試對(duì)象視頻數(shù) 據(jù)直接用于模型訓(xùn)練,使得預(yù)測(cè)模型進(jìn)一步接近測(cè)試數(shù)據(jù)領(lǐng)域。
[0007] 與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)勢(shì)在于:解決了訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)相隔離的問(wèn)題, 使得表情動(dòng)作預(yù)測(cè)模型適應(yīng)于測(cè)試數(shù)據(jù)。所提出表情分析算法對(duì)測(cè)試和訓(xùn)練領(lǐng)域差異具有 更好的魯棒性,擴(kuò)大了表情分析技術(shù)的實(shí)際應(yīng)用范圍。
【附圖說(shuō)明】
[0008] 圖1 :人臉特征點(diǎn)檢測(cè)結(jié)果示意
[0009] 圖2 :參考人臉形狀
[0010] 圖3 :圖像對(duì)齊結(jié)果示意
[0011] 圖4 :算法整體流程圖
【具體實(shí)施方式】
[0012] 本發(fā)明是一種具有領(lǐng)域自適應(yīng)能力的自動(dòng)人臉表情分析方法。本發(fā)明以FACS中 定義的人臉面部動(dòng)作單元(ActionUnit,AU)作為表情分析的目標(biāo)。AU是一組定義在面部 肌肉運(yùn)動(dòng)上的動(dòng)作單元。例如AU12代表嘴角上揚(yáng),語(yǔ)義上基本等同于"笑"這個(gè)動(dòng)作。在 充分利用兩類(lèi)人臉圖像特征之間相關(guān)又互補(bǔ)性質(zhì)的基礎(chǔ)上,本發(fā)明提出方法可以全自動(dòng)的 分析測(cè)試對(duì)象視頻,給出特定AU在每一幀中出現(xiàn)與否的標(biāo)簽。
[0013] 利用現(xiàn)有技術(shù),我們可以檢測(cè)人臉特征點(diǎn)。我們選用SDM(SupervisedDescent Machine)技術(shù)在人臉視頻中的每一幀檢測(cè)人臉特征點(diǎn)。人臉特征點(diǎn)的檢測(cè)結(jié)果示意見(jiàn)圖 1〇
[0014] 除了我們關(guān)心的表情信息之外,人臉視頻中還包含著頭部姿態(tài),焦距,拍攝角度和 距離的等影響因素。為了消除這些干擾因素對(duì)表情分析的影響,我們將人臉表情視頻向參 考人臉形狀對(duì)齊。我們預(yù)先選定一個(gè)固定大?。?00X200像素)的參考人臉形狀,如圖2 中所示。對(duì)每一張人臉圖像,我們利用ProcrustesAnalaysis來(lái)計(jì)算最優(yōu)的尺度,(平面 內(nèi))旋轉(zhuǎn)和平移變換,使得人臉圖像與參考形狀最接近。ProcrustesAnalaysis是形狀分 析領(lǐng)域的一種研宄手段,可用于形狀對(duì)齊。我們利用計(jì)算得到的最優(yōu)變換參數(shù),對(duì)人臉圖像 進(jìn)行紋理映射。這個(gè)過(guò)程被稱(chēng)為圖像對(duì)齊,它保證了參與訓(xùn)練和測(cè)試的所有人臉圖像在統(tǒng) 一的尺度上進(jìn)行比較,并且不受頭部姿態(tài)(平面內(nèi))偏轉(zhuǎn)的影響。對(duì)齊后的人臉圖像和特 征點(diǎn)如圖3所示。
[0015] 根據(jù)FACS手冊(cè)中對(duì)各個(gè)AU的描述,我們定義幾何特征和表觀特征兩類(lèi)特征。幾 何特征指的是由人臉特征點(diǎn)計(jì)算出的一系列角度和距離等幾何測(cè)量,包括嘴角的開(kāi)合角, 鼻尖到眼角的距離和眼睛的高度等。我們將幾何特征記為。同時(shí),表觀特征則描繪了人 臉圖像中紋理,邊緣,曲線方向等信息。我們將表觀特征記為4。本發(fā)明選用SIFT(Scale InvariantFeatureTransform)的描述子作為表觀特征。通常SIFT描述子的提取位置和 尺度由SIFT檢測(cè)子得到,而在本發(fā)明中我們選擇一組由人臉特征點(diǎn)決定的固定提取位置。 同時(shí)我們固定SIFT的提取尺度。結(jié)合之前描述的圖像對(duì)齊步驟,我們保證了訓(xùn)練和測(cè)試中 所有人臉圖像上提取到的SIFT描述子可以在統(tǒng)一平臺(tái)上做比較。
[0016] 基于輔助預(yù)測(cè)問(wèn)題的訓(xùn)練對(duì)象集合選取部分:
[0017] 本發(fā)明所述表情分析方法的輸入數(shù)據(jù)包括帶有表情標(biāo)簽的源數(shù)據(jù)集Ds,和測(cè)試對(duì) 象數(shù)據(jù)U= {X1}。表情分析方法的目標(biāo)是預(yù)測(cè)測(cè)試對(duì)象的表情標(biāo)簽勹。L中的XsS事先采 集得到的人臉表情視頻,而Ys則是相對(duì)應(yīng)的表情標(biāo)簽。Ys通常由受過(guò)專(zhuān)業(yè)訓(xùn)練的標(biāo)注者人 工給出,包含特定AU在每一幀是否出現(xiàn)的信息。U中的X1為測(cè)試對(duì)象人臉面部視頻。在這 里我們假定U中僅有一名測(cè)試對(duì)象,我們認(rèn)為U構(gòu)成該對(duì)象的數(shù)據(jù)領(lǐng)域。
[0018] 在本發(fā)明中,我們提出一種新的在源數(shù)據(jù)集L中選取訓(xùn)練對(duì)象的策略。與現(xiàn)有技 術(shù)中使用所有訓(xùn)練數(shù)據(jù)或隨機(jī)采樣不同,我們?cè)贚中選取與U數(shù)據(jù)特征相近的n個(gè)對(duì)象,組 成集合L',用于訓(xùn)練預(yù)測(cè)模型。通過(guò)這種選擇,我們將訓(xùn)練數(shù)據(jù)集從與U無(wú)關(guān)的L轉(zhuǎn)化成 更適應(yīng)U的L',以達(dá)到領(lǐng)域自適應(yīng)的目的。
[0019] 我們利用幾何特征和表觀特征f2之間的關(guān)聯(lián)性來(lái)選擇與U相近的對(duì)象。設(shè)計(jì) 這種策略主要是基于以下兩點(diǎn)考慮。
[0020] a.幾何特征與我們要預(yù)測(cè)的表情動(dòng)作單元緊密關(guān)聯(lián),同時(shí)高度抽象,相對(duì)不容易 受到對(duì)象特點(diǎn)的影響。在提出的訓(xùn)練對(duì)象選擇策略中,幾何特征起到"橋梁"的作用。
[0021] b.通過(guò)分析各個(gè)對(duì)象幾何特征和表觀特征的關(guān)聯(lián)性模式,我們可以尋找與U性質(zhì) 相近的對(duì)象。在接近U的數(shù)據(jù)領(lǐng)域?qū)W習(xí)。