本發(fā)明屬于模式識別、計算機(jī)視覺和智能人機(jī)交互領(lǐng)域,特別是一種用于唇讀系統(tǒng)中、基于深度數(shù)據(jù)的實時唇部區(qū)域特征提取和規(guī)范化的方法。
背景技術(shù):
一般來說,特征提取應(yīng)具體問題具體分析,其評價標(biāo)準(zhǔn)具有一定的主觀性。然而還是有一些遵循的普遍原則,為了得到特征所付出的代價不能過大、選取的特征應(yīng)對噪聲和不相關(guān)轉(zhuǎn)換不敏感,更重要的一點,應(yīng)該試圖尋找最具區(qū)分能力的特征。
傳統(tǒng)的唇讀研究主要基于二維的圖像數(shù)據(jù),基于輪廓與圖像的特征提取方法已經(jīng)取得了很好的效果,同時基于hmm以及人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練識別方法也取得了極大的進(jìn)展。
目前在相關(guān)技術(shù)中,唇部區(qū)域特征提取方法主要分為三大類:基于模型的提取方法、基于像素的提取方法以及兩者相結(jié)合的提取方法。(1)、基于模型的提取方法基本思路是將唇部區(qū)域抽象為一個參數(shù)化模型,可有效降低特征向量維度,但不能充分利用圖像信息。(2)、基于像素的提取方法,是將圖像信息經(jīng)過一系列變換后作為唇部特征向量,以充分利用像素信息,全面表征唇動特征,但該特征向量具有高復(fù)雜度和高冗余度,而且對說話者個性化特征十分敏感。(3)、兩者相結(jié)合的提取方法是結(jié)合兩種提取方法的優(yōu)勢,同時在一定程度上彌補(bǔ)了各自的不足。
以上三種提取方法都是基于二維圖像處理,在數(shù)據(jù)采集中不可避免地會遭遇因說話者與攝像頭的距離不同、說話者自身的唇部寬高比例差異、以及說話時頭部旋轉(zhuǎn)角度差異導(dǎo)致采集得到的圖像中唇部區(qū)域的像素發(fā)生形變,進(jìn)而影響識別過程的準(zhǔn)確性。
技術(shù)實現(xiàn)要素:
為避免上述問題,本發(fā)明提出一種基于深度數(shù)據(jù)的唇部區(qū)域特征提取和規(guī)范化方法,通過用kinect傳感器獲取人臉三維數(shù)據(jù)并進(jìn)行數(shù)據(jù)預(yù)處理,根據(jù)candide-3與mpeg-4標(biāo)準(zhǔn)人臉模型,確定感興趣區(qū)域,然后提取基于標(biāo)準(zhǔn)人臉模型以及基于唇動特征自定義的角度特征,進(jìn)行特征規(guī)范化。
本發(fā)明提出了的一種基于深度數(shù)據(jù)的唇部區(qū)域特征提取和規(guī)范化方法,該方法包括以下步驟:
步驟一、確定待提取唇部區(qū)域的數(shù)據(jù)域:基于kinect傳感器獲取人臉三維數(shù)據(jù),據(jù)candide-3人臉標(biāo)準(zhǔn)模型,從臉部特征點構(gòu)成的184個三角形網(wǎng)格,將其中唇部區(qū)域的特征點的三維坐標(biāo)進(jìn)行旋轉(zhuǎn)變化,使其構(gòu)成的三維模型能保持平行于kinect空間坐標(biāo)系的二維平面,提取唇部相關(guān)的18個特征點所組成的38個三角形網(wǎng)格;在38個三角形網(wǎng)格中,選取其中以唇部特征點為頂點的空間角度作為角度特征,共38維;
步驟二、特征提?。簩⒒谀P瓦x擇的38個角度特征和上述四個自定義的角度特征拼接,得到每幀圖像的模型角度特征;其中自定義的角度特征如下式所示:
fangle-model-k-2=[angle15-9-17,angle9-17-15,angle3-1-7,angle9-12-17]
其中,fangle-model-k-2表示第k幀唇部區(qū)域定義的角度特征,angle15-9-17、angle9-17-15、angle3-1-7、angle9-12-17分別表示特征點15-9-17、9-17-15、3-1-7、9-12-17構(gòu)成的角度特征;
步驟三、通過使用插值型逼近算法對孤立詞的幀數(shù)進(jìn)行統(tǒng)一規(guī)范化:對每一維的角度特征,構(gòu)建每幀圖像的時間戳與特征值之間的關(guān)系模型,將角度特征進(jìn)行插值至1000fps,使它接近于連續(xù)的線性模型,然后對1000fps的角度特征數(shù)據(jù)進(jìn)行采樣,以等間隔選取100幀特征,作為本維角度特征的最終特征數(shù)據(jù);
步驟四、利用knn算法進(jìn)行上述角度特征的最終特征數(shù)據(jù)的評價選?。菏褂眠x定參數(shù)后的knn分類器對提取的角度特征進(jìn)行評價選取,根據(jù)最近鄰居的類別決定測試樣本的分類情況,選擇其中最具有代表性的角度特征作為此幀的代表特征。
與現(xiàn)有技術(shù)相比,本發(fā)明能夠?qū)诖絽^(qū)及其周邊區(qū)域的三維模型進(jìn)行特征提取,對光照變化、角度變化、距離遠(yuǎn)近等具有更好的魯棒性。
附圖說明
圖1為本發(fā)明的基于深度數(shù)據(jù)的唇部區(qū)域特征提取和規(guī)范化方法整體流程示意圖;
圖2為四個自定義的角度特征示意圖;
圖3為時間戳與特征值的關(guān)系模型以及每一維特征的插值與下采樣過程示意圖。
具體實施方式
隨著三維攝像頭以及建模技術(shù)的發(fā)展,唇讀有了更廣闊的前景,本發(fā)明基于kinect傳感器獲取人臉三維數(shù)據(jù),并提出基于三維數(shù)據(jù)的特征提取方法,本研究的主要貢獻(xiàn)集中在以下方面:
基于kinect自身facetrackingsdk所捕獲到的121個特征點的三維數(shù)據(jù),對特征點數(shù)據(jù)進(jìn)行預(yù)處理,將其旋轉(zhuǎn)平移后進(jìn)行規(guī)范化,提取唇區(qū)及其周邊區(qū)域的37個特征點,建立唇動相關(guān)的三維模型。
本發(fā)明針對kinect獲取的臉部三維坐標(biāo)信息,進(jìn)行數(shù)據(jù)預(yù)處理,提取出基于標(biāo)準(zhǔn)人臉模型選取以及基于唇動特征自定義的空間角度特征。對空間特征采用分段線性插值方法進(jìn)行規(guī)范化,并使用knn分類算法進(jìn)行特征評選環(huán)節(jié),得到具代表性的空間特征。
下面結(jié)合附圖對本發(fā)明作進(jìn)一步詳細(xì)描述。
如圖1所示,為本發(fā)明的基于深度數(shù)據(jù)的唇部區(qū)域特征提取和規(guī)范化方法整體流程示意圖,該流程包括:
步驟101:確定待提取唇部區(qū)域的數(shù)據(jù)域:基于kinect傳感器獲取人臉三維數(shù)據(jù),kinectfacetrackingsdk的人臉模型中預(yù)先定義了人臉121個特征點的三維坐標(biāo),符合candide-3人臉標(biāo)準(zhǔn)模型。根據(jù)candide-3人臉標(biāo)準(zhǔn)模型,從臉部特征點構(gòu)成的184個三角形網(wǎng)格,將其中唇部區(qū)域的特征點的三維坐標(biāo)進(jìn)行旋轉(zhuǎn)變化,即將特征點分別以x、y、z軸為旋轉(zhuǎn)軸旋轉(zhuǎn),使其構(gòu)成的三維模型能保持平行于kinect空間坐標(biāo)系的二維平面(xy平面)。,提取唇部相關(guān)的18個特征點所組成的38個三角形網(wǎng)格;在38個三角形網(wǎng)格中,選取其中以唇部特征點為頂點的空間角度作為角度特征,共38維;因臉部特征點,尤其是唇區(qū)及其周圍的特征點的坐標(biāo)本身也是一種唇動特征,所以在標(biāo)準(zhǔn)化時先將特征點平移至同一空間范圍,以保證不同樣本的坐標(biāo)范圍大致相同;
步驟102、特征提?。阂罁?jù)據(jù)宏觀分析說話過程中唇部變形運(yùn)動的規(guī)律,添加如下四種自定義角度特征,分別由特征點15-9-17、9-17-15、3-1-7、9-12-17構(gòu)成,中間的特征點即為角度定點,四個角度如圖2所示。得到的第k幀唇部區(qū)域定義的角度特征如公式(1)所示:
fangle-model-k-2=[angle15-9-17,angle9-17-15,angle3-7-1,angle9-12-17](1)
每幀唇部區(qū)域圖像模型中的角度特征均通過將自定義的4個角度特征,與基于模型選擇的38個角度特征線性拼接得到;
步驟103:通過使用插值型逼近算法對孤立詞的幀數(shù)進(jìn)行統(tǒng)一規(guī)范化;對每一維的角度特征,構(gòu)建每幀圖像的時間戳與特征值之間的關(guān)系模型(這里的關(guān)系模型如圖3所示),將角度特征進(jìn)行插值至1000fps,使它接近于連續(xù)的線性模型,,然后對1000fps的角度特征數(shù)據(jù)進(jìn)行采樣,以等間隔選取100幀特征,作為本維角度特征的最終特征數(shù)據(jù);
步驟104:利用knn算法進(jìn)行上述角度特征的最終特征數(shù)據(jù)的評價選取:在角度特征評選之前需先設(shè)定knn分類器的參數(shù),以及特征規(guī)范化方法。使用以結(jié)果為導(dǎo)向的方式進(jìn)行參數(shù)選擇,采用不同參數(shù)的knn分類器對實際的數(shù)據(jù)樣本進(jìn)行分類實驗,通過多組實驗,選定后續(xù)評選過程所用的knn分類器參數(shù)為k=1;使用選定參數(shù)后的knn分類器對提取的角度特征進(jìn)行評價選取,距離度量方式采用“歐幾里得距離”,即根據(jù)最近鄰居的類別決定測試樣本的分類情況,選擇其中最具有代表性的角度特征作為此幀的代表特征。