基于深度數(shù)據(jù)的唇部區(qū)域特征提取和規(guī)范化方法與流程

文檔序號：11591018閱讀：837來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于模式識別、計算機(jī)視覺和智能人機(jī)交互領(lǐng)域，特別是一種用于唇讀系統(tǒng)中、基于深度數(shù)據(jù)的實時唇部區(qū)域特征提取和規(guī)范化的方法。

背景技術(shù)：

一般來說，特征提取應(yīng)具體問題具體分析，其評價標(biāo)準(zhǔn)具有一定的主觀性。然而還是有一些遵循的普遍原則，為了得到特征所付出的代價不能過大、選取的特征應(yīng)對噪聲和不相關(guān)轉(zhuǎn)換不敏感，更重要的一點，應(yīng)該試圖尋找最具區(qū)分能力的特征。

傳統(tǒng)的唇讀研究主要基于二維的圖像數(shù)據(jù)，基于輪廓與圖像的特征提取方法已經(jīng)取得了很好的效果，同時基于hmm以及人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練識別方法也取得了極大的進(jìn)展。

目前在相關(guān)技術(shù)中，唇部區(qū)域特征提取方法主要分為三大類：基于模型的提取方法、基于像素的提取方法以及兩者相結(jié)合的提取方法。(1)、基于模型的提取方法基本思路是將唇部區(qū)域抽象為一個參數(shù)化模型，可有效降低特征向量維度，但不能充分利用圖像信息。(2)、基于像素的提取方法，是將圖像信息經(jīng)過一系列變換后作為唇部特征向量，以充分利用像素信息，全面表征唇動特征，但該特征向量具有高復(fù)雜度和高冗余度，而且對說話者個性化特征十分敏感。(3)、兩者相結(jié)合的提取方法是結(jié)合兩種提取方法的優(yōu)勢，同時在一定程度上彌補(bǔ)了各自的不足。

以上三種提取方法都是基于二維圖像處理，在數(shù)據(jù)采集中不可避免地會遭遇因說話者與攝像頭的距離不同、說話者自身的唇部寬高比例差異、以及說話時頭部旋轉(zhuǎn)角度差異導(dǎo)致采集得到的圖像中唇部區(qū)域的像素發(fā)生形變，進(jìn)而影響識別過程的準(zhǔn)確性。

技術(shù)實現(xiàn)要素：

為避免上述問題，本發(fā)明提出一種基于深度數(shù)據(jù)的唇部區(qū)域特征提取和規(guī)范化方法，通過用kinect傳感器獲取人臉三維數(shù)據(jù)并進(jìn)行數(shù)據(jù)預(yù)處理，根據(jù)candide-3與mpeg-4標(biāo)準(zhǔn)人臉模型，確定感興趣區(qū)域，然后提取基于標(biāo)準(zhǔn)人臉模型以及基于唇動特征自定義的角度特征，進(jìn)行特征規(guī)范化。

本發(fā)明提出了的一種基于深度數(shù)據(jù)的唇部區(qū)域特征提取和規(guī)范化方法，該方法包括以下步驟：

步驟一、確定待提取唇部區(qū)域的數(shù)據(jù)域：基于kinect傳感器獲取人臉三維數(shù)據(jù)，據(jù)candide-3人臉標(biāo)準(zhǔn)模型，從臉部特征點構(gòu)成的184個三角形網(wǎng)格，將其中唇部區(qū)域的特征點的三維坐標(biāo)進(jìn)行旋轉(zhuǎn)變化，使其構(gòu)成的三維模型能保持平行于kinect空間坐標(biāo)系的二維平面，提取唇部相關(guān)的18個特征點所組成的38個三角形網(wǎng)格；在38個三角形網(wǎng)格中，選取其中以唇部特征點為頂點的空間角度作為角度特征，共38維；

步驟二、特征提?。簩⒒谀Ｐ瓦x擇的38個角度特征和上述四個自定義的角度特征拼接，得到每幀圖像的模型角度特征；其中自定義的角度特征如下式所示：

fangle-model-k-2＝[angle15-9-17,angle9-17-15,angle3-1-7,angle9-12-17]

其中，fangle-model-k-2表示第k幀唇部區(qū)域定義的角度特征，angle15-9-17、angle9-17-15、angle3-1-7、angle9-12-17分別表示特征點15-9-17、9-17-15、3-1-7、9-12-17構(gòu)成的角度特征；

步驟三、通過使用插值型逼近算法對孤立詞的幀數(shù)進(jìn)行統(tǒng)一規(guī)范化：對每一維的角度特征，構(gòu)建每幀圖像的時間戳與特征值之間的關(guān)系模型，將角度特征進(jìn)行插值至1000fps，使它接近于連續(xù)的線性模型，然后對1000fps的角度特征數(shù)據(jù)進(jìn)行采樣，以等間隔選取100幀特征，作為本維角度特征的最終特征數(shù)據(jù)；

步驟四、利用knn算法進(jìn)行上述角度特征的最終特征數(shù)據(jù)的評價選?。菏褂眠x定參數(shù)后的knn分類器對提取的角度特征進(jìn)行評價選取，根據(jù)最近鄰居的類別決定測試樣本的分類情況，選擇其中最具有代表性的角度特征作為此幀的代表特征。

與現(xiàn)有技術(shù)相比，本發(fā)明能夠?qū)诖絽^(qū)及其周邊區(qū)域的三維模型進(jìn)行特征提取，對光照變化、角度變化、距離遠(yuǎn)近等具有更好的魯棒性。

附圖說明

圖1為本發(fā)明的基于深度數(shù)據(jù)的唇部區(qū)域特征提取和規(guī)范化方法整體流程示意圖；

圖2為四個自定義的角度特征示意圖；

圖3為時間戳與特征值的關(guān)系模型以及每一維特征的插值與下采樣過程示意圖。

具體實施方式

隨著三維攝像頭以及建模技術(shù)的發(fā)展，唇讀有了更廣闊的前景，本發(fā)明基于kinect傳感器獲取人臉三維數(shù)據(jù)，并提出基于三維數(shù)據(jù)的特征提取方法，本研究的主要貢獻(xiàn)集中在以下方面：

基于kinect自身facetrackingsdk所捕獲到的121個特征點的三維數(shù)據(jù)，對特征點數(shù)據(jù)進(jìn)行預(yù)處理，將其旋轉(zhuǎn)平移后進(jìn)行規(guī)范化，提取唇區(qū)及其周邊區(qū)域的37個特征點，建立唇動相關(guān)的三維模型。

本發(fā)明針對kinect獲取的臉部三維坐標(biāo)信息，進(jìn)行數(shù)據(jù)預(yù)處理，提取出基于標(biāo)準(zhǔn)人臉模型選取以及基于唇動特征自定義的空間角度特征。對空間特征采用分段線性插值方法進(jìn)行規(guī)范化，并使用knn分類算法進(jìn)行特征評選環(huán)節(jié)，得到具代表性的空間特征。

下面結(jié)合附圖對本發(fā)明作進(jìn)一步詳細(xì)描述。

如圖1所示，為本發(fā)明的基于深度數(shù)據(jù)的唇部區(qū)域特征提取和規(guī)范化方法整體流程示意圖，該流程包括：

步驟101：確定待提取唇部區(qū)域的數(shù)據(jù)域：基于kinect傳感器獲取人臉三維數(shù)據(jù)，kinectfacetrackingsdk的人臉模型中預(yù)先定義了人臉121個特征點的三維坐標(biāo)，符合candide-3人臉標(biāo)準(zhǔn)模型。根據(jù)candide-3人臉標(biāo)準(zhǔn)模型，從臉部特征點構(gòu)成的184個三角形網(wǎng)格，將其中唇部區(qū)域的特征點的三維坐標(biāo)進(jìn)行旋轉(zhuǎn)變化，即將特征點分別以x、y、z軸為旋轉(zhuǎn)軸旋轉(zhuǎn)，使其構(gòu)成的三維模型能保持平行于kinect空間坐標(biāo)系的二維平面(xy平面)。，提取唇部相關(guān)的18個特征點所組成的38個三角形網(wǎng)格；在38個三角形網(wǎng)格中，選取其中以唇部特征點為頂點的空間角度作為角度特征，共38維；因臉部特征點，尤其是唇區(qū)及其周圍的特征點的坐標(biāo)本身也是一種唇動特征，所以在標(biāo)準(zhǔn)化時先將特征點平移至同一空間范圍，以保證不同樣本的坐標(biāo)范圍大致相同；

步驟102、特征提?。阂罁?jù)據(jù)宏觀分析說話過程中唇部變形運(yùn)動的規(guī)律，添加如下四種自定義角度特征，分別由特征點15-9-17、9-17-15、3-1-7、9-12-17構(gòu)成，中間的特征點即為角度定點，四個角度如圖2所示。得到的第k幀唇部區(qū)域定義的角度特征如公式(1)所示：

fangle-model-k-2＝[angle15-9-17,angle9-17-15,angle3-7-1,angle9-12-17](1)

每幀唇部區(qū)域圖像模型中的角度特征均通過將自定義的4個角度特征，與基于模型選擇的38個角度特征線性拼接得到；

步驟103：通過使用插值型逼近算法對孤立詞的幀數(shù)進(jìn)行統(tǒng)一規(guī)范化；對每一維的角度特征，構(gòu)建每幀圖像的時間戳與特征值之間的關(guān)系模型(這里的關(guān)系模型如圖3所示)，將角度特征進(jìn)行插值至1000fps，使它接近于連續(xù)的線性模型，，然后對1000fps的角度特征數(shù)據(jù)進(jìn)行采樣，以等間隔選取100幀特征，作為本維角度特征的最終特征數(shù)據(jù)；

步驟104：利用knn算法進(jìn)行上述角度特征的最終特征數(shù)據(jù)的評價選取：在角度特征評選之前需先設(shè)定knn分類器的參數(shù)，以及特征規(guī)范化方法。使用以結(jié)果為導(dǎo)向的方式進(jìn)行參數(shù)選擇，采用不同參數(shù)的knn分類器對實際的數(shù)據(jù)樣本進(jìn)行分類實驗，通過多組實驗，選定后續(xù)評選過程所用的knn分類器參數(shù)為k＝1；使用選定參數(shù)后的knn分類器對提取的角度特征進(jìn)行評價選取，距離度量方式采用“歐幾里得距離”，即根據(jù)最近鄰居的類別決定測試樣本的分類情況，選擇其中最具有代表性的角度特征作為此幀的代表特征。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：魏建國;楊帆;王建榮;喻梅;徐天一;岳帥
技術(shù)所有人：天津大學(xué)
我是此專利的發(fā)明人

上一篇：圖像解碼和圖像編碼的方法和裝置與流程
上一篇：一種天然巖瀝青試驗室抽提設(shè)備的制造方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

區(qū)域特征提取相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于深度數(shù)據(jù)的唇部區(qū)域特征提取和規(guī)范化方法與流程