亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種生成說話人三維運動模型的方法、系統(tǒng)及計算的制造方法

文檔序號:6525358閱讀:258來源:國知局
一種生成說話人三維運動模型的方法、系統(tǒng)及計算的制造方法
【專利摘要】本發(fā)明適用于三維可視化【技術(shù)領(lǐng)域】,提供了一種生成說話人三維運動模型的方法包括:獲取攝像頭采集的彩色圖像的信息以及深度數(shù)據(jù)信息;將獲取到的數(shù)據(jù)送入人臉檢測函數(shù),計算是否檢測到人臉,如果檢測到人臉,則計算當(dāng)前人臉的狀態(tài);根據(jù)計算出的當(dāng)前人臉的狀態(tài)生成被測試人的三維人頭模型;獲取被測試人發(fā)音的運動軌跡的位移;根據(jù)被測試人發(fā)音的運動軌跡的位移和生成被測試人的三維人頭模型,生成發(fā)音的三維人頭運動模擬。本發(fā)明增加了三維建模的效率。另外,本發(fā)明在建立任意人的三維說話人運動模型的基礎(chǔ)上,同時考慮聲音向任意人的轉(zhuǎn)變,從而使得本發(fā)明具有個性化人頭與個性化聲音結(jié)合效果。
【專利說明】一種生成說話人三維運動模型的方法、系統(tǒng)及計算機(jī)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于三維可視化【技術(shù)領(lǐng)域】,尤其涉及一種生成說話人三維運動模型的方法、系統(tǒng)及計算機(jī)。
【背景技術(shù)】
[0002]現(xiàn)有的自動生成任意人的三維運動模型的方案為:預(yù)先建立三維人臉庫和三維發(fā)型庫,對輸入的正面人臉照片進(jìn)行特征點提取和頭發(fā)分割,分別生成三維人臉模型與三維頭發(fā)模型,然后將人臉模型與頭發(fā)模型合成。由于只采取了正面的照片作為輸入,照片是二維的,因此,在恢復(fù)三維模型時必然失去了很多重要的信息,如側(cè)臉的深度信息,在這種情況下恢復(fù)出的三維人模型也必然存在與實際人物的誤差。而且,頭發(fā)的模型也采用從頭發(fā)數(shù)據(jù)庫里去匹配尋找,而并非直接去恢復(fù),這無疑增加了許多人工合成的因素。由上可知,現(xiàn)有技術(shù)實現(xiàn)任意人的三維運動模型是非全自動,需要人工干預(yù)。

【發(fā)明內(nèi)容】

[0003]本發(fā)明的目的在于提供一種生成說話人三維運動模型的方法、系統(tǒng)及計算機(jī),旨在解決現(xiàn)有技術(shù)中存在的實現(xiàn)任意人的三維運動模型是非全自動,需要人工干預(yù),且恢復(fù)出的三維人模型也必然存在與實際人物的誤差的問題。
[0004]本發(fā)明是這樣實現(xiàn)的,一種生成說話人三維運動模型的方法,所述方法包括以下步驟:
[0005]獲取攝像頭采集的彩色圖像的信息以及深度數(shù)據(jù)信息;
[0006]將獲取到的數(shù)據(jù)送入人臉檢測函數(shù),計算是否檢測到人臉,如果檢測到人臉,則計算當(dāng)前人臉的狀態(tài);
[0007]根據(jù)計算出的當(dāng)前人臉的狀態(tài)生成被測試人的三維人頭模型;
[0008]獲取被測試人發(fā)音的運動軌跡的位移;
[0009]根據(jù)所述被測試人發(fā)音的運動軌跡的位移和所述生成被測試人的三維人頭模型,生成發(fā)音的三維人頭運動模擬。
[0010]本發(fā)明的另一目的在于提供一種生成說話人三維運動模型的系統(tǒng),所述系統(tǒng)包括:
[0011]數(shù)據(jù)自動采集模塊,用于獲取攝像頭采集的彩色圖像的信息以及深度數(shù)據(jù)信息;
[0012]自動實時建模模塊,用于將獲取到的數(shù)據(jù)送入人臉檢測函數(shù),計算是否檢測到人臉,如果檢測到人臉,則計算當(dāng)前人臉的狀態(tài);根據(jù)計算出的當(dāng)前人臉的狀態(tài)生成被測試人的三維人頭模型;
[0013]發(fā)音驅(qū)動模塊,用于獲取被測試人發(fā)音的運動軌跡的位移;根據(jù)所述被測試人發(fā)音的運動軌跡的位移和所述生成被測試人的三維人頭模型,生成發(fā)音的三維人頭運動模擬。
[0014]本發(fā)明的另一目的在于提供一種包括上面所述的生成說話人三維運動模型的系統(tǒng)的計算機(jī)。
[0015]在本發(fā)明中,本發(fā)明實施例是一種融合了三維人頭建模技術(shù)、三維人頭運動模擬技術(shù)、人臉檢測技術(shù)等眾多先進(jìn)技術(shù)的一體化系統(tǒng)。本發(fā)明實施例的硬件外設(shè)部分為一臺計算機(jī)和一個帶有深度數(shù)據(jù)獲取功能的彩色攝像頭,如Kinect ;軟件部分主要由四個模塊構(gòu)成:初始化模塊、數(shù)據(jù)自動采集模塊、自動實時建模模塊和發(fā)音驅(qū)動模塊。系統(tǒng)啟動首先交由初始化模塊,打開帶有深度數(shù)據(jù)獲取功能的彩色攝像頭,初始化各種參數(shù),然后被測試人坐于攝像頭之前,調(diào)整身體和頭部姿勢,系統(tǒng)的數(shù)據(jù)自動采集模塊會自動進(jìn)行檢測并提示,當(dāng)系統(tǒng)提示已檢測到目標(biāo),就會再次提示,讓被測試人緩慢移動頭部,從左到右或從右到左轉(zhuǎn)動,系統(tǒng)會自動記錄采集人的彩色數(shù)據(jù)、深度數(shù)據(jù)、及頭部姿態(tài)。采集到足夠的人物的數(shù)據(jù)之后,數(shù)據(jù)自動采集模塊會將采集的數(shù)據(jù)交由自動建模模塊。自動實時建模模塊會根據(jù)采集的數(shù)據(jù)進(jìn)行規(guī)范化,使用標(biāo)準(zhǔn)模型對其配準(zhǔn),然后完成貼圖,生成測試的人三維人模型。最后自動建模模塊將變形后的三維人頭模型交由發(fā)音驅(qū)動模塊,生成發(fā)音的運動模擬。
[0016]整個過程,大部分都是系統(tǒng)內(nèi)部的工作,只是在進(jìn)行數(shù)據(jù)采集時需要測試的人進(jìn)行簡單的人機(jī)交互。整個流程簡單、自動、高效。
[0017]本發(fā)明實施例能夠自動實時建立任意人的三維說話人運動模型,模型建立完成后即可根據(jù)發(fā)音驅(qū)動文件進(jìn)行發(fā)音運動的表達(dá)。由于系統(tǒng)為全自動實時生成結(jié)果,從而大大增加了三維建模的效率。
[0018]另外,本發(fā)明實施例外設(shè)簡單,屬低成本設(shè)備,且操作簡單,只需要簡單的人機(jī)交互即可生成三維說話人運動模型。
[0019]再者,本發(fā)明實施例生成三維說話人運動模型質(zhì)量較高,特別是正面與真人差別不大。由于保留了被測人的頭發(fā),使得正面效果更加逼真。
[0020]又,本發(fā)明實施例在建立任意人的三維說話人運動模型的基礎(chǔ)上,也考慮到了生成對任意人聲音的變換,雖然不能實時生成個性化語音,但是將此項功能加入到三維說話人運動模型的發(fā)音模擬,無疑增加了整個虛擬三維人的真實性。
[0021]再者,本發(fā)明在建立任意人的三維說話人運動模型的基礎(chǔ)上,同時考慮聲音向任意人的轉(zhuǎn)變,對于任意一個人,使得生成此人的三維說話模型不僅具有此人的模樣而且具有與此人一樣的聲音,從而使得本發(fā)明具有個性化人頭與個性化聲音結(jié)合效果。
【專利附圖】

【附圖說明】
[0022]圖1是本發(fā)明實施例提供的生成說話人三維運動模型的方法的實現(xiàn)流程示意圖。
[0023]圖2是本發(fā)明實施例提供的定義的坐標(biāo)系的示意圖。
[0024]圖3是本發(fā)明實施例提供的生成說話人三維運動模型的系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實施方式】
[0025]為了使本發(fā)明的目的、技術(shù)方案及有益效果更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0026]在本發(fā)明實施例中,本發(fā)明實施例提出了一種低成本、全自動、實時生成任意人的三維運動模型的方案,且說話人三維運動模型具有很逼真的表情和發(fā)音動作,還能模擬出與當(dāng)前人的類似的發(fā)聲。其實現(xiàn)方案為:通過采用帶有深度數(shù)據(jù)獲取功能的彩色攝像頭(如Kinect),以彩色數(shù)據(jù)與深度數(shù)據(jù)為基礎(chǔ),引入自動人臉檢測技術(shù),通過人臉特征的定位,完成人物頭部數(shù)據(jù)的自動獲取,然后通過三維人臉建模技術(shù),由一個標(biāo)準(zhǔn)人臉模型變形到真人,并由預(yù)先定義的EMA動作參數(shù)與數(shù)據(jù)驅(qū)動接口,完成發(fā)音的運動模擬。
[0027]請參閱圖1,為本發(fā)明實施例提供的生成說話人三維運動模型的方法的實現(xiàn)流程,其包括以下步驟:
[0028]在步驟SlOl中,獲取攝像頭采集的彩色圖像的信息以及深度數(shù)據(jù)信息;
[0029]在本發(fā)明實施例中,在步驟SlOl之前,還包括:
[0030]初始化深度攝像頭和彩色攝像頭、初始化二維標(biāo)準(zhǔn)t旲型和初始化EMA發(fā)首驅(qū)動參數(shù)。然而,可以理解的是,深度攝像頭和彩色攝像頭可容為一體。
[0031]初始化深度攝像頭和彩色攝像頭主要是進(jìn)行攝像頭的檢測與選擇,保證至少有一個深度攝像頭和一個彩色攝像頭可用于數(shù)據(jù)的采集。
[0032]初始化標(biāo)準(zhǔn)三維人頭模型主要是進(jìn)行三維人頭模型的載入,以及三維人頭模型特征點的預(yù)設(shè)。
[0033]初始化發(fā)音數(shù)據(jù)驅(qū)動參數(shù)主要是生成已經(jīng)載入的三維人頭模型的每個點的發(fā)音運動參數(shù)。方法采用狄利克雷自由變形算法(Dirichlet free-form deformation),簡稱DFFD ο具體方法如下:首先,對預(yù)設(shè)的三維人頭模型的特征點進(jìn)行三維下的DeIaunay劃分,生成Delaunay四面體集合。其次,生成Delaunay四面體集合所對應(yīng)的Voronoi圖。最后,計算Voronoi圖下,三維人頭模型上的每個點所對應(yīng)每個特征點的Sibson坐標(biāo)。特征點的坐標(biāo)以及生成的Sibson坐標(biāo)用于生成發(fā)音數(shù)據(jù)驅(qū)動和進(jìn)行表情動作時的模型點的位移。此外,此步驟還初始化了聲音數(shù)據(jù),主要是讀入EMA發(fā)音數(shù)據(jù)對應(yīng)的聲音信息文件,文件包括被采集EMA運動數(shù)據(jù)的人的原始發(fā)音數(shù)據(jù)。
[0034]在本發(fā)明實施例中,數(shù)據(jù)自動采集模塊獲取攝像頭采集的彩色圖像的信息以及深度數(shù)據(jù)信息以及頭部姿態(tài)等最原始的圖像信息,結(jié)合人臉檢測技術(shù),對獲取數(shù)據(jù)進(jìn)行分析,自動出檢測人臉位置,并記錄保存當(dāng)前被測試人的正面、左側(cè)面和右側(cè)面的信息。最后,記錄一段當(dāng)前被測人的聲音信息,用于尋找并生成對應(yīng)的EMA的語音。
[0035]在步驟S102中,將獲取到的數(shù)據(jù)送入人臉檢測函數(shù),計算是否檢測到人臉,如果檢測到人臉,則計算當(dāng)前人臉的狀態(tài);
[0036]在本發(fā)明實施例中,將獲取到的數(shù)據(jù)送入人臉檢測函數(shù),計算是否檢測到人臉,如果檢測到人臉,則計算當(dāng)前人臉的狀態(tài),當(dāng)前人臉的狀態(tài)即頭部姿態(tài);如果沒有檢測到人臉,則繼續(xù)檢測到有人臉為止。頭部姿態(tài)為人臉在坐標(biāo)系下的旋轉(zhuǎn)角度,本實施例中定義的坐標(biāo)系為圖2所示,z軸的負(fù)方向為正臉,且規(guī)定人臉正面朝向與X,Y,Z軸O度角度誤差均小于I度為正面,與X,Z軸O度角度誤差均小于3度,在Y軸45度46度范圍為左側(cè)面,在Y軸45度46度范圍為右側(cè)面。當(dāng)人臉分別在正面、左側(cè)面和右側(cè)面的情況下,則視為滿足保存條件。滿足條件后,系統(tǒng)便自動記錄當(dāng)前人物彩色數(shù)據(jù)、深度數(shù)據(jù)、以及人物頭部姿態(tài)數(shù)據(jù),此外還保存人臉檢測計算出的人臉特征點坐標(biāo),特征點包括眼角點、嘴角點、鼻尖點、臉部輪廓點等。
[0037]在步驟S103中,根據(jù)計算出的當(dāng)前人臉的狀態(tài)生成被測試人的三維人頭模型;[0038]在本發(fā)明實施例中,將所述計算出的當(dāng)前人臉的狀態(tài)進(jìn)行規(guī)范化,使用三維標(biāo)準(zhǔn)模型對其配準(zhǔn),然后完成貼圖,生成被測試人的三維人頭模型。
[0039]在本發(fā)明實施例中,自動實時建模模塊對深度數(shù)據(jù)進(jìn)行規(guī)范化。深度數(shù)據(jù)獲取完畢后其三維人頭深度數(shù)據(jù)的坐標(biāo)并不是統(tǒng)一的,需要根據(jù)三維人頭的姿態(tài)對其進(jìn)行規(guī)范化處理,將其進(jìn)行旋轉(zhuǎn)平移縮放,統(tǒng)一到一坐標(biāo)系的同一個位置,并做歸一化,生成一組用于配準(zhǔn)的三維人頭模型的深度數(shù)據(jù)。然后,使用規(guī)范化后的三維人頭模型深度數(shù)據(jù)特征點信息以及三維人頭深度數(shù)據(jù),將標(biāo)準(zhǔn)模型與其配準(zhǔn),得到被測人的三維人頭模型。配準(zhǔn)方法采用DFFD和最小二乘法,具體特征點的設(shè)置以人臉檢測函數(shù)保存下來的特征點數(shù)量與位置為準(zhǔn)。再次,將多角度的彩色圖像根據(jù)對應(yīng)的三維深度特征點的坐標(biāo)映射到配準(zhǔn)后的三維人頭模型,生成對應(yīng)的三維人頭模型的紋理。由于彩色數(shù)據(jù)不可能完全覆蓋三維人頭模型,每個角度的彩色數(shù)據(jù)只有模型對應(yīng)的那個角度的部分可用,所以需要將采集數(shù)據(jù)時系統(tǒng)分別獲取的正面、左側(cè)面、右側(cè)面的圖像進(jìn)行提取與融合。在融合前,先將模型UV平面展開,以柱面展開為例,規(guī)定圖像融合邊界,根據(jù)融合邊界將人臉的正面、左側(cè)面與右側(cè)面進(jìn)行圖像融合,從而生成完整的三維人頭模型的紋理。但是由于在采集側(cè)面圖像信息時,采集角度可能并不能全方位完全覆蓋人頭,被測試人后面的頭發(fā)會有一小部分未能采集到,所以需要紋理后處理部分定義三維人模型的補(bǔ)充紋理的區(qū)域,然后提取能夠采集到的測試人頭發(fā)部分的紋理數(shù)據(jù)補(bǔ)充到這部分區(qū)域,由于區(qū)域固定,只是紋理數(shù)據(jù)不同,所以這部分不涉及人工干預(yù)。
[0040]在步驟S104中,獲取被測試人發(fā)音的運動軌跡的位移;
[0041]在步驟S105中,根據(jù)所述被測試人發(fā)音的運動軌跡的位移和所述生成被測試人的三維人頭模型,生成發(fā)音的三維人頭運動模擬。
[0042]在本發(fā)明實施例中,將所述被測試人發(fā)音的運動軌跡的位移和所述生成被測試人的三維人頭模型交給運動模擬顯示函數(shù)進(jìn)行發(fā)音運動的顯示。具體為:發(fā)音驅(qū)動模塊接收自動實時建模模塊生成的三維人頭模型,以及載入初始化模塊生成的發(fā)音運動模擬參數(shù),并通過導(dǎo)入EMA發(fā)音驅(qū)動數(shù)據(jù),驅(qū)動三維人頭模型發(fā)音說話。
[0043]在本發(fā)明實施例中,發(fā)音驅(qū)動模塊首先讀入EMA發(fā)音數(shù)據(jù)。EMA發(fā)音數(shù)據(jù)記錄了真人發(fā)音的運動數(shù)據(jù),它通過將傳感器貼在真人的發(fā)音器官上,記錄其發(fā)音時運動軌跡的位移,記錄的位置包括左右嘴角LI和L2、上下嘴唇L3和L4,以及舌尖Tl、舌中T2、舌背T3。標(biāo)準(zhǔn)模型在特征點設(shè)置時分別都設(shè)置了與這7個點對應(yīng)的特征點,特征點包括這7個特征點,但還有其他很多特征點用于表情控制,剩下一小部分特征點用于固定模型。EMA表情數(shù)據(jù)記錄了真人各種各樣的表情位移參數(shù),主要記錄的位置包括左右嘴角LI和L2、上下嘴唇L3和L4、左右臉頰Fl和F2以及左右眉毛點L-EB1、L-EB2、R-EB1、R-EB2。然后,讀入初始化模塊在初始化階段生成的發(fā)音運動模擬的參數(shù)或表情參數(shù),即每個點對應(yīng)其特征點的Sibson坐標(biāo),再結(jié)合EMA記錄的特征點的位移,計算生成三維人頭模型其他點的運動位移。計算由公式①給出。這樣就得出三維人頭模型在進(jìn)行發(fā)音動作模擬時每個點所發(fā)生的運動位移。然后將生成的運動位移交給運動模擬顯示函數(shù)進(jìn)行發(fā)音運動的顯示。模型表情的模擬與發(fā)音驅(qū)動模擬類似。[0044]
【權(quán)利要求】
1.一種生成說話人三維運動模型的方法,其特征在于,所述方法包括以下步驟: 獲取攝像頭采集的彩色圖像的信息以及深度數(shù)據(jù)信息; 將獲取到的數(shù)據(jù)送入人臉檢測函數(shù),計算是否檢測到人臉,如果檢測到人臉,則計算當(dāng)前人臉的狀態(tài); 根據(jù)計算出的當(dāng)前人臉的狀態(tài)生成被測試人的三維人頭模型; 獲取被測試人發(fā)音的運動軌跡的位移; 根據(jù)所述被測試人發(fā)音的運動軌跡的位移和所述生成被測試人的三維人頭模型,生成發(fā)音的三維人頭運動模擬。
2.如權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 初始化深度攝像頭和彩色攝像頭、初始化二維標(biāo)準(zhǔn)t吳型和初始化EMA發(fā)首驅(qū)動參數(shù)。
3.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)計算出的當(dāng)前人臉的狀態(tài)生成被測試人的三維人頭模型的步驟,具體為: 將所述計算出的當(dāng)前人臉的狀態(tài)進(jìn)行規(guī)范化,使用三維標(biāo)準(zhǔn)模型對其配準(zhǔn),然后完成貼圖,生成被測試人的三維人頭模型。
4.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述被測試人發(fā)音的運動軌跡的位移和所述生成被測試人的三維人頭模型,生成發(fā)音的三維人頭運動模擬的步驟,具體為: 接收自動實時建模模塊生成的三維人頭模型,以及載入初始化模塊生成的發(fā)音運動模擬參數(shù),并通過導(dǎo)入EMA發(fā)音驅(qū)動數(shù)據(jù),驅(qū)動三維人頭模型發(fā)音說話。
5.一種生成說話人三維運動模型的系統(tǒng),其特征在于,所述系統(tǒng)包括: 數(shù)據(jù)自動采集模塊,用于獲取攝像頭采集的彩色圖像的信息以及深度數(shù)據(jù)信息; 自動實時建模模塊,用于將獲取到的數(shù)據(jù)送入人臉檢測函數(shù),計算是否檢測到人臉,如果檢測到人臉,則計算當(dāng)前人臉的狀態(tài);根據(jù)計算出的當(dāng)前人臉的狀態(tài)生成被測試人的三維人頭模型; 發(fā)音驅(qū)動模塊,用于獲取被測試人發(fā)音的運動軌跡的位移;根據(jù)所述被測試人發(fā)音的運動軌跡的位移和所述生成被測試人的三維人頭模型,生成發(fā)音的三維人頭運動模擬。
6.如權(quán)利要求5所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括: 初始化模塊,用于初始化深度攝像頭和彩色攝像頭、初始化三維標(biāo)準(zhǔn)模型和初始化EMA發(fā)音驅(qū)動參數(shù)。
7.如權(quán)利要求5所述的系統(tǒng),其特征在于, 所述自動實時建模模塊,具體用于將所述計算出的當(dāng)前人臉的狀態(tài)進(jìn)行規(guī)范化,使用三維標(biāo)準(zhǔn)模型對其配準(zhǔn),然后完成貼圖,生成被測試人的三維人頭模型。
8.如權(quán)利要求5所述的系統(tǒng),其特征在于, 所述發(fā)音驅(qū)動模塊,具體用于接收自動實時建模模塊生成的三維人頭模型,以及載入初始化模塊生成的發(fā)音運動模擬參數(shù),并通過導(dǎo)入EMA發(fā)音驅(qū)動數(shù)據(jù),驅(qū)動三維人頭模型發(fā)音說話。
9.一種包括權(quán)利要求5至8任一項所述的生成說話人三維運動模型的系統(tǒng)的計算機(jī)。
【文檔編號】G06T15/00GK103778661SQ201310721911
【公開日】2014年5月7日 申請日期:2013年12月24日 優(yōu)先權(quán)日:2013年12月24日
【發(fā)明者】朱云, 王嵐, 陳輝 申請人:中國科學(xué)院深圳先進(jìn)技術(shù)研究院, 中國科學(xué)院軟件研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1