專利名稱:用于對臉部運動編碼的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于對運動目標編碼的方法和裝置,更具體地,涉及一種能夠通過利用一個三維臉部模型對一臉部運動進行編碼和解碼的方法和裝置。
在諸如可視電話、電視會議和高分辨率電視系統(tǒng)的數(shù)字電視系統(tǒng)中,由于在每一視頻幀信號中的一視頻行信號包括一系列被稱作象素值的數(shù)字數(shù)據(jù),因而需要大量的數(shù)字數(shù)據(jù)來定義該視頻幀信號。然而,由于傳統(tǒng)傳送信道的可用頻率帶寬有限,為了從其傳送大量的數(shù)字數(shù)據(jù),需要通過利用各種數(shù)據(jù)壓縮技術(shù)來壓縮或減少該數(shù)據(jù)量,尤其對于諸如用于通過其傳送人形的可視電話和電視會議系統(tǒng)和低比特率視頻信號編碼器。
在一視頻編碼系統(tǒng)中,待傳送圖象通常包括連接變化的象素。然而在一個三維基于模型的編碼系統(tǒng)中,從該圖象中抽出一個特殊運動參數(shù)并將其傳送到接收端。在接收端,為了重建該圖象,例如臉部圖象,收到的該運動參數(shù)與諸如事先傳送至此接收端的人的基本臉部形狀和頭部的一般的三維模型的數(shù)據(jù)相結(jié)合。
在可視電話和電視會議系統(tǒng)中,視頻圖象主要包括頭和肩部圖象,即人的上部身體。而且,觀眾可能最感興趣的目標將是人的臉部,并且觀眾將注意運動的部分,即包括運動中的他/她的嘴唇、下巴、頭之類的人的嘴部區(qū)域,尤其是當該人正在一視頻畫面中談話,而并不注意背景畫面或其它細節(jié)。因此,如果只需傳送臉部形狀的一般信息,則數(shù)字數(shù)據(jù)量可被大量地減少。
因此,本發(fā)明的一個目的是提供一種具有減少了傳送數(shù)據(jù)量的能夠通過利用一個三維臉部模型來對一個臉部運動編碼和解碼的方法和裝置。
根據(jù)本發(fā)明,提供了一種方法用于基于一個三維(3D)模型的編碼系統(tǒng)中根據(jù)一聲音和一個二維(2D)圖象信號來對一個新的臉部的臉部運動編碼,其中要么基于逐幀、要么基于逐場來提供新臉部的聲音和2D圖象信號,該方法包括下列步驟(a)根據(jù)一個基本3D模型從新臉部的原始數(shù)據(jù)中產(chǎn)生一個自適應3D模型,其中該原始數(shù)據(jù)代表新臉部的一個或多個2D臉部圖象,而該基本3D模型代表人的一般臉的3D模型;(b)根據(jù)該自適應3D模型產(chǎn)生該2D圖象信號的一基本模式,其中該基本模式代表通過該2D圖象信號和該自適應3D模型之間的旋轉(zhuǎn)相關(guān)性(rotational correlationship)而獲得的一個2D畫面;(c)從該2D圖象信號中抽出新臉部的一個或多個特征區(qū),其中該特征區(qū)代表一個或多個在其中發(fā)生許多變形的區(qū)域;(d)將該特征區(qū)和該基本模式作比較以檢測多個變形參數(shù),其中該變形參數(shù)代表該比較結(jié)果;(e)根據(jù)聲音信號修改該變形參數(shù)以產(chǎn)生經(jīng)修改的變形參數(shù);及(f)對該原始數(shù)據(jù)和該修改的變形參數(shù)編碼。
本發(fā)明的以上和其它目的可通過對下面根據(jù)附圖給出的優(yōu)選實施例的描述中變得顯而易見,其中
圖1說明根據(jù)本發(fā)明的用于對一臉部運動編碼的裝置100的方框圖;圖2提供了根據(jù)本發(fā)明的用于對一臉部運動解碼的裝置200的方框圖;圖3A說明了根據(jù)本發(fā)明的多個眼睛和眼眉變形參數(shù);圖3B顯示了根據(jù)本發(fā)明的多個嘴變形參數(shù);圖3C提供1了根據(jù)本發(fā)明的3個頦變形參數(shù);及圖3D表示根據(jù)本發(fā)明的3個頭變形參數(shù)。
在本發(fā)明的一個實施例中,假設(shè)感興趣的輸入圖象是一人的臉部,且待編碼的臉部圖象的預定特征部分是頭、嘴、頦、眼眉和眼睛。
參考圖1,示出了根據(jù)本發(fā)明的該實施例的用于對臉部運動編碼的裝置100的一方框圖,其中臉部運動根據(jù)下面進一步說明的方法被分類。
為了方便起見,人體被分為包括腰的上體和腰以下的下體。且,上體再被分為頭、軀干、胳膊等。而頭又被分成眼、鼻、嘴和耳等。如果眼、鼻、嘴和耳被認為是基本模式,則能夠根據(jù)此基本模式組織起人體的一個分層次系統(tǒng),且能夠抽出代表此基本模式的變形的變形參數(shù)。以下,對于頭部將解釋該變形參數(shù)和其數(shù)據(jù)結(jié)構(gòu)。
頭部的基本模式可被分成兩類。第一類對應于發(fā)生許多基本模式的變形的區(qū)域,而第二類對應于很少發(fā)生基本模式的變形的區(qū)域。前者對應于眼、眼眉、嘴、頦、頰和額頭區(qū)域,而后者對應于頭發(fā)、鼻、耳等區(qū)域。用于抽出變形參數(shù)的基本模式對應于主動運動區(qū)。因而,所選的變形參數(shù)將包括下面將要詳細描述的眼、眼眉、嘴、頦及頭的參數(shù)。額頭的皺紋及頰分別跟隨眼眉和頦運動而被動運動。
1)眼眉如圖3A所示,眼眉被分成左眼眉和右眼眉,且左和右眼眉變形參數(shù)分別包括內(nèi)側(cè)眼眉上-下運動參數(shù)(EB1,EB2)、眼眉左-右運動參數(shù)(EB3,EB4)和外側(cè)眼眉上-下運動參數(shù)(EB5,EB6)。
2)眼也如圖3A所示,左和右眼變形參數(shù)分別包括眼臉上-下運動參數(shù)(EL1,EL2)、瞳孔上-下運動參數(shù)(E1,E2)和瞳孔左-右運動參數(shù)(E3,E4)。
3)嘴如圖3B所示,嘴的運動依靠嘴唇的運動。嘴變形參數(shù)包括唇的兩端點的左-右運動參數(shù)(L1,L2)、唇中央?yún)^(qū)的最上和最下點的上下運動參數(shù)(L3,L4)、唇中央?yún)^(qū)的最上和最下點的前向一后向運動參數(shù)(L5,L6)、以及唇的端點的上下運動參數(shù)(L7,L8)。
4)頦如圖3C所示,頦變形參數(shù)包括上下運動參數(shù)(C1)、左-右運動參數(shù)(C2)和前-后運動參數(shù)(C3)。
5)頭如圖3D所示,定義一個三維坐標框架使臉平面(平行于臉的虛擬平面)與X軸垂直,Z軸穿過頭頂?shù)闹行?,而Y軸垂直于X軸和Z軸,該坐標系的原點位于第一頸椎或在其附近。換句話說,X、Y和Z軸分別平行于圖3B所示的參數(shù)L5、L1和L3的運動方向。頭變形參數(shù)包括3個轉(zhuǎn)動參數(shù),即一個表示繞Z軸左-右旋轉(zhuǎn)的左右搖頭(yawing)參數(shù)(H1)、一個表示繞Y軸上下旋轉(zhuǎn)的俯仰參數(shù)(H2)以及一個表示左-右傾斜(即繞X軸旋轉(zhuǎn))的轉(zhuǎn)動參數(shù)(H3)。
在基本模式上,這些參數(shù)在它們各自的基本位置處具有0值。
變形參數(shù)被存儲并按下面給出的數(shù)據(jù)格式被傳送,其中每個基本模式的變形參數(shù)都用獨立的項表示。名稱代碼位數(shù)開始碼 head 3頭定向位head_orientation_bit 1頭定向項 head_orientation_items3頭_定向_項
H18頭_定向_頂[1] H27頭_定向_項[2] H35眼眉變形位eyebrow_bit 1左-右眼眉項 eyebrows 2左眼眉項 lefteyebrow_items 3左眼眉_項
EB1 3左眼眉_項[1]EB3 3左眼眉_項[2]EB5 3右眼眉項 righteyegrow_items3右眼眉_項
EB2 3右眼眉_項[1]EB4 3右眼眉_項[2]EB6 3眼變形位eye_bit 1E13E23E33
E4 3EL1 3EL2 3嘴變形位 mouth_bit 1變形選擇位 speech_bit 1L1 3L2 3L3 3L4 3L5 3L6 3L7 3L8 3sound 8pace4accent 3頦變形位 chin_bit1C1 4C2 3C3 3臉結(jié)構(gòu)位face_texture_bit 1face_data VLB以下將對每一項給出一個解釋。
1、開始碼(head)代表頭數(shù)據(jù)開始的一個3位碼,被設(shè)為例如“001”。如果開始碼不是“001”則所跟隨的不是頭數(shù)據(jù)。
2、頭定向位(head-orientation_bit)表示頭是否旋轉(zhuǎn)的一個1位碼。其值為1表示頭被轉(zhuǎn)了且后面將有頭定向參數(shù)。其值為0說明頭設(shè)有被轉(zhuǎn)動。
1)頭定向項(head_orientation_items)表示頭向哪一個方向轉(zhuǎn)動的一個3位碼。該碼的各自的3位表示存在它們相應的定向項。一位1表示頭被轉(zhuǎn)向其相應的方向。例如,其值“110”表示發(fā)生了左右搖頭(即頭的左-右轉(zhuǎn)動)和俯仰(即頭的上下轉(zhuǎn)動)。
a)頭_定向_項一個8位頭左右搖參數(shù)(H1),表示從-90度到90度的181個步長中的一個整數(shù)值。
b)頭_定向_項[1]一個7位的頭俯仰參數(shù)(H2),表示從-60度至60度的121個步長中的一個整數(shù)值。
c)頭_定位向_項[2]一個5位頭轉(zhuǎn)動參數(shù)(H3),表示從-15度至15度的31個步長中的一個整數(shù)值。
3、眼眉變形位(eyebrow_bit)說明眼眉是否運動的一個1位碼。其值是1說明眼眉運動,其值是0說明眼眉不運動。
1)左-右眼眉項(eyebrows)表示哪一個眼眉運動的一個2位碼。
a)00兩個都不運動。
b)01左眼眉運動。
c)10右眼眉運動。
d)11兩個眼眉都運動。
2)左眼眉項(1efteyebrow-items)表示左眼眉向哪一個方向運動的一個3位碼。此碼的3位表示存在下面三個運動參數(shù)。
a)左眼眉_項在碼左眼眉_項中其值為1說明內(nèi)側(cè)左眼眉上下運動。一個3位的內(nèi)側(cè)左眼眉上下運動參數(shù)(EB1)是從-1.0至1.0的7個步長中被給出的。
其中幾乎總是沒有運動的第4步長,以及兩個極端步長第1、第7步長將被定在預定的絕對的3個3維坐標上,而其余步長的位置是通過使用預定的加權(quán)因子(例如上表中顯示的)來計算的。第2、第3、第5和第6步長的坐標可被計算為對第2和第3步長x(j)=|w(j)|*x(step 1)+(1.0-|w(j)|)*x(step 4)y(j)=|w(j)|*y(step 1)+(1.0-|w(j)|)*y(step 4)z(j)=|w(j)|*z(step 1)+(1.0-|w(j)|)*z(step 4)對第5和第6步長x(j)=w(j)*x(step 7)+(1.0-w(j))*x(step 4)y(j)=w(j)*y(step 7)+(1.0-w(j))*y(step 4)z(j)=w(j)+z(step 7)+(1.0-w(j))*z(step 4)其中X(j)、Y(j)和Z(j)表示第j步長的X、Y和Z的坐標;W(j)是第j步長的一個預定加權(quán)因子;而X(步長i)、Y(步長i)和Z(步長i)是在第i步長中的X、Y和Z的坐標。
b)左眼眉_項[1]其值為1表示左眼眉在左或右的方向上運動。一個3位的左眼眉左-右運動參數(shù)(EB3)在從-1.0至1.0的7個步長中被給出。并且以與在EB1中相似的方式確定步長的位置。
c)左眼眉_項[2]其值1表示外側(cè)左眼眉上下移動。3位的外側(cè)左眼眉上下運動參數(shù)(EB5)有從-1.0到1.0的7個步長。用于(EB1)的權(quán)值應用于(EB5),并且步長的位置以與EB1中相似的方式確定。
3)右眼眉項(righteyebrow-items)表示右眼眉向哪一個方向移動的一個碼。右眼眉變形參數(shù)(EB2、EB4、EB6)的功能與左眼眉變形參數(shù)(EB1、EB3、EB5)的功能相同。
4、眼變形位(eye-bit)表示眼睛是否運動的一個1位碼。其值為1表示眼睛運動,其值為0表示眼睛不運動。
1)瞳孔上下運動參數(shù)(E1,E2)(E1)和(E2)分別表示左眼和右眼的上下運動。(E1)和(E2)各自有7個步長。其中幾乎總是沒有運動的第4步長,以及兩個極端步長第1、第7步長將被定在預定的絕對的3個坐標上,而其余步長的位置如在EB1的情形中來計算。
2)瞳孔左-右運動參數(shù)(E3,E4)(E3)和(E4)分別表示左眼和右眼的左-右運動。(E3)和(E4)各自有7個步長,步長的位置如在E1和E2的情形來計算。
3)外側(cè)眼瞼上下運動參數(shù)(EL1,EL2)(EL1)和(EL2)分別表示左眼瞼和右眼瞼的上下運動。(EL1)和(EL2)各自有7個步長,且諸步長的位置如在E1和E2的情形來計算。
5、嘴變形位(mouth-bit)表示嘴形是否變化的一個1位碼。其值是1表示嘴形變化,其值是0表示嘴形不變化。
1)變形選擇位(speech-bit)一個表示為嘴選擇了哪一個變形參數(shù)的碼。唇形被分成兩種情形,即一種情況是當人在講話時,另一種情形是當人表達表情時。一般地,由于唇形非常依賴于當人講話時發(fā)出的聲音,因而唇形能夠通過利用所發(fā)聲音的特征、聲音的速度和重音來建構(gòu)。然而當人表達他/她的感情時,唇形并不具有任何特征。因此,應通過利用全部嘴變形參數(shù)來構(gòu)建唇形,此些參數(shù)即唇的兩端點的左-右運動參數(shù)(L1,L2)、唇的中央?yún)^(qū)的最上和最下點的上下運動參數(shù)(L3,L4)、唇的中央?yún)^(qū)的最上和最下點的前后運動參數(shù)(L5,L6),以及唇的端點的上下運動參數(shù)(L7,L8),如圖3B所示。其值為1表示該人正在講話,以下所跟隨的將是聲音、速度和重音碼。如果該碼是0值,則L1至L8碼將隨后而至。L1至L8運動參數(shù)分別是3位且具有7個步長。根據(jù)對運動參數(shù)EB1所描述的方法來計算諸步長的位置。所產(chǎn)生聲音的特征、聲音的速度和重音分別在第8、4和3位表示。
6、頦變換位(Chin-bit)表示頦是否運動的一個1位碼。其值為1表示頦運動,其值為0表示頦不運動。
1)頦上下運動參數(shù)(C1)一個4位頦上下運動參數(shù)(C1)表示自相應于閉著的嘴的位置頦所作的位移量,且有16個步長,第0步長代表閉著的嘴,第15步長代表張開的最大的嘴。16個步長的頦位置以與EB1類似的方法計算。
2)頦左-右運動參數(shù)(C2)一個3位頦左-右運動參數(shù)(C2),表示頦的左-右運動,且從中央處的基本位置向左方向有3個步長、向右方向有3個步長。步長的位置如在EB1的情形來計算。
3)頦前-后運動參數(shù)(C3)一個3位頦前后運動參數(shù)(C3),代表頦的前后運動,且從中央?yún)^(qū)的基本位置向前有3個步長、向后有3個步長。步長的位置如EB1情形來計算。
7、臉結(jié)構(gòu)位(face-texture-bit)當一張新臉參與通信時,此碼被設(shè)為1。
1)臉數(shù)據(jù)(face-data)它表示新臉的被壓縮的基本臉圖象數(shù)據(jù)且其長度是變化的。
回過頭參考圖1,初始數(shù)據(jù)被應用于自適應3維(3D)模型塊10和編碼器12,其中該初始數(shù)據(jù)表示剛出現(xiàn)在屏幕上的一個或多個2維(2D)無表情且無聲的臉圖象,即新臉的一個或多個靜止畫面。編碼器12通過傳統(tǒng)編碼原理對2D臉圖象的初始數(shù)據(jù)編碼以提供給格式化器36作為臉數(shù)據(jù)的編碼的臉圖象。
同時,將存儲在基本3D模型塊14中的基本3D模型提供給自適應3D模型塊,其中該基本3D模型代表人的一般臉的3D模型。該自適應3D模型塊10通過根據(jù)一基本3D模型修改該2D初始數(shù)據(jù)而產(chǎn)生類似于該新臉的自適應3D模型,并將該自適應3D模型提供給頭參數(shù)塊16和基本模式生成塊18。
同時,新臉的圖象信號從例如一攝象機(未示出)被提供給頭參數(shù)塊16和特征提取塊20;且新臉的聲音信號從例如一話筒(未示出)被連續(xù)地輸入至聲音分析器30,其中新臉的圖象信號和聲音信號的連續(xù)輸入要么基于逐幀、要么基于逐場。
首先,通過對新臉的自適應3D模型施行傳統(tǒng)的仿射變形原理,頭參數(shù)塊16從新臉的圖象信號中檢測頭左右搖動、俯仰和轉(zhuǎn)動參數(shù)H1至H3。將頭左右搖動、俯仰和轉(zhuǎn)動參數(shù)H1至H3提供給基本模式生成塊18和格式化器36?;灸J缴蓧K18生成新臉的一基本模式,其中該基本模式代表通過將左右搖動、俯仰和轉(zhuǎn)動參數(shù)的自適應3D模型旋轉(zhuǎn)并將旋轉(zhuǎn)后的自適應3D模型投影至一屏幕上而獲得的新臉的2D自適應圖象;并將基本模式中的左和右眼眉、左和右眼、嘴和頦進行索引以生成基本眼眉、眼、嘴和頦模式。該基本模式生成塊18將經(jīng)索引的眼眉、眼、嘴和頦分別提供給眼眉提取塊22、眼提取塊24、嘴1提取塊26和頦1提取塊28。
同時,通過利用傳統(tǒng)邊緣檢測器(諸如sobel算子),特征提取塊20從新臉的圖象信號中提取預定特征區(qū)的邊緣,其中該特征區(qū)包括新臉的左和右眼眉、左和右眼、嘴和頦,并將該特征區(qū)的輪廓信息,例如左和右眼眉、左和右眼、嘴和頜分別提供給眼眉提取塊22、眼提取塊24、嘴1提取塊26和頦提取塊28,其中該輪廓信息代表每一特征區(qū)的形狀和位置。
眼眉提取塊22根據(jù)從基本模式生成塊18饋入的基本眼眉圖形檢測左和右眼眉的運動。如果左和右眼眉運動,則左和右眼眉變形參數(shù)E1到E6分別用3位算出。一個3位左眼眉一項信號(說明將對哪一個左眼眉變形參數(shù)E1、E3和E5進行編碼,和一個3位右眼眉-項信號說明將對哪一個右眼眉變形參數(shù)E2、E4和E6進行編碼)被生成。根據(jù)左眼眉_項和右眼眉_項信號生成說明哪一個眼眉運動的一個2位眼眉信號。眼眉數(shù)據(jù)被連續(xù)地以上面給出的數(shù)據(jù)形式提供給格式化器36,其中如果有的話,眼眉數(shù)據(jù)包括眼眉信號、左眼眉_項信號、左眼眉變形參數(shù)EB1、EB3和EB5、右眼眉_項信號,以及右眼眉變形參數(shù)EB2、EB4和EB6。
眼提取塊24根據(jù)從基本模式生成塊18饋入的基本眼眼模式檢測左和右眼的運動,并分別根據(jù)左和右眼的運動產(chǎn)生瞳孔上下運動參數(shù)E1和E2、瞳孔左右運動參數(shù)E3和E4、以及外側(cè)眼瞼上-下運動參數(shù)EL1和EL2。眼提取塊24給格式化器36提供眼睛數(shù)據(jù),該數(shù)據(jù)包括,如果有的話,瞳孔上下運動參數(shù)E1和E2,瞳孔左-右運動參數(shù)E3和E4以及外側(cè)眼瞼上下運動參數(shù)EL1和EL2。
嘴1提取塊26根據(jù)從基本模式生成塊18饋入的基本嘴模式檢測新臉的表情下的嘴的運動,并生成嘴變形參數(shù)L1至L8。嘴變形參數(shù)L1至L8被提供給格式器36。
頦1提取塊28根據(jù)從基本模式生成塊18饋入的基本頦模式檢測出新臉的表情下的頦的運動,并生成頦變形參數(shù)C1至C3。該頦變形參數(shù)C1至C3被提供給格式化器36。
同時,聲音分析器30將該聲音信號和一預定閾值比較以確定新臉是在講話還是在表達他/她的感情。說明該新臉是否在為了交流而講話的一個速度-位信號被提供給格式化器36。如果該新臉是在講話,則從該聲音信號中提取發(fā)出的聲音、速度和重音以將此些提供給嘴2提取塊32和頦提取塊34。
嘴2提取塊分別根據(jù)發(fā)出的聲音、速度和重音產(chǎn)生一個8位聲音參數(shù)、一個4位速度參數(shù)和一個3位重音參數(shù),以確定嘴形,并將此聲音參數(shù)、速度參數(shù)和重音參數(shù)提供給格式化器36。如果需要,可以在頦2提取塊34中產(chǎn)生3個頦變形參數(shù)C1至C3以將此些提供給格式化器36。
—新臉無論何時出現(xiàn)在屏幕上,格式化器36都將產(chǎn)生一個1位臉_結(jié)構(gòu)_位,其中該臉_結(jié)構(gòu)_位表示新臉的臉_數(shù)據(jù)隨后跟隨。格式化器36也生成3位起始碼信號、1位頭_定向_位信號、1位眼眉_位信號、1位眼_位信號、1位嘴_位信號和1位頦_位信號,其中根據(jù)眼眉信號生成的2位眼眉_信號說明在左右眼眉中是否存在運動;根據(jù)參數(shù)E1至E4、EL1和EL2產(chǎn)生的1位眼_位信號說明左和右眼是否存在運動;根據(jù)嘴變形參數(shù)L1至L8或聲音、速度和重音參數(shù)產(chǎn)生的嘴_位信號說明嘴是否存在運動;而根據(jù)頦變形參數(shù)C1至C3產(chǎn)生的1位頦_位信號說明頦是否存在運動。格式化器36根據(jù)上面給出的數(shù)據(jù)格式將所有的信號、參數(shù)和臉_數(shù)據(jù)復合起來,并將多路復合的結(jié)果提供給緩沖器38用于存儲,在該緩沖器中被存儲的數(shù)據(jù)被提供給發(fā)送器(未示出)用于發(fā)送。
參考圖2,示出根據(jù)本發(fā)明的用于對臉部動作解碼的裝置200的方框圖,其中被發(fā)送來的數(shù)據(jù)被暫時存儲在緩沖器50且被提供給初始數(shù)據(jù)解碼器52和參數(shù)解碼器54。
初始數(shù)據(jù)解碼器52將被發(fā)送來的數(shù)據(jù)中的臉_數(shù)據(jù)解碼,并將新臉的2D初始數(shù)據(jù)提供給自適應3D模型生成塊57內(nèi)的自適應3D模型塊58。
自適應3D模塊58通過根據(jù)從自適應3D模型生成塊57內(nèi)的基本3D模型塊60饋入的基本3D模型修正2D初始數(shù)據(jù)而產(chǎn)生與新臉類似的自適應3D模型,其中基本3D模型與編碼裝置100的基本3D模型相同。該自適應3D模型被提供給模式生成塊62。
同時,參數(shù)解碼器54將除臉_數(shù)據(jù)之外的所有傳送來的數(shù)據(jù)解碼以產(chǎn)生所有變形參數(shù),該變形參數(shù)包括頭變形參數(shù)H1至H3;左和右眼眉變形參數(shù)EB1至EB6;左和右眼變形參數(shù)E1至E4、EL1和EL2;嘴變形參數(shù)L1至L8或者聲音、速度和重音參數(shù);以及頦變形參數(shù)C1至C3。頭變形參數(shù)經(jīng)線路L62被提供給模式生成塊62;左和右眼眉變形參數(shù)EB1至EB6被提供給眼眉重建塊64;左和右眼變形參數(shù)E1至E4、EL1和EL2被提供給眼重建塊66;嘴變形參數(shù)L1至L8或聲音、速度和重音參數(shù)被提供給嘴重建塊68;而頦變形參數(shù)C1至C3被提供給頦重建塊70。眼眉重建塊64、眼重建塊66、嘴重建塊68和頦重建塊70組成了重建塊63。
首先,模式生成塊62向圖象重建塊56提供新臉的基本模式,其中該基本模式代表通過將頭變形參數(shù)(即左右搖頭、俯仰和轉(zhuǎn)動參數(shù)H1至H3)的自適應3D模型旋轉(zhuǎn)、并然后將旋轉(zhuǎn)過的自適應3D模型投影到一屏幕上而獲得的新臉的2D自適應圖象;并對基本模式中的左和右眼眉、左和右眼、嘴和頦進行索引。模式生成塊62分別將索引過的眼眉、眼、嘴和頦提供給眼眉重建塊64、眼重建塊66、嘴重建塊68和頦重建塊70。
眼眉重建塊64根據(jù)左和右眼眉變形參數(shù)EB1至EB6從經(jīng)索引的眼眉重建左和右眼眉,以將重建的左和右眼眉提供給圖象重建塊56。眼重建塊66根據(jù)左和右眼變形參數(shù)E1至E4、EL1和EL2從經(jīng)索引的眼重建左和右眼,以將重建的左和右眼提供給圖象重建塊56。嘴重建塊68根據(jù)嘴變形參數(shù)L1至L8或聲音、速度和重音參數(shù)從經(jīng)索引的嘴重建嘴以將重建的嘴提供給圖象重建塊56。頦重建塊70根據(jù)頦變形參數(shù)C1至C3從經(jīng)索引的頦重建頦并將重建的頦提供給圖象重建塊56。
圖象重建塊56要么以逐幀為基礎(chǔ)、要么以逐場為基礎(chǔ)通過用從重建塊63來的眼眉、眼、嘴和頦代替從模式生成塊62饋入的基本模式中的它們而重建新臉的新圖象。
雖然對本發(fā)明的描述參考了具體實施例,對本專業(yè)技術(shù)人員顯而易見的是在不背離如所附權(quán)利要求中定義的本發(fā)明的精神和范圍的前提下可作各種變化和修改。
權(quán)利要求
1.一種方法,用于基于一個三維(3D)模型的編碼系統(tǒng)中,根據(jù)一聲音和一個二維(2D)圖象信號來對一個新的臉部的臉部運動編碼,其中要么基于逐幀、要么基于逐場來提供新臉部的聲音和2D圖象信號,該方法包括下列步驟(a)根據(jù)一個基本3D模型從新臉部的原始數(shù)據(jù)中產(chǎn)生一個自適應3D模型,其中該原始數(shù)據(jù)代表新臉部的一個或多個2D臉部圖象,而該基本3D模型代表人的一般臉的3D模型;(b)根據(jù)該自適應3D模型產(chǎn)生該2D圖象信號的一基本模式,其中該基本模式代表通過該2D圖象信號和該自適應3D模型之間的旋轉(zhuǎn)相關(guān)性(rotational correlalionship)而獲得的一個2D畫面;(c)從該2D圖象信號中抽出新臉部的一個或多個特征區(qū),其中該特征區(qū)代表一個或多個在其中發(fā)生許多變形的區(qū)域;(d)將該特征區(qū)和該基本模式比較以檢測多個變形參數(shù),其中該變形參數(shù)代表該比較結(jié)果;(e)根據(jù)聲音信號修改該變形參數(shù)以產(chǎn)生經(jīng)修改的變形參數(shù);及(f)對該原始數(shù)據(jù)和該修改的變形參數(shù)編碼。
2.根據(jù)權(quán)利要求1的方法,其中步驟(b)包括以下步驟(b1)根據(jù)自適應3D模型確定2D圖象信號的頭參數(shù),其中該頭參數(shù)代表該自適應3D模型的投影圖象與該2D圖象信號類似時的旋轉(zhuǎn)條件;及(b2)用對應于頭參數(shù)的投影圖象代替基本模式。
3.根據(jù)權(quán)利要求2的方法,其中該投影圖象由一仿射變形原理來確定。
4.根據(jù)權(quán)利要求1的方法,其中步驟(d)包括下列步驟(d1)用基本模式匹配特征區(qū)以計算每一特征區(qū)的每一運動量;及(d2)將所述每一運動量存儲在一個相應的變形參數(shù)中。
5.根據(jù)權(quán)利要求4的方法,其中該特征區(qū)包括左和右眼眉、左和右眼、嘴和頦;而變形參數(shù)包括眼眉變形參數(shù)、眼變形參數(shù)、嘴變形參數(shù)和頦變形參數(shù)。
6.根據(jù)權(quán)利要求5的方法,其中該特征區(qū)由一個sobel算子確定。
7.根據(jù)權(quán)利要求1的方法,其中步驟(e)包括下列步驟(e1)從聲音信號獲得所發(fā)出的聲音、速度和重音;(e2)將所發(fā)出的聲音、速度和重音分別與預定的閾值對比,以生成一個聲音_位信號,其中該聲音_位信號說明新臉是在講話還是表達感情;及(e3)如果該新臉被確定為在講話,則根據(jù)發(fā)出的聲音、速度和重音來調(diào)整嘴變形參數(shù),以產(chǎn)生經(jīng)修正的嘴變形參數(shù)。
8.根據(jù)權(quán)利要求7的方法,其中如果該新臉被確定為在講話,則步驟(e3)還具有步驟根據(jù)所發(fā)出的聲音、速度和重音來調(diào)整頦變形參數(shù)以產(chǎn)生修正的頦變形參數(shù)。
9.根據(jù)權(quán)利要求8的方法,其中經(jīng)修正的變形參數(shù)包括頭、眼眉、眼、嘴和頦變形參數(shù)。
10.一種裝置,用于在基于一個三維(3D)模型的編碼系統(tǒng)中根據(jù)一聲音和一個二維(2D)圖象信號來對一個新的臉部的臉部運動編碼,其中要么基于逐幀、要么基于逐場來提供新臉部的聲音和2D圖象信號,該方法包括下列步驟自適應3D模型生成器,用于根據(jù)一個基本3D模型從新臉部的原始數(shù)據(jù)中產(chǎn)生一個自適應3D模型,其中該原始數(shù)據(jù)代表新臉部的一個或多個2D臉部圖象,而該基本3D模型代表人的一般臉的3D模型;基本模式生成器,用于根據(jù)該自適應3D模型產(chǎn)生該2D圖象信號的一基本模式,其中該基本模式代表通過該2D圖象信號和該自適應3D模型之間的旋轉(zhuǎn)相關(guān)性(rotational correlationship)而獲得的一個2D畫面;特征提取器,用于從該2D圖象信號中抽出新臉部的一個或多個特征區(qū),其中該特征區(qū)代表一個或多個在其中發(fā)生許多變形的區(qū)域;參數(shù)生成器,用于將該特征區(qū)和該基本模式比較以檢測多個變形參數(shù),其中該變形參數(shù)代表該比較結(jié)果;聲音分析器,用于根據(jù)該聲音信號生成一個聲音_位信號,其中該聲_位信號說明新臉是談話還是表達感情;參數(shù)調(diào)整器,相應于聲音_位信號,該調(diào)整器用于根據(jù)聲音信號調(diào)整變形參數(shù)以產(chǎn)生修正的變形參數(shù);及格式化器,用于對初始數(shù)據(jù)和變形參數(shù)或修正的變形參數(shù)進行編碼。
11.根據(jù)權(quán)利要求10的裝置,其中基本模式生成器包括用于根據(jù)自適應3D模型確定2D圖象信號的頭參數(shù)的裝置,其中該頭參數(shù)代表該自適應3D模型的投影圖象與該2D圖象信號類似時的旋轉(zhuǎn)條件;及用于以對應于頭參數(shù)的投影圖象代替基本模式的裝置。
12.根據(jù)權(quán)利要求11的裝置,其中該投影圖象由一仿射變形原理來確定。
13.根據(jù)權(quán)利要求10的裝置,其中參數(shù)生成器包括用于以基本模式匹配特征區(qū)以計算每一特征區(qū)的每一運動量的裝置;及用于將所述每一運動量存儲在一個相應的變形參數(shù)中的裝置。
14.根據(jù)權(quán)利要求13的裝置,其中該特征區(qū)包括左和右眼眉、左和右眼、嘴和頦;而變形參數(shù)包括眼眉變形參數(shù)、眼變形參數(shù)、嘴變形參數(shù)和頦變形參數(shù)。
15.根據(jù)權(quán)利要求14的裝置,其中該特征區(qū)由一個sobel算子確定。
16.根據(jù)權(quán)利要求14的裝置,其中聲音分析器包括用于從聲音信號獲得所發(fā)出的聲音、速度和重音的裝置;用于將所發(fā)出的聲音、速度和重音分別與預定的閾值對比,以生成一個聲音_位信號的裝置。
17.根據(jù)權(quán)利要求16的裝置,其中相應于該聲音_位信號,根據(jù)該聲音信號對嘴和頦變形參數(shù)進行調(diào)整以分別生成修正的嘴和頦變形參數(shù)。
18.根據(jù)權(quán)利要求17的裝置,其中經(jīng)修正的變形參數(shù)包括頭、眼眉、眼、嘴和頦變形參數(shù)。
全文摘要
提供了一種方法,用于在基于一個三維(3D)模型的編碼系統(tǒng)中根據(jù)一聲音和一個二維(2D)圖象信號業(yè)對一個新的臉部的臉部運動編碼。根據(jù)人的一般臉的一基本3D模型從新臉的初始數(shù)據(jù)生成一個自適應3D模型;并通過2D圖形信號和自適應3D模型之間的旋轉(zhuǎn)相關(guān)性來產(chǎn)生該2D圖象信號的一個基本模式。將來自2D圖象信號的新臉的一個或多個特征區(qū)與該基本模式進行對比,以便檢測多個變形參數(shù)。根據(jù)該聲音信號對此變形參數(shù)作修正。
文檔編號G06T9/20GK1188948SQ97122078
公開日1998年7月29日 申請日期1997年12月22日 優(yōu)先權(quán)日1997年12月22日
發(fā)明者李敏燮 申請人:大宇電子株式會社