專利名稱:一種使用語音數(shù)據(jù)激勵圖像的方法
技術(shù)領(lǐng)域:
本發(fā)明主要涉及使用語音數(shù)據(jù)激勵(animate)圖像的計算有效的方法。更具體而言,雖然不是唯一的,本發(fā)明涉及使用基于語音數(shù)據(jù)的過程和通常獨立于語音數(shù)據(jù)的過程來激勵化身(avatar)的多個身體部位。
背景技術(shù):
語音識別是將例如在麥克風(fēng)處接收到的聲信號轉(zhuǎn)換成諸如音素、單詞和句子之類的語言成分的過程。語音識別可用于許多功能,包括其中口語被翻譯成書面文字的口述,和使用口頭命令控制軟件應(yīng)用程序的計算機控制。
語音識別技術(shù)的另一個出現(xiàn)的應(yīng)用是控制計算機產(chǎn)生的化身。根據(jù)印度神話,化身是神的化身具體化,其行使著人類仲裁者的功能。在電子通信的虛擬世界中,化身是人或各種類型動物的、類似卡通的、“2維”或“3維”圖形表示。作為“演講者頭部”特寫,通過提供表示通信的可視圖像到接收者,化身可以使諸如語音呼叫或email之類的電子通信變得生動。例如,email的文字可以通過使用語音合成技術(shù)的化身“講”給接收者。此外,僅僅從呼叫者傳送聲數(shù)據(jù)到被呼叫者的傳統(tǒng)電話呼叫,可以使用能說話的化身被轉(zhuǎn)換成準(zhǔn)視頻會議呼叫。這樣的準(zhǔn)視頻會議呼叫對于與會者來說可以比傳統(tǒng)的僅僅音頻的會議呼叫更有趣并且信息更豐富,但比實際的視頻數(shù)據(jù)傳輸需要少的多的帶寬。
使用化身的準(zhǔn)視頻會議利用語音識別技術(shù)來識別接收到的音頻數(shù)據(jù)中的語言成分。例如,移動電話的屏幕上顯示的化身可以實時激勵呼叫者的語音。由于呼叫者的話音是通過電話的揚聲器發(fā)出的,因此電話中的語音識別軟件識別呼叫者話音中的語言成分,并將該語言成分映射到化身的嘴巴的圖形表示的變化上。從而該化身使用實時的呼叫者的語音對電話用戶表現(xiàn)出正在講話。
除了激勵嘴巴的圖形表示,激勵化身的現(xiàn)有技術(shù)的方法包括復(fù)雜算法以便同時將多個身體運動和語音同步。這樣的多個身體運動可以包括眼睛運動、嘴巴和嘴唇運動、旋轉(zhuǎn)和搖動頭部運動,和軀干和肢體的運動。然而,所需運算的復(fù)雜性使該方法通常不能使用實時語音數(shù)據(jù)激勵,該語音數(shù)據(jù)諸如在電話中實時接收的來自呼叫者的語音數(shù)據(jù)。
發(fā)明內(nèi)容
根據(jù)一個方面,本發(fā)明是一種激勵圖像的方法,包括識別圖像的上臉部和下臉部;基于根據(jù)簡化的元音集合而分類的語音數(shù)據(jù)激勵下臉部;使用坐標(biāo)變換模型來搖動上臉部和下臉部;以及使用圖像卷繞模型來旋轉(zhuǎn)上臉部和下臉部。
根據(jù)另一個方面,本發(fā)明是一種激勵圖像的方法,包括識別圖像的上臉部和下臉部;基于根據(jù)簡化的元音集合而分類的語音數(shù)據(jù)激勵下臉部;以及獨立于激勵下臉部而激勵上臉部。
因此,使用本發(fā)明,改進的化身的動畫可以使用實時語音數(shù)據(jù)。本發(fā)明的方法比大多數(shù)傳統(tǒng)語音識別和激勵方法具有更少的計算強度,這能夠使本發(fā)明更快的執(zhí)行同時使用更少的處理器資源。
為了使本發(fā)明更容易理解和產(chǎn)生實際的效果,現(xiàn)在將為典型實施例作出參考,正如附圖的參考所示,其中相似的參考數(shù)字表示各個圖中相等的或功能相似的元件。根據(jù)本發(fā)明,附圖以及以下詳細(xì)的描述,被結(jié)合進并且成為了說明書的一部分,并且用來進一步闡述實施例并解釋各種原理和優(yōu)點,其中圖1是顯示了以無線電電話的形式的移動設(shè)備的示意圖,該移動設(shè)備執(zhí)行本發(fā)明方法;圖2是顯示了根據(jù)本發(fā)明實施例的化身的卡通圖,該化身包括上臉部、下臉部、肢體部位;圖3是顯示了根據(jù)本發(fā)明實施例的、包括用來激勵化身下臉部的下臉部發(fā)音嘴形的動畫系列的示意圖;圖4是顯示了根據(jù)本發(fā)明實施例的、包括化身的上臉部和下臉部的搖動頭部的示意圖;圖5是顯示了根據(jù)本發(fā)明實施例的、包括化身的上臉部和下臉部的旋轉(zhuǎn)頭部的示意圖;圖6是顯示了根據(jù)本發(fā)明實施例的、用于激勵圖像的方法的功能框圖;圖7是顯示了根據(jù)本發(fā)明實施例的、用于激勵諸如化身的卡通圖像之類的圖像的方法的總體流程圖;本領(lǐng)域技術(shù)人員將理解圖上的元件是為了簡單清楚的目的而表示的,并不需要按比例畫出。例如,圖中一些元件的尺寸相對于其他元件來說被放大了,以便有助于提高理解本發(fā)明的實施例。
具體實施例方式
在描述根據(jù)本發(fā)明的具體實施例之前,應(yīng)當(dāng)注意,該實施例基本在于方法步驟的組合以及與方法相關(guān)的裝置組件,用于使用語音數(shù)據(jù)來激勵圖像。因此,裝置組件和方法步驟已經(jīng)在適當(dāng)?shù)牡胤酵ㄟ^圖中傳統(tǒng)的符號來表示,顯示僅僅那些與理解本發(fā)明實施例相關(guān)的特殊細(xì)節(jié),這樣不會使得公開的細(xì)節(jié)含糊不清,這對于那些從本說明書中獲得利益的本領(lǐng)域普通技術(shù)人員來說是清楚的。
在本文檔中,相關(guān)的術(shù)語,諸如左和右、第一和第二、等等僅僅用來區(qū)分一個實體或動作和另一個實體或動作,而不必需要或暗示在該實體或動作之間的任何實際這樣的關(guān)系或順序。術(shù)語“包括(comprises或comprising)”或任何其他的變形,目的是覆蓋非排他的包括,因此包括一列元件的過程、方法、物品或裝置不僅僅包括那些元件,還可以包括其他沒有清楚地列出的或在這樣的過程、方法、物品或裝置所固有的元件?!鞍ㄒ粋€…”后面跟著元件(不帶有更多的限制),不排除包含該元件的過程、方法、物品或裝置中存在另外相同的元件。
參考圖1,是顯示了以無線電電話100的形式的移動設(shè)備的示意圖,該移動設(shè)備執(zhí)行本發(fā)明的方法。電話100包括射頻通信單元102,被耦合來與處理器103通信。電話100還具有鍵盤106和顯示屏105,被耦合來與處理器103通信。正如對本領(lǐng)域的技術(shù)人員來說顯而易見,屏幕105可以是觸摸屏,這樣使鍵盤106變得可選。
處理器103包括編碼器/解碼器111,其具有相關(guān)聯(lián)的碼只讀存儲器(ROM)112,存儲用于編碼和解碼語音或其他可以由無線電電話100傳送和接收的信號的數(shù)據(jù)。處理器103還包括微處理器113,通過公共數(shù)據(jù)和地址總線117的數(shù)據(jù)耦合到編碼器/解碼器111、字符只讀存儲器(ROM)114、隨機存取存儲器(RAM)104、靜態(tài)可編程存儲器116和SIM接口118。該靜態(tài)可編程存儲器116和可操作地耦合到SIM接口118的SIM的每一個能夠存儲,被選擇的輸入文本消息和電話號碼數(shù)據(jù)庫TND(電話本)等等,該TND包括用于電話號碼的號碼字段和用于與姓名字段中一個號碼相關(guān)聯(lián)的標(biāo)識符的姓名字段。例如,在電話號碼數(shù)據(jù)庫TND中的一個條目可以是91999111111(輸入到號碼字段中),其與姓名字段中的標(biāo)識符“Steven C!at work”相關(guān)聯(lián)。
麥克風(fēng)113具有用于耦合到鍵盤106和屏幕105和告警115的端口,該告警115通常包括告警揚聲器、振動器馬達和相關(guān)的驅(qū)動器。此外,微處理器113具有用于耦合到麥克風(fēng)135和通信揚聲器140的端口。字符只讀存儲器114存儲用于對可以被通信單元102接收的文字消息解碼或編碼的碼。在該實施例中,字符只讀存儲器114還存儲用于微處理器113的操作碼(OC)和用于執(zhí)行與無線電電話100相關(guān)聯(lián)的功能的碼。
射頻通信單元102是具有公共天線107的組合的接收器和傳送器。該通信單元102具有通過射頻放大器109耦合到天線107的收發(fā)器108。該收發(fā)器108還耦合到組合的調(diào)制器/解調(diào)器110,其將通信單元102耦合到處理器103。
傳統(tǒng)的語音識別過程解決識別音素的復(fù)雜技術(shù)問題,該音素是指用來構(gòu)造單詞的最小發(fā)音單元。語音識別通常是統(tǒng)計過程,其需要大計算量語音數(shù)據(jù)的分析。該分析包括聲變異性的識別,如背景噪聲和變換器引入的噪聲,還包括音素變異性的識別,如各個音素中的聲差?,F(xiàn)有技術(shù)中用于激勵化身的方法將這樣的大計算量語音識別過程和大計算量身體部位激勵過程相組合,其中身體部位激勵過程與語音數(shù)據(jù)同步。該方法對于在諸如無線電電話100之類的移動設(shè)備上使用通常需要很大的計算量,尤其是當(dāng)語音數(shù)據(jù)需要實時處理的時候。
根據(jù)一個實施例,本發(fā)明是一種方法,其比傳統(tǒng)激勵方法需要顯著地小的計算量,用于激勵圖像以便創(chuàng)造一個可信的和真實的化身。例如,化身可以顯示在電話100的屏幕105上,并且顯示為實時說出收發(fā)器108接收的呼叫者的話語,并由通信揚聲器140放大。此外,化身能夠在其“說話”時展現(xiàn)其身體部位自然的外形運動,該身體部位例如包括,它的頭、眼睛、嘴、軀干和肢體。現(xiàn)在詳細(xì)的描述該方法。
首先,語音數(shù)據(jù)通過識別語音數(shù)據(jù)的有聲(voiced)片斷而被濾波。識別有聲片斷可以使用各種本領(lǐng)域中已知的技術(shù)來執(zhí)行,諸如能量分析和過零率分析。語音數(shù)據(jù)的高能量成分通常和有聲聲音相關(guān)聯(lián),而低到中間能量語音數(shù)據(jù)通常與無聲(unvoiced)聲音相關(guān)聯(lián)。語音數(shù)據(jù)的非常低的能量成分通常和靜音或背景噪聲相關(guān)聯(lián)。
過零率是語音數(shù)據(jù)的頻率內(nèi)容的簡單測量。語音數(shù)據(jù)的低頻成分通常和有聲語音相關(guān)聯(lián),語音數(shù)據(jù)的高頻率通常和無聲語音相關(guān)聯(lián)。
在識別到有聲片段之后,為每個片斷確定高振幅譜。因此,對于每個片斷,通過根據(jù)振幅來歸一化每個有聲片斷的高振幅成分的FFT來確定歸一化快速傅立葉變換(FFT)數(shù)據(jù)。該歸一化FFT數(shù)據(jù)然后被過濾,以便強調(diào)數(shù)據(jù)中的峰值。例如,具有0.1的閾值設(shè)置的高通濾波器可以被應(yīng)用,其將FFT中所有低于閾值的值設(shè)置為0。
被歸一化和濾波的FFT數(shù)據(jù)然后被一個或多個峰檢測器處理。該峰檢測器檢測峰的各種屬性,諸如峰的數(shù)量、峰的分布和峰的能量。使用來自峰檢測器的數(shù)據(jù),該被歸一化和過濾的FFT數(shù)據(jù),(其很可能表示主要元音聲音的高振幅譜),然后被分割為子帶。例如,根據(jù)本發(fā)明的一個實施例,使用4個子帶,其被索引為0到3。如果高振幅譜的能量集中在子帶1或2,那么該譜被歸類為最可能對應(yīng)于主要元音音素/a/。如果高振幅譜的能量集中在子帶0或2,那么該譜被歸類為最可能對應(yīng)于主要元音音素/i/。最后,如果高振幅譜的能量集中在子帶0,那么該譜被歸類為最可能對應(yīng)于主要元音音素/u/。
根據(jù)本發(fā)明的一個實施例,被分類的譜被用于激勵化身的特征以便創(chuàng)建化身在真正“說”出語音數(shù)據(jù)的印象。該激勵通過將分類的譜映射到離散的嘴部運動來執(zhí)行。正如本領(lǐng)域所公知的,離散的嘴部運動可以由化身使用一系列發(fā)音嘴形(viseme)來復(fù)制,該發(fā)音嘴形是映射到可視域的基本語音單元。每個發(fā)音嘴形表示一個靜態(tài)的、可視的對比的嘴部形狀,其通常對應(yīng)于當(dāng)人發(fā)出特定音素時使用的嘴形。
通過使用這樣的事實語言中音素的數(shù)量比相應(yīng)的發(fā)音嘴形的數(shù)量大的多,本發(fā)明能夠有效地執(zhí)行這樣的音素-發(fā)音嘴形映射。此外,主要元音音素/a/,/i/和/u/每個都能被映射到3個非常明顯的發(fā)音嘴形中的一個。通過僅僅使用這三個獨特的發(fā)音嘴形,與嘴巴從閉合到張開然后再一次到閉合位置的運動的圖像幀相耦合,與卡通類似,可以創(chuàng)造可信的嘴巴運動。因為在語音數(shù)據(jù)中只有3個主要元音音素被識別,因此本發(fā)明實施例的語音識別比現(xiàn)有技術(shù)具有顯著更少的處理器密集性。例如,根據(jù)本發(fā)明實施例,使用3個主要元音音素/a/,/i/和/u/,在英語中各種元音都被分類為簡化的元音集合如表1所示。
表1英語中簡化的元音集合
參考圖2,卡通圖像200顯示了根據(jù)本發(fā)明實施例的包括上臉部205、下臉部210和肢體部位215的化身。該卡通圖像200還包括背景部分220。為了激勵該化身,使其顯示出正在以類似于人類的自然的講話,下面方法是有用的激勵所有上臉部205,例如包括眼鏡、頭發(fā)、眉毛;下臉部210,例如包括嘴巴和嘴唇;肢體部位215,例如包括腿、胳膊和手。如上所述,使用根據(jù)簡化的元音集合而分類的語音數(shù)據(jù),下臉部210能夠有效地并高效地被激勵。然而,同步所有身體部位205、210、215的運動和實時語音數(shù)據(jù)會在激勵過程中創(chuàng)造出非常高的復(fù)雜性。
因此,根據(jù)本發(fā)明的實施例,只有下臉部210是基于語音數(shù)據(jù)被激勵,該語音數(shù)據(jù)根據(jù)簡化的元音集合被分類。上臉部205、肢體部位215和化身的頭部的總的運動-其包括下臉部210和上臉部205搖動或旋轉(zhuǎn)-根據(jù)通常獨立于語音數(shù)據(jù)的模型被激勵。這使得本發(fā)明以這種方式激勵化身該方式比傳統(tǒng)激勵方法具有明顯小的計算量。因此本發(fā)明能夠使用實時語音數(shù)據(jù)在諸如無線電電話100之類的具有有限處理器和存儲器資源的設(shè)備上執(zhí)行。
參考圖3,該示意圖顯示了根據(jù)本發(fā)明的實施例的激勵序列300,包括下臉部發(fā)音嘴形305-i,其用來激勵化身的下臉部210。使用諸如根據(jù)語音能量的嘴巴寬度映射、根據(jù)語音數(shù)據(jù)的譜結(jié)構(gòu)的嘴形映射的技術(shù),根據(jù)本發(fā)明的教導(dǎo)分類的語音數(shù)據(jù)能夠被用來控制化身的嘴巴和嘴唇圖形的運動。例如,嘴巴寬度映射涉及在從語音數(shù)據(jù)獲得的峰波形包絡(luò)310期間嘴巴的張開和閉合。考慮到i個下臉部發(fā)音嘴形305-n,標(biāo)號為從0到i-1,被用來描述峰波形包絡(luò)310。嘴巴寬度映射首先設(shè)置峰波形包絡(luò)310的開始的無聲片段為0,這由下臉部發(fā)音嘴形305-0中所示的閉合嘴巴來表示。然后,根據(jù)每個相應(yīng)幀的語音能量,峰波形包絡(luò)310中剩余的數(shù)據(jù)幀被映射到發(fā)音嘴形305-1到305-(i-1),結(jié)果產(chǎn)生了在下臉部發(fā)音嘴形305-9中所示的完全張開的嘴巴。最后,為了使化身上的嘴巴和嘴唇所感覺到的運動更加自然,執(zhí)行下臉部發(fā)音嘴形305-n的后處理以便提供在發(fā)音嘴形305-n之間的平滑的過渡。
參考圖4,示意圖顯示了根據(jù)本發(fā)明的實施例的、包括化身的上臉部205和下臉部210的頭部的搖動。化身的頭部的初始圖像如圖4的左側(cè)所示。根據(jù)本發(fā)明,Hotelling變換被應(yīng)用在圖像中并產(chǎn)生了頭部的搖動圖像,如圖4的右側(cè)所示。根據(jù)Hotelling變換,首先定義右側(cè)的中心點。然后僅僅使用一個參數(shù)θ來指定旋轉(zhuǎn)變換。旋轉(zhuǎn)變換的推導(dǎo)使用基本的矢量cos(θ)和sin(θ)。然后以下的等式1根據(jù)x-y坐標(biāo)軸的旋轉(zhuǎn)來定義旋轉(zhuǎn)變換,其中S和D分別表示源和目的坐標(biāo)。
Sx=Dxcos(θ)+Dysin(θ)Sy=-Dxsin(θ)+Dycos(θ)等式1因為Sx和Sy通常不是整數(shù)值,因此應(yīng)用雙線性插值以保持動畫圖像之間平滑的轉(zhuǎn)換。該雙線性插值可以使用2*2塊的輸入像素,其環(huán)繞每個計算的浮點像素值Sx和Sy以便確定輸出像素的亮度值。
參考圖5,示意圖顯示了根據(jù)本發(fā)明實施例的,包括化身的上臉部205和下臉部210的旋轉(zhuǎn)頭部??梢允褂脠D像卷繞(wraping)技術(shù)來執(zhí)行化身的頭部的旋轉(zhuǎn),該技術(shù)產(chǎn)生了圖像旋轉(zhuǎn)的感覺-而不需要任何3維模型的再現(xiàn)。如本領(lǐng)域技術(shù)人員所知,薄盤樣條(TPS)變形分析能夠?qū)⒈砻嫔瞎潭c的運動插值。TPS變形分析使用對于約束在各個點處的薄金屬盤的物理彎曲能量U的依賴性的精致的代數(shù)表達式。這可以可視化為在每個給定點從下面被抬升的2維可變形的盤。因為盤的高度在給定位置是固定的,所以盤將變形。彎曲盤所需的能量可以用下面的等式2定義,該等式即為雙諧波等式。
Δ2U=(∂2∂x2+∂2∂y2)2U=0]]>等式2對雙諧波等式的基本解法由下面的等式3給出z(x,y)=-U(r)=-r2logr2等式3其中r是點(x,y)與Cartesian原點的距離。因此該雙諧波等式描述了被抬升到位于(x,y)平面的盤以上作為函數(shù)z(x,y)的薄鋼盤的形狀。因此等式3是二維的函數(shù)|x|3的自然結(jié)果。如果位移z(x,y)被看作是坐標(biāo)位移,那么等式2和3的TPS函數(shù)可以理解為插值函數(shù),因此適合于2維圖像卷繞。
根據(jù)本發(fā)明的實施例,TPS算法用來圍繞著z軸505卷繞化身的頭部圖像,包括上臉部205和下臉部210。首先,一組控制節(jié)點510被標(biāo)記在上臉部205和下臉部210的輪廓周圍,并沿著z軸505??刂乒?jié)點510的坐標(biāo)值被表示為(xi,yi),其中i=1,2,...p,其中p是控制節(jié)點510的號碼。然后目標(biāo)坐標(biāo)值被表示為(x’i,y’i),并根據(jù)以下規(guī)則定義首先控制節(jié)點510沿著z軸505的目標(biāo)坐標(biāo)值保持和原始的坐標(biāo)值相同,根據(jù)等式4xi′=xi,yi′=y(tǒng)i等式4其次,其余的控制節(jié)點510的目標(biāo)坐標(biāo)值是根據(jù)等式5的原始坐標(biāo)值和水平偏移(offset)值的和,xi′=xi+offset,yi′=y(tǒng)i等式5其中水平偏移值屬于集合[-3,-2,-1,1,2,3]。因此在圖5中,圖的右側(cè)的4個圖像520,530,540和550的集合表示了關(guān)于z軸的感覺到的旋轉(zhuǎn),其中圖像510是旋轉(zhuǎn)之前的圖像,并且在最右邊圖像550中化身顯示出正在朝他的左邊看。該四個圖像520,530,540和550對應(yīng)于水平偏移值0(即,關(guān)于z軸505無旋轉(zhuǎn))、1、2、3。
化身的上臉部205的運動也可以使用隨機模型來建模,該隨機模型通常獨立于語音數(shù)據(jù)。例如,眼睛的圖像可以制作成以大約平均為10秒的隨機間隔“眨眼”。最后,激勵化身的軀干或肢體部位215可以根據(jù)本發(fā)明使用通常獨立于語音數(shù)據(jù)的隨機模型來進行。
參考圖6,功能框圖顯示了根據(jù)本發(fā)明實施例的激勵圖像的方法。在塊605中,語音數(shù)據(jù),包括峰波形包絡(luò)310,被分類到簡化的元音集合中。塊610、615、620和625分別表示存儲了諸如下臉部發(fā)音嘴形、上臉部圖像模板、身體圖像模板和背景圖像模板的圖像的圖像清單。塊630、635和640分別表示下臉部210、上臉部205和肢體部位215的獨立動畫。注意到,只有涉及下臉部210的動畫的塊630從塊605直接接收分類的語音數(shù)據(jù);因此塊635和640是基于模型的,并且通常獨立于語音數(shù)據(jù)操作的。塊645涉及歸一化臉部動畫的,塊650涉及修改的臉動畫,諸如搖動和旋轉(zhuǎn)涉及下臉部210和上臉部205的整個頭部運動。最后,在塊655中,執(zhí)行動畫合成從而產(chǎn)生合成動畫圖像200。
參考圖7,是顯示了根據(jù)本發(fā)明實施例的、用于激勵諸如化身的卡通圖像200之類的圖像的方法700的總體流程圖;首先,在步驟705中,化身的身體部位,諸如上臉部205、下臉部210和肢體部位215,被在圖像中識別。在步驟710,基于根據(jù)簡化的元音集合分類的語音數(shù)據(jù)而激勵下臉部205。在步驟715中,坐標(biāo)變換模型,諸如Hotelling變換模型,被用來引起總的頭部搖動運動,包括下臉部210和上臉部205一起運動。在步驟720中,圖像卷繞模型,諸如TPS模型,被用來引起總的頭部旋轉(zhuǎn)運動,包括下臉部210和上臉部205一起運動。在步驟725中,肢體部位215使用隨機模型激勵。最后,在步驟730中,上臉部205獨立于下臉部210的激勵而被激勵。
因此本發(fā)明的優(yōu)點在于包括使用實時語音數(shù)據(jù)的改進的化身的激勵。本發(fā)明的方法比大多數(shù)傳統(tǒng)語音識別和激勵方法具有更小的計算量,這使得本發(fā)明的方法能夠更快的執(zhí)行同時使用更少的處理器資源。本發(fā)明的實施例因此特別適合于具有有限處理器和存儲資源的移動通信設(shè)備。
上面詳細(xì)的描述僅僅提供了典型實施例,而不是為了限制本發(fā)明的范圍、適用性或配置。相反,典型實施例的詳細(xì)描述為本領(lǐng)域的技術(shù)人員提供了執(zhí)行本發(fā)明典型實施例的使能說明。應(yīng)當(dāng)理解,可以在不背離附加的權(quán)利要求所陳述的本發(fā)明的精神和范圍的條件下作出對于元件的功能和排列和步驟中的各種變化。應(yīng)當(dāng)理解這里描述的本發(fā)明實施例包括一個或多個傳統(tǒng)處理器和唯一的存儲的程序指令,該程序指令控制一個或多個處理器與某個非處理器協(xié)力來使用這里描述的語音數(shù)據(jù)執(zhí)行激勵圖像的一些、大多數(shù)或者全部的功能。該非處理器電路可以包括,但不限制為,無線電接收器、無線電發(fā)射器、信號驅(qū)動器、時鐘電路、電源電路和用手輸入設(shè)備。因此,這些功能可以理解為使用語音數(shù)據(jù)激勵圖像方法的步驟。可替換地,一些或所有功能可以由沒有存儲程序指令的狀態(tài)機執(zhí)行,或者在一個或多個專用集成電路(ASIC)中執(zhí)行,在該集成電路中,每一個功能或者某些功能的組合被實現(xiàn)為定制邏輯電路。當(dāng)然,可以使用兩種方法的組合。因此,對于這些功能的方法和裝置已經(jīng)在這里描述。此外,期望本領(lǐng)域的技術(shù)人員,盡管可能非常努力并且由例如可用的時間、當(dāng)前技術(shù)和經(jīng)濟的考慮而激發(fā)的許多設(shè)計選擇,當(dāng)由這里公開的概念和原理知道的,將理解可以使用最小的實驗產(chǎn)生這樣的軟件指令和程序和IC。
在上述說明中,已經(jīng)描述了本發(fā)明的典型實施例。然而,本領(lǐng)域的普通技術(shù)人員理解在不背離以下權(quán)利要求所闡述的本發(fā)明的范圍的條件下可以作出各種修改和變化。因此,說明書和附圖被看作是示例性的而不具有限制的含義,所有這些修改被理解為包括在本發(fā)明的范圍之內(nèi)。利益、優(yōu)點、解決問題的方法,和許多能夠帶來利益、優(yōu)點或解決正在發(fā)生的方法或?qū)⒏@著的元素不是被解釋為任何一個或所有權(quán)利要求的決定性的、需要的、或者關(guān)鍵的特征或元素。本發(fā)明僅僅由附加的權(quán)利要求定義,該權(quán)利要求包括了任何在申請未決期間作出的更正以及這些權(quán)利要求的等價物。
權(quán)利要求
1.一種激勵圖像的方法,包括識別圖像的上臉部和下臉部;基于根據(jù)簡化的元音集合而分類的語音數(shù)據(jù)激勵下臉部;使用坐標(biāo)變換模型來搖動上臉部和下臉部;以及使用圖像卷繞模型來旋轉(zhuǎn)上臉部和下臉部。
2.如權(quán)利要求1所述的方法,還包括識別圖像的肢體部位;和使用隨機模型激勵肢體部位。
3.如權(quán)利要求1所述的方法,其中搖動和旋轉(zhuǎn)上臉部和下臉部是獨立于激勵下臉部而執(zhí)行的。
4.如權(quán)利要求1所述的方法,還包括獨立于激勵下臉部而激勵上臉部。
5.如權(quán)利要求4所述的方法,其中激勵上臉部的步驟包括產(chǎn)生眨眼圖像。
6.如權(quán)利要求1所述的方法,其中下臉部包括嘴巴和嘴唇。
7.如權(quán)利要求1所述的方法,其中所述坐標(biāo)變換模型基于根據(jù)以下公式的Hotelling變換Sx=Dxcos(θ)+Dysin(θ)Sy=-Dxsin(θ)+Dycos(θ)其中S和D表示源和目的坐標(biāo)。
8.如權(quán)利要求1所述的方法,其中所述圖像卷繞模型是基于以下雙諧波等式的薄盤樣條模型Δ2U=(∂2∂x2+∂2∂y2)2U=0.]]>
9.如權(quán)利要求1所述的方法,其中所述圖像包括化身。
10.如權(quán)利要求1所述的方法,其中激勵下臉部的步驟包括顯示一系列發(fā)音嘴形。
11.如權(quán)利要求10所述的方法,其中在所述一系列發(fā)音嘴形中的每個發(fā)音嘴形與從語音數(shù)據(jù)得到的音素相關(guān)聯(lián)。
12.如權(quán)利要求1所述的方法,其中激勵下臉部的步驟包括在閉著的嘴巴的圖像和張開嘴巴圖像之間的圖像變形。
13.一種激勵圖像的方法,包括識別圖像的上臉部和下臉部;基于根據(jù)簡化的元音集合而分類的語音數(shù)據(jù)激勵下臉部;以及獨立于激勵下臉部而激勵上臉部。
14.如權(quán)利要求13所述的方法,其中激勵上臉部基于不同于語音數(shù)據(jù)的數(shù)據(jù)。
全文摘要
本發(fā)明涉及一種使用語音數(shù)據(jù)激勵圖像的方法。該方法有利于使用實時語音數(shù)據(jù)激勵化身。根據(jù)一個方面,本方法包括識別圖像的上臉部和下臉部(步驟705);基于根據(jù)簡化的元音集合而分類的語音數(shù)據(jù)激勵下臉部(步驟710);使用坐標(biāo)變換模型來搖動上臉部和下臉部(步驟715);以及使用圖像卷繞模型來旋轉(zhuǎn)上臉部和下臉部(步驟720)。
文檔編號G06T13/40GK1991982SQ200510135748
公開日2007年7月4日 申請日期2005年12月29日 優(yōu)先權(quán)日2005年12月29日
發(fā)明者陳桂林, 黃建成, 楊端端 申請人:摩托羅拉公司