專利名稱:對(duì)語音數(shù)據(jù)進(jìn)行分類的方法
技術(shù)領(lǐng)域:
本發(fā)明通常涉及語音識(shí)別。尤其是,雖然并非專門地,但是本發(fā)明涉及對(duì)語音數(shù)據(jù)進(jìn)行分析和分類以有助于使虛擬角色(avatars)動(dòng)畫化。
背景技術(shù):
語音識(shí)別是一種將例如在擴(kuò)音器處所接收到的聲信號(hào)轉(zhuǎn)換為例如音素、單詞、以及句子之類的語言成分的處理。語音識(shí)別對(duì)許多功能來說是有用的,這些功能包含將口語轉(zhuǎn)換成書面文本的聽寫以及利用口頭命令來對(duì)軟件應(yīng)用程序進(jìn)行控制的計(jì)算機(jī)控制。
進(jìn)一步涌現(xiàn)出的語音識(shí)別技術(shù)的應(yīng)用是控制計(jì)算機(jī)生成的虛擬角色(avatars)。根據(jù)印度教的神話,虛擬角色(avatars)是起到與人類的居間人這樣的作用的天神的化身。在電子通信的虛擬世界中,虛擬角色是人或各類生物的像卡通那樣的“二維”或“三維”圖形表示。作為一個(gè)“正在說話的頭”,虛擬角色通過將表示通信的虛擬圖像發(fā)送給接收者而能夠讓例如話音呼叫或電子郵件之類的電子通信變得生動(dòng)。例如,利用語音合成技術(shù)而通過虛擬角色將電子郵件的文本“講給”接收者。此外,利用正在說話的虛擬角色,可以將僅將聲數(shù)據(jù)從主叫方傳送到被叫方的傳統(tǒng)電話呼叫轉(zhuǎn)化為準(zhǔn)視頻會(huì)議呼叫。對(duì)于參加者來說,這種準(zhǔn)視頻會(huì)議呼叫比傳統(tǒng)的僅有音頻的會(huì)議呼叫更加有趣并且信息更加豐富,但是需要比實(shí)際視頻數(shù)據(jù)傳輸少得多的帶寬。
使用虛擬角色的準(zhǔn)視頻會(huì)議采用語音識(shí)別技術(shù)以標(biāo)識(shí)出所接收到的音頻數(shù)據(jù)中的語言成分。例如,在移動(dòng)電話屏幕上所顯示的虛擬角色能夠?qū)崟r(shí)地使主叫方的話音動(dòng)畫化。當(dāng)主叫方的話音通過電話揚(yáng)聲器擴(kuò)散時(shí),電話中的語音識(shí)別軟件標(biāo)識(shí)主叫方的話音中的語言成分,并且將該語言成分映射成虛擬角色的嘴部的圖形表示的變化。實(shí)時(shí)地利用主叫方的話音,虛擬角色(avatars)因此看起來就像是正在講話的電話用戶。
發(fā)明內(nèi)容根據(jù)一個(gè)方面,本發(fā)明是一種用于對(duì)語音數(shù)據(jù)進(jìn)行分類的方法。該方法包含標(biāo)識(shí)語音數(shù)據(jù)的有聲(voiced)語音段。然后,通過對(duì)該有聲語音段的高振幅成分執(zhí)行頻譜分析而確定高振幅頻譜。之后將該高振幅頻譜分類為元音音素,其中該元音音素是從簡化的元音集合中選擇出來的。
因此,使用本發(fā)明,利用實(shí)時(shí)語音數(shù)據(jù)可改善對(duì)虛擬角色的動(dòng)畫化。本發(fā)明的方法與大多數(shù)的傳統(tǒng)語音識(shí)別方法相比具有更少的計(jì)算密集度,這可使得本發(fā)明的方法被更快地執(zhí)行,同時(shí)使用較少的處理器資源。
為了能夠容易地理解本發(fā)明并將本發(fā)明投入實(shí)際使用,現(xiàn)在參考通過參考附圖所說明的示例性實(shí)施例,其中在各個(gè)圖中相似的參考數(shù)字表示相同的或功能上相似的元件。根據(jù)本發(fā)明,附圖與下面的詳細(xì)說明一起包含在說明書中并且構(gòu)成了說明書的一部分,并且用來進(jìn)一步說明實(shí)施例和解釋各種原理和優(yōu)點(diǎn),其中圖1給出了用于執(zhí)行本發(fā)明的方法的以無線電話形式的移動(dòng)設(shè)備的示意圖;圖2是說明了根據(jù)本發(fā)明實(shí)施例的例如在移動(dòng)設(shè)備處所接收和處理的語音數(shù)據(jù)的圖表和相關(guān)的頻譜圖;圖3給出了根據(jù)本發(fā)明實(shí)施例的語音分類和嘴部運(yùn)動(dòng)映射處理的功能部件的模塊圖;并且圖4是說明了根據(jù)本發(fā)明實(shí)施例的對(duì)語音數(shù)據(jù)進(jìn)行分類的方法的一般流程圖。
熟練的技術(shù)人員應(yīng)該理解的是,為了簡單和清楚起見,對(duì)附圖中的元件進(jìn)行了舉例說明,并且其不一定是按比例繪制的。例如,附圖中一些元件的尺寸相對(duì)于其他元件而言被放大了,以有助于提高對(duì)本發(fā)明的實(shí)施例的理解。
具體實(shí)施方式在詳細(xì)描述根據(jù)本發(fā)明的實(shí)施例之前,應(yīng)該注意到,該實(shí)施例主要在于與用于對(duì)語音數(shù)據(jù)進(jìn)行分類的方法相關(guān)的方法步驟和裝置部件的組合。因此,在附圖中在適當(dāng)?shù)牡胤接脩T用的符號(hào)表示了裝置部件和方法步驟,其中僅示出了與理解本發(fā)明的實(shí)施例有關(guān)的那些特定細(xì)節(jié),以便不會(huì)因?qū)τ谑芤嬗谠诖说恼f明書的本領(lǐng)域普通技術(shù)人員來說很容易明白的細(xì)節(jié)而模糊了本公開。
在本文中,諸如左和右、第一和第二等這樣的關(guān)系術(shù)語僅僅被用來區(qū)分一個(gè)實(shí)體或動(dòng)作與另一個(gè)實(shí)體或動(dòng)作,而不一定要求或暗示這種實(shí)體或動(dòng)作之間的這種任何實(shí)際的關(guān)系或順序。術(shù)語“包括”,“包含”或它的任何其他變化用于覆蓋非排他性的包含,從而使得包括一系列要素的處理、方法、制品、或者裝置不僅包括這些要素,而且還包括其他沒有明確列出的或是為這種處理、方法、制品、或裝置所固有的要素。由“包括一個(gè)……”限定的要素在不受到更多限制的情況下不排除在處理、方法、制品、或者裝置中還存在其他相同的要素。
參見圖1,該示意圖說明了用于執(zhí)行本發(fā)明的方法的、以無線電話100的形式的移動(dòng)設(shè)備。該電話100包含與處理器103耦合進(jìn)行通信的射頻通信單元102。該電話100還具有與處理器103耦合進(jìn)行通信的小鍵盤106和顯示屏105。對(duì)于本領(lǐng)域技術(shù)人員來說,顯然屏幕105可以是觸摸屏從而使小鍵盤106是可選擇的。
該處理器103包含編碼器/解碼器111和相關(guān)的用于存儲(chǔ)下述數(shù)據(jù)的代碼只讀存儲(chǔ)器(ROM)112,所述數(shù)據(jù)用于時(shí)可以由無線電話100發(fā)送或接收的話音或其它信號(hào)進(jìn)行編碼和解碼。處理器103還包含通過公共數(shù)據(jù)和地址總線117而與編碼器/解碼器111耦合的微處理器113、字符只讀存儲(chǔ)器(ROM)114、隨機(jī)存取存儲(chǔ)器(RAM)104、靜態(tài)可編程存儲(chǔ)器116和SIM接口118。靜態(tài)可編程存儲(chǔ)器116和可操作地與SIM接口118耦合的SIM中的每一個(gè)都尤其可以存儲(chǔ)選定的到來文本消息以及電話號(hào)碼數(shù)據(jù)庫TND(電話簿),該電話號(hào)碼數(shù)據(jù)庫TND包括用于電話號(hào)碼的號(hào)碼字段以及用于與姓名字段中的號(hào)碼之一相關(guān)聯(lián)的標(biāo)識(shí)符的姓名字段。例如,電話號(hào)碼數(shù)據(jù)庫TND中的一個(gè)條目可能是在姓名字段中具有相關(guān)標(biāo)識(shí)符“Steven C!at work”的91999111111(輸入到號(hào)碼字段中)。
微處理器113具有用于與小鍵盤106和屏幕105以及警報(bào)器115相耦合的端口,其中警報(bào)器115一般包括有警報(bào)揚(yáng)聲器、振動(dòng)電動(dòng)機(jī)、以及相關(guān)的驅(qū)動(dòng)器。此外,微處理器113具有用于與麥克風(fēng)135和通信揚(yáng)聲器140相耦合的端口。字符只讀存儲(chǔ)器114存儲(chǔ)用于對(duì)可以由通信單元102所接收的文本消息進(jìn)行解碼或編碼的代碼。在這個(gè)實(shí)施例中,該字符只讀存儲(chǔ)器114還存儲(chǔ)微處理器113的操作代碼(OC)以及用于執(zhí)行與無線電話100相關(guān)聯(lián)的功能的代碼。
射頻通信單元102是具有公共天線107的組合的接收機(jī)和反射機(jī)。該通信單元102具有通過射頻放大器109而與天線107相耦合的收發(fā)信機(jī)108。該收發(fā)信機(jī)108還與組合的調(diào)制器/解調(diào)器110相耦合,該調(diào)制器/解調(diào)器110使通信單元102與處理器103相耦合。
參見圖2,根據(jù)本發(fā)明的實(shí)施例,圖表200和相關(guān)的頻譜圖205-n描述了例如在無線電話100處所接收和處理的語音數(shù)據(jù)。圖表200將語音數(shù)據(jù)描繪為相對(duì)于時(shí)間的聲音振幅。本領(lǐng)域技術(shù)人員會(huì)將三種主要峰值波形包絡(luò)210-n識(shí)別為有聲(voiced)語音,并且將峰值波形包絡(luò)210-n之間的相對(duì)低振幅的間隔識(shí)別為無聲(unvoiced)語音。
傳統(tǒng)的語音識(shí)別處理解決了標(biāo)識(shí)音素這樣的復(fù)雜的技術(shù)問題,音素是用于造詞的最小元音聲音單位。語音識(shí)別通常是需要對(duì)語音數(shù)據(jù)進(jìn)行計(jì)算上密集的分析的統(tǒng)計(jì)處理。這種分析包含識(shí)別諸如背景噪聲和傳感器引起的噪聲之類的聲音變化性;以及識(shí)別諸如單個(gè)音素中的聲音差異之類的語音可變性。
根據(jù)一個(gè)實(shí)施例,本發(fā)明是一種計(jì)算密集度要顯著小于傳統(tǒng)語音識(shí)別方法的方法,該方法用于對(duì)語音數(shù)據(jù)進(jìn)行分類以使虛擬角色(avatars)的嘴部特征的動(dòng)畫更加可信且看起來更真實(shí)。例如,虛擬角色可以顯示在電話100的屏幕105上,并且看上去像是正在實(shí)時(shí)說著主叫方的那些由收發(fā)信機(jī)108接收并在通信揚(yáng)聲器140上放大的話語。下面將詳細(xì)描述這樣一種方法。
首先,通過標(biāo)識(shí)語音數(shù)據(jù)的有聲語音段而對(duì)例如在圖200中所描述的語音數(shù)據(jù)進(jìn)行濾波。通過使用諸如能量分析和過零率分析之類的本領(lǐng)域所熟知的各種技術(shù)來執(zhí)行時(shí)有聲語音段的標(biāo)識(shí)。語音數(shù)據(jù)的高能成分通常與有聲的聲音有關(guān),同時(shí)低能量語音數(shù)據(jù)至中能量語音數(shù)據(jù)通常與無聲的聲音有關(guān)。語音數(shù)據(jù)的極低能量成分通常與靜寂或背景噪聲有關(guān)。
過零率是對(duì)語音數(shù)據(jù)的頻率內(nèi)容進(jìn)行的簡單測量。語音數(shù)據(jù)的低頻成分通常與有聲的語音有關(guān),而語音數(shù)據(jù)的高頻成分通常與無聲的語音有關(guān)。
在標(biāo)識(shí)有聲的語音段后,為每一段確定一個(gè)高振幅頻譜。因此,對(duì)每一段而言,通過根據(jù)振幅來使每一有聲語音段的高振幅成分的快速傅立葉變換(FFT)標(biāo)準(zhǔn)化,來確定標(biāo)準(zhǔn)化的快速傅立葉變換(FFT)數(shù)據(jù)。例如,在圖表200中,將每一段的高振幅成分標(biāo)識(shí)為“關(guān)鍵幀”,該“關(guān)鍵幀”包含每一段之內(nèi)的峰值振幅。該關(guān)鍵幀一般具有固定的時(shí)間窗(大約30ms),并且抽樣的次數(shù)會(huì)依據(jù)該語音數(shù)據(jù)的抽樣率而改變。例如,一個(gè)典型的關(guān)鍵幀可以包含以8kHz抽樣率的長度L=256的抽樣,或是以16kHz抽樣率的L=512的抽樣。
此后對(duì)標(biāo)準(zhǔn)化的FFT數(shù)據(jù)進(jìn)行濾波,以便使該數(shù)據(jù)中的峰值更加明顯。例如,可以應(yīng)用具有閾值設(shè)定為0.1的高通濾波器,它將FFT數(shù)據(jù)中的所有低于閾值設(shè)定的值設(shè)置為零。
然后由一個(gè)或更多峰值檢測器來處理已被標(biāo)準(zhǔn)化和濾波了的FFT數(shù)據(jù)。該峰值檢測器對(duì)諸如峰值數(shù)目、峰值分布、以及峰值能量這樣的各種峰值屬性進(jìn)行檢測。此后利用來自峰值檢測器的數(shù)據(jù),將可能表示主要元音聲音的高振幅頻譜的已被標(biāo)準(zhǔn)化和濾波了的FFT數(shù)據(jù)劃分為子波段。例如,根據(jù)本發(fā)明的一個(gè)實(shí)施例,使用被索引為從0到3的四個(gè)子波段。如果高振幅頻譜的能量集中在子波段1或2中,那么該頻譜很有可能被分類為與主元音音素/a/相對(duì)應(yīng)。如果該高振幅頻譜的能量集中在子波段0和2中,則該頻譜很有可能被分類為與主元音音素/i/相對(duì)應(yīng)。最后,如果該高振幅頻譜的能量集中在子波段0中,則該頻譜很有可能被分類為與主元音音素/u/相對(duì)應(yīng)。圖2描述了與峰值波形包絡(luò)210-1以及主元音音素/a/相對(duì)應(yīng)的標(biāo)準(zhǔn)化頻譜205-1;與峰值波形包絡(luò)210-2以及主元音音素/i/相對(duì)應(yīng)的標(biāo)準(zhǔn)化頻譜205-2;以及與峰值波形包絡(luò)210-3以及主元音音素/u/相對(duì)應(yīng)的標(biāo)準(zhǔn)化頻譜205-3。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,利用已分類的頻譜來使虛擬角色(avatars)的特征動(dòng)畫化,以便創(chuàng)建該虛擬角色實(shí)際上正在“說出”語音數(shù)據(jù)這樣的印象。這種動(dòng)畫是通過將已分類的頻譜映射到不連續(xù)的嘴部運(yùn)動(dòng)來執(zhí)行的。如末領(lǐng)域所熟知的那樣,由虛擬角色使用一系列發(fā)音嘴形(viseme)來使不連續(xù)的嘴部運(yùn)動(dòng)重復(fù),所述一系列發(fā)音嘴形(viseme)實(shí)質(zhì)上是已映射到可視城中的基本語音單位。每一個(gè)發(fā)音嘴形(viseme)表示一個(gè)靜態(tài)的、在視覺上形成對(duì)比的嘴部形狀,它通常與當(dāng)一個(gè)人發(fā)出特定音素時(shí)所使用的嘴部形狀相對(duì)應(yīng)。
本發(fā)明能夠通過使用下述事實(shí)有效地執(zhí)行這種音素到發(fā)音嘴形的映射,所述事實(shí)就是語言中的音素?cái)?shù)目遠(yuǎn)大于相應(yīng)發(fā)音嘴形的數(shù)目。更進(jìn)一步地,將上述主元音音素/a/、/i/和/u/的每一個(gè)映射到三個(gè)完全不同的發(fā)音嘴形之一。通過僅使用這三個(gè)不同的發(fā)音嘴形——其與從閉合到張開并且然后再到閉合位置運(yùn)動(dòng)的嘴的圖像幀有關(guān)——像卡通片一樣,可以創(chuàng)建可信的嘴部運(yùn)動(dòng)。由于在語音數(shù)據(jù)中僅識(shí)別三個(gè)主要元音音素,因此本發(fā)明的實(shí)施例中的語音識(shí)別明顯比現(xiàn)有技術(shù)中的語音識(shí)別具有更少的處理器密集度。例如,根據(jù)本發(fā)明的一個(gè)實(shí)施例,利用如下述表1中所示的/a/、/i/和/u/的三個(gè)主要元音音素,可使英語中的各種元音音素分組成為簡化的元音集合。
表1-英語中的簡化的元音集合
利用諸如根據(jù)語音能量進(jìn)行嘴部寬度映射或根據(jù)語音數(shù)據(jù)的頻譜結(jié)構(gòu)進(jìn)行嘴部形狀映射之類的技術(shù),根據(jù)本發(fā)明的教義進(jìn)行分類的語音數(shù)據(jù)可以用于控制虛擬角色(avatars)的嘴部和嘴唇圖形的動(dòng)作。例如,嘴部寬度映射與在峰值波形包絡(luò)210-n期間嘴部的張開和閉合有關(guān)。考慮將被編號(hào)為從0到i-1的i個(gè)圖像用于描述峰值波形包絡(luò)210-n。嘴部寬度映射首先將該峰值波形包絡(luò)210-n的開始的無聲段設(shè)置為零,由此表示閉合的嘴部。然后根據(jù)在每一相應(yīng)幀中的語音能量,將在峰值波形包絡(luò)210-n中剩余的數(shù)據(jù)幀映射到該圖像1到i-1上。最后,為了使所感知到的虛擬角色的嘴部和嘴唇動(dòng)作看上去更自然,執(zhí)行對(duì)嘴部和嘴唇圖形的后處理以提供圖像之間的平滑轉(zhuǎn)換。
參見圖3,示意性框圖300描述了根據(jù)本發(fā)明實(shí)施例的語音分類和嘴部運(yùn)動(dòng)映射處理的功能部件。可將處理分為三個(gè)主要功能塊關(guān)鍵幀標(biāo)識(shí)塊305、簡化的元音集合分類塊310、以及動(dòng)畫合成塊315。
在關(guān)鍵幀標(biāo)識(shí)塊305中,在能量分析塊320和過零率塊325中并行地接收并處理輸入的語音數(shù)據(jù)。將來自能量分析塊320和過零率塊325的數(shù)據(jù)提供給用于分離有聲和無聲語音數(shù)據(jù)的有聲/無聲檢測塊330。然后,在有聲包絡(luò)產(chǎn)生器塊335中對(duì)來自有聲/無聲檢測塊330的數(shù)據(jù)進(jìn)行處理,該有聲包絡(luò)產(chǎn)生器塊335用于標(biāo)識(shí)語音數(shù)據(jù)中的有聲語音段。如圖所示,在上述關(guān)鍵幀標(biāo)識(shí)塊305中,在有聲包絡(luò)產(chǎn)生器塊335中還使用來自能量分析塊320的原始數(shù)據(jù)。
在簡化的元音集合分類塊310中,向關(guān)鍵幀頻譜分析塊340提供有聲語音段,該關(guān)鍵幀頻譜分析塊340對(duì)有聲語音段的高振幅成分執(zhí)行頻譜分析并確定高振幅頻譜。接下來,在分類塊345中,將高振幅頻譜分類為主元音音素/a/、/i/或/u/。
最后,在動(dòng)畫合成塊315中,將從分類塊350輸出的主元音音素映射到用于使虛擬角色動(dòng)畫化的發(fā)音嘴形(visemes)。該動(dòng)畫合成塊315從動(dòng)畫素材數(shù)據(jù)庫355中檢索這樣的信息,該信息包括例如發(fā)音嘴形定義以及與當(dāng)在音素之間進(jìn)行轉(zhuǎn)換時(shí)所使用的傳統(tǒng)嘴部張開和閉合位置有關(guān)的信息。該動(dòng)畫合成塊315的最后輸出因此是與語音同步的動(dòng)畫。
參見圖4,一般流程圖描述了根據(jù)本發(fā)明實(shí)施例的用于對(duì)語音數(shù)據(jù)進(jìn)行分類的方法400。首先,在步驟405,在例如無線電話100之類的移動(dòng)無線通信設(shè)備處接收語音數(shù)據(jù)。在步驟410,標(biāo)識(shí)該語音數(shù)據(jù)的有聲語音段。接下來,在步驟415,通過對(duì)有聲語音段的高振幅頻譜成分執(zhí)行頻譜分析來確定高振幅頻譜。步驟415可以包含以下子步驟在步驟420,通過根據(jù)振幅而使有聲語音段的高振幅成分的FFT標(biāo)準(zhǔn)化來確定已標(biāo)準(zhǔn)化的FFT數(shù)據(jù)。在步驟425,對(duì)標(biāo)準(zhǔn)化的FFT數(shù)據(jù)進(jìn)行濾波,以創(chuàng)建已標(biāo)準(zhǔn)化和濾波了的FFT數(shù)據(jù)。之后,在步驟430,檢測在已標(biāo)準(zhǔn)化和濾波了的數(shù)據(jù)中的峰值。在步驟435,基于諸如峰值總數(shù)、峰值分布和峰值能量之類的所檢測峰值的屬性來將已標(biāo)準(zhǔn)化和濾波了的FFT數(shù)據(jù)分類為子波段。然后,在步驟440,將高振幅頻譜分類為例如上述主元音素/a/、/i/或/u/之一這樣的元音音素。最后,在步驟445,將主要元音音素映射到例如與虛擬角色的嘴部位置相關(guān)聯(lián)的發(fā)音嘴形。
本發(fā)明的優(yōu)點(diǎn)因此包含利用實(shí)時(shí)的語音數(shù)據(jù)而改善了虛擬角色的動(dòng)畫化。此外,本發(fā)明的方法與大多數(shù)的傳統(tǒng)語音識(shí)別方法相比具有更少的計(jì)算密集度,這使得本發(fā)明的方法能夠被更快地執(zhí)行,同時(shí)使用較少的處理器資源。因此,本發(fā)明的實(shí)施例特別適合于具有有限的處理器和存儲(chǔ)器資源的移動(dòng)通信設(shè)備。
以上的詳細(xì)描述僅提供了示例性實(shí)施例,而不意味著限定了本發(fā)明的范圍、可適用性、以及結(jié)構(gòu)。相反,上述示例性實(shí)施例的詳細(xì)說明向本領(lǐng)域技術(shù)人員提供了允許實(shí)現(xiàn)本發(fā)明的示例性實(shí)施例的描述。應(yīng)當(dāng)理解的是,在不脫離所附權(quán)利要求
中所闡明的本發(fā)明的精神和范圍的情況下,可對(duì)元件以及步驟的功能和設(shè)置進(jìn)行各種改變。應(yīng)該理解的是,這里所描述的本發(fā)明的實(shí)施例可以包括一個(gè)或多個(gè)傳統(tǒng)的處理器和獨(dú)特的所存儲(chǔ)的程序指令,所述程序指令用于對(duì)一個(gè)或多個(gè)處理器進(jìn)行控制,以結(jié)合某些非處理器電路而實(shí)現(xiàn)如這里所描述的對(duì)語音數(shù)據(jù)進(jìn)行分類的一些功能、大多數(shù)功能、或者所有功能。該非處理器電路可以包含但不局限于無線電接收機(jī)、無線電反射機(jī)、信號(hào)驅(qū)動(dòng)器、時(shí)鐘電路、電源電路和用戶輸入裝置。同樣地,可將這些功能解釋為用于對(duì)語音數(shù)據(jù)進(jìn)行分類的方法步驟?;蛘撸徊糠只蛉抗δ芸梢杂刹痪哂写鎯?chǔ)的程序指令的狀態(tài)機(jī)實(shí)現(xiàn),或者用一個(gè)或多個(gè)專用集成電路(ASIC)實(shí)現(xiàn),在所述專用集成電路中每個(gè)功能或某些功能的某些組合可以作為定制的邏輯實(shí)現(xiàn)。當(dāng)然,可以使用兩種方法的組合。因此,這里已對(duì)用于這些功能的方法和裝置進(jìn)行了描述。此外,可以預(yù)料到的是,雖然由于例如可用時(shí)間、當(dāng)前的技術(shù)、以及經(jīng)濟(jì)方面的考慮而促發(fā)了可能的顯著效果以及許多設(shè)計(jì)選擇,但是普通技術(shù)人員在受到這里所公開的概念和原則的指導(dǎo)時(shí),可利用最少的試驗(yàn)而很容易地產(chǎn)生這種軟件指令和程序以及IC。
在上述的說明書中,已經(jīng)描述了本發(fā)明的具體實(shí)施例。然而,本領(lǐng)域普通技術(shù)人員應(yīng)該知道的是,在不脫離權(quán)利要求
中所闡明的本發(fā)明的精神和范圍的情況下可做出各種修改和變化。因此,說明書和附圖被認(rèn)為是說明性的而不是限制性的,并且意圖使所有這種修改包含在本發(fā)明的范圍之內(nèi)。益處、優(yōu)點(diǎn)、問題的解決方案、以及可產(chǎn)生任何益處、優(yōu)點(diǎn)或解決方案或使其變得更加顯著的任何要素都不應(yīng)當(dāng)被認(rèn)為是任何一個(gè)權(quán)利要求
或是所有權(quán)利要求
的關(guān)鍵的、必需的、或者基本的特征或要素。本發(fā)明僅僅由所附權(quán)利要求
來定義,其中包括在該申請(qǐng)的待審期間所做出的任何修改以及這些權(quán)利要求
的等效內(nèi)容。
權(quán)利要求
1.一種對(duì)語音數(shù)據(jù)進(jìn)行分類的方法,包含標(biāo)識(shí)語音數(shù)據(jù)的有聲語音段;通過對(duì)該有聲語音段的高振幅成分執(zhí)行頻譜分析,確定高振幅頻譜;和將該高振幅頻譜分類為元音音素,其中該元音音素是從簡化的元音集合中選擇出來的。
2.根據(jù)權(quán)利要求
1中的方法,其中該簡化的元音集合僅包含主元音音素/a/、/i/和/u/。
3.根據(jù)權(quán)利要求
2中的方法,其中主元音音素/a/包含從由/ax/、/aa/、/ae/、/ao/、/aw/、/er/、/ay/、/eh/和/ey/構(gòu)成的組中選出的英語音素;主元音音素/i/包含從由/ih/和/iy/構(gòu)成的組中選出的英語音素;并且主元音音素/u/包含從由/ow/、/oy/、/uh/和/uw/構(gòu)成的組中選出的英語音素。
4.根據(jù)權(quán)利要求
1中的方法,進(jìn)一步包含將元音音素映射到發(fā)音嘴形以使虛擬角色動(dòng)畫化。
5.根據(jù)權(quán)利要求
1中的方法,進(jìn)一步包含在移動(dòng)無線通信設(shè)備處接收語音數(shù)據(jù)。
6.根據(jù)權(quán)利要求
5中的方法,其中當(dāng)接收到語音數(shù)據(jù)時(shí),實(shí)時(shí)地對(duì)有聲語音段的高振幅成分進(jìn)行分類。
7.根據(jù)權(quán)利要求
1中的方法,其中確定高振幅頻譜的步驟包括通過根據(jù)振幅而使有聲語音段的高振幅成分的快速傅立葉變換、即FFT標(biāo)準(zhǔn)化,確定已標(biāo)準(zhǔn)化了的快速傅立葉變換、即FFT數(shù)據(jù);對(duì)已標(biāo)準(zhǔn)化了的FFT數(shù)據(jù)進(jìn)行濾波,以創(chuàng)建已標(biāo)準(zhǔn)化和濾波了的FFT數(shù)據(jù);檢測已標(biāo)準(zhǔn)化和濾波了的FFT數(shù)據(jù)中的峰值;和基于所檢測到的峰值而將已標(biāo)準(zhǔn)化和濾波了的FFT數(shù)據(jù)分類為子波段。
8.根據(jù)權(quán)利要求
7中的方法,其中檢測已標(biāo)準(zhǔn)化和濾波了的FFT數(shù)據(jù)中的峰值的步驟包含對(duì)峰值的數(shù)目進(jìn)行計(jì)數(shù)、測量峰值分布和測量峰值能量。
9.根據(jù)權(quán)利要求
7中的方法,其中子波段被索引為從0到3,并且簡化的元音集合包含以下主元音音素/a/,其中高振幅頻譜的能量集中在子波段1或2中;/i/,其中高振幅頻譜的能量集中在子波段0和2中;與/u/,其中高振幅頻譜的能量集中在子波段0中。
10.根據(jù)權(quán)利要求
1中的方法,其中有聲語音段的高振幅成分包括語音數(shù)據(jù)的關(guān)鍵幀。
專利摘要
一種用于對(duì)實(shí)時(shí)語音數(shù)據(jù)進(jìn)行分類的計(jì)算上不密集的方法可用于改善虛擬角色的動(dòng)畫化。該方法包含標(biāo)識(shí)語音數(shù)據(jù)的有聲語音段(步驟410)。然后通過對(duì)有聲語音段的高振幅成分執(zhí)行頻譜分析來確定高振幅頻譜(步驟415)。之后將該高振幅頻譜分類為元音音素,該元音音素是從簡化的元音集合中選擇出來的(步驟440)。
文檔編號(hào)G10L25/93GK1991981SQ200510121718
公開日2007年7月4日 申請(qǐng)日期2005年12月29日
發(fā)明者祖漪清, 黃建成, 王開志 申請(qǐng)人:摩托羅拉公司導(dǎo)出引文BiBTeX, EndNote, RefMan